Сегодня 22 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI облажалась с диаграммами на презентации GPT-5 — Альтман признал ошибку

Во время масштабной прямой трансляции с презентацией модели искусственного интеллекта GPT-5 компания OpenAI продемонстрировала несколько диаграмм, которые должны были иллюстрировать впечатляющие способности новой модели. Однако при более внимательном рассмотрении некоторые графики оказались построены с серьёзными неточностями.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

На одной из диаграмм, которая, по иронии, должна была демонстрировать высокие результаты GPT-5 в «оценке склонности к обману у разных моделей», шкала не соответствует числовым значениям. Например, для «обмана при написании кода» у GPT-5 указано значение 50,0 %, тогда как у модели o3 — 47,4 %. Однако столбец для o3 на диаграмме оказался выше. Более того, в корпоративном блоге OpenAI указано совсем другое значение для GPT-5 — 16,5 %, что, вероятно, и является верным показателем.

 Источник изображения: x.com/shreyk0

Источник изображения: x.com/shreyk0

В тесте SWE-bench Verified один из показателей GPT-5 должен быть ниже, чем у o3, но ему соответствует более высокий столбец диаграммы; на этой же диаграмме результаты o3 и GPT-4o различаются, но иллюстрируются столбцами одинакового размера. В OpenAI восприняли ошибку всерьёз — гендиректор компании Сэм Альтман (Sam Altman) повинился и добавил, что в корпоративном блоге опубликованы правильные версии.

 Источник изображения: x.com/EgeErdil2

Источник изображения: x.com/EgeErdil2

В OpenAI не уточнили, использовалась ли сама GPT-5 для построения диаграмм, но такой инцидент явно не добавляет доверия в контексте масштабной презентации новой модели. Особенно с учётом того, что разработчики заявили о значительном снижении уровня галлюцинаций у GPT-5.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Дождались Японию: за неделю в Forza Horizon 6 сыграло 6 миллионов человек 3 ч.
GTA VI точно выйдет 19 ноября — Take-Two уже планирует, сколько денег принесёт игра 3 ч.
AMD внезапно обновила драйверы для древних видеокарт Polaris и Vega 11 ч.
Microsoft теряет GitHub: сервис захлестнули сбои, хаос и массовый уход разработчиков 11 ч.
Без техподдержки, апдейтов и прав: почти треть крупного российского бизнеса использует зарубежное ПО 12 ч.
Новый геймплейный трейлер амбициозной стратегии Warhammer 40,000: Dawn of War 4 раскрыл дату выхода и планы на DLC 15 ч.
В Steam стартовала закрытая «бета» Warhammer 40,000: Dark Heresy, а третье дополнение к Rogue Trader уже совсем рядом 16 ч.
Психогеографическая ролевая игра Hopetown получила геймплейный тизер и заручилась поддержкой ещё одного ветерана Disco Elysium 16 ч.
Предзаказы Assassin’s Creed Black Flag Resynced оказались среди «самых сильных в истории франшизы» — Ubisoft рассчитывает на большой успех 17 ч.
Ролевой боевик Fatekeeper в духе Dark Messiah of Might and Magic не заставит себя долго ждать — объявлена дата выхода в раннем доступе Steam 17 ч.
Потеря слуха и мёртвые цыплята: против майнинговой компании Mara подали очередной судебный иск в Техасе 2 ч.
«Уэбб» разглядел на «горячем юпитере» утренние облака из «песка», которые исчезают к вечеру 2 ч.
Марсоход NASA Perseverance нашёл на Марсе «сэндвич» из камней 3 ч.
Новая мегаракета SpaceX остановилась в шаге от запуска — подвело наземное оборудование 3 ч.
Lam Research собирается внедрять ИИ в оборудование для производства чипов, чтобы снизить уровень брака продукции 4 ч.
Anthropic ищет любые мощности для ИИ: в ход могут пойти чипы Microsoft Maia 200 5 ч.
NASA зафиксировало возобновление утечки воздуха в российском сегменте МКС 6 ч.
Nvidia открестилась от GeForce: компания перестала отчитываться о продажах игровых видеокарт 6 ч.
Xiaomi представила фитнес-трекер Smart Band 10 Pro с ярким экраном, ВСР-мониторингом и игровым режимом за $58 11 ч.
Новая статья: 72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию 11 ч.