Сегодня 15 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI заподозрили в манипуляциях с тестами мощной ИИ-модели o3

В декабре прошлого года OpenAI представила большую языковую модель o3, заявив, что она способна справиться более чем с 25 % набора сложных математических задач FrontierMath, тогда как другие ИИ-модели справлялись только с 2 % заданий из этого набора. Однако расхождения между результатами внутренних и независимых тестов вызывали вопросы о прозрачности компании и практике тестирования нейросетей.

 Источник изображения: Levart_Photographer / unsplash.com

Источник изображения: Levart_Photographer / unsplash.com

На момент анонса ИИ-модели o3 представитель компании особо отметил результаты алгоритма при решении задач FrontierMath. Однако выпущенная на прошлой неделе потребительская версия алгоритма далеко не так хорошо справляется с вычислениями. Это может указывать на то, что OpenAI либо завысила результаты тестирования, либо в нём была задействована другая, более способная к решению математических задач версия o3.

Исследователи из Epoch AI, стоящие за созданием FrontierMath, опубликовали результаты независимых тестов общедоступной версии ИИ-модели o3. Оказалось, что алгоритм сумел справиться только с 10 % задач, что значительно ниже заявленных OpenAI 25 %. Вместе с этим исследователи протестировали ИИ-модель o4-mini, более компактный и дешёвый алгоритм, который является преемником o3-mini.

 Источник изображения: @EpochAIResearch / X

Источник изображения: @EpochAIResearch / X

Конечно, расхождение в результатах тестирования не означает, что OpenAI намеренно завысила показатели ИИ-модели. Нижняя граница результатов тестирования OpenAI практически совпадает с результатами, полученными Epoch AI. В Epoch AI также отметили, что тестируемая ими модель, скорее всего, отличается от той, что тестировалась OpenAI. Также отмечается, что исследователи задействовали обновлённую версию набора задач FrontierMath.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI оценивает результаты с помощью более мощной внутренней версии, используя больше времени для вычислений, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-2024-11-26 против 290 задач в frontiermath-2025-02-28)», — сказано в сообщении Epoch AI.

По данным организации ARC Foundation, которая тестировала предварительную версию o3, публичная версия ИИ-алгоритма «представляет собой другую модель», которая оптимизирована для использования в чате/продуктах. «Вычислительный уровень всех выпущенных версий o3 ниже, чем у версии, которую мы тестировали», — сказано в сообщении ARC.

Сотрудница OpenAI Венда Чжоу (Wenda Zhou) рассказала, что публичная версия o3 «более оптимизирована для реальных случаев использования» и повышения скорости обработки запросов по сравнению с версией o3, которую компания тестировала в декабре. По её словам, это и является причиной того, что результаты тестирования в бенчмарках могут отличаться от того, что показывала OpenAI.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Docked — классический немецкий симулятор, только не от немцев. Рецензия 5 ч.
Новая статья: Gamesblender № 767: следующая Xbox, новые процессоры Intel, суд Nintendo и США, инфляция в Fortnite 5 ч.
Карточный роглайк Slay of the Spire 2 разошёлся тиражом в 3 млн копий — разработчики спешно готовят для него новый контент 9 ч.
Хакеры начали заполонять GitHub проектами с «невидимым» вредоносным кодом 16 ч.
Игры для ПК избавятся от компиляции шейдеров — Microsoft повсеместно распространит ASD на Windows 16 ч.
Группа ИИ-агентов взломала базу данных несуществующей компании, хотя их об этом не просили 17 ч.
Adobe заплатит $150 млн по иску о платной отмене подписок на Photoshop и другие приложения 19 ч.
Meta скоро отключит сквозное шифрование для личных сообщений в Instagram 19 ч.
Администрации Трампа перепадут $10 млрд в качестве вознаграждения за «приземление» TikTok 21 ч.
xAI накрыла новая волна увольнений — компанию покинули ещё два сооснователя, которых Маск обвинил в отставании Grok от конкурентов 23 ч.
Бактерии научили вырабатывать электричество при обнаружении опасных веществ — для этого их «заключили под стражу» 7 ч.
Noctua готовит корпус для ПК с фирменными вентиляторами и деревянной панелью 10 ч.
Synopsys показала в деле интерфейс класса PCIe 8.0 со скоростью 256 ГТ/с 10 ч.
AWS и Cerebras готовят решение для пятикратного ускорения инференса ИИ 10 ч.
Ключевые металлы для производства чипов подорожали вдвое и даже больше — отрасль готовится к дефициту 10 ч.
В России в прошлом году солнечная генерация выросла всего на 100 МВт — в 3150 раз меньше, чем в Китае 13 ч.
В Meta назревает новая волна увольнений: из-за ИИ могут уволить каждого пятого 16 ч.
Chuwi снова поймали на подмене процессоров: внутри ноутбука оказался менее мощный Ryzen, чем в характеристиках 16 ч.
Apple отпразднует 50-летие мероприятиями «по всему миру» — на первом спела Алиша Киз 16 ч.
Телескоп LOFAR обнаружил 13,7 млн ранее неизвестных объектов в крупнейшем радиообзоре Вселенной 18 ч.