Сегодня 27 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Anthropic получила право восстановить доступ к Mythos 5 для ряда клиентов 2 ч.
Новая статья: Call of the Elder Gods — уют неизведанного. Рецензия 8 ч.
OpenAI представила GPT-5.6 Sol, Terra и Luna, но доступ к новым моделям получили лишь избранные 11 ч.
Мультиплеер Bloodborne на ПК станет реальностью — разработчики эмулятора shadPS4 готовят ответ PlayStation Network 12 ч.
Фанаты Resident Evil 2 спустя 28 лет поисков установили личность загадочного бойфренда Джилл Валентайн 13 ч.
«Безликая толпа» навсегда отстранила основателя «Википедии» от её редактирования 14 ч.
Фанаты выдают желаемое за действительное: авторитетное издание опровергло слухи о планах Rockstar на выпуск дискового издания GTA VI 15 ч.
«Рискуют разочаровать фанатов»: ветеран Bethesda предостерёг Xbox насчёт ускорения разработки The Elder Scrolls VI и Fallout 5 15 ч.
Альтернативный клиент Telega объявил о закрытии с 1 июля 18 ч.
На платформе ClawHub обнаружены вредоносные навыки для ИИ-агента OpenClaw 19 ч.
Apple запланировала на осень обновлённый MacBook Pro на чипе M6 и сенсорный MacBook Ultra на основе M5 Pro и Max 11 мин.
Руководитель разработки Apple Vision Pro переходит на работу в OpenAI 16 мин.
Акции SpaceX будут включены в индекс Nasdaq 100 по ускоренному варианту, расширив доступность для инвесторов 2 ч.
Китай в ближайшие годы вдвое расширит орбитальную станцию «Тяньгун» и запустит телескоп уровня «Хаббла» 8 ч.
Представлен отечественный шлюз веб-безопасности корпоративного класса UserGate Secure Web Gateway 10 ч.
MSI выпустит в России флагманский игровой ноутбук Titan 18 HX Dragon Edition Draco Epic с Core Ultra 9 290HX и RTX 5090 10 ч.
Моддер научил контроллер Steam самостоятельно возвращаться к зарядному устройству 12 ч.
Qualcomm готовит Snapdragon 8 Elite Gen 6 Pro и ещё несколько флагманских чипов, разобраться в которых будет непросто 14 ч.
«Неустойчивая бизнес-модель»: Volkswagen готовится уволить до 100 000 сотрудников и закрыть четыре завода 14 ч.
Valve отказалась от громких обещаний по поводу производительности Steam Machine 15 ч.