Сегодня 16 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новый ИИ-помощник Adobe может использовать приложения Creative Cloud для выполнения задач 7 ч.
Призыв существ, талисманы и новое эпическое оружие: для Titan Quest 2 вышло крупное обновление 8 ч.
Google выпустила приложение Gemini для macOS 9 ч.
Хоррор-шутер Industria 2 перенесли на 29 апреля — создатели пообещали как следует поработать в ближайшие две недели 9 ч.
Поездка затягивается: уютный симулятор путешествий в доме на колёсах Outbound не выйдет 23 апреля 10 ч.
«Вложу всю свою страсть, энергию и душу»: анимационный фильм по Bloodborne оказался в надёжных руках 11 ч.
Snap объявила о сокращении 1000 человек из-за «достижений в области ИИ» 11 ч.
Нет худа без добра: украденные хакерами данные об успехах GTA Online обернулись для Take-Two резким ростом стоимости акций 12 ч.
Европейское приложение для верификации возраста пользователей готово к запуску 14 ч.
Переработанная функция Windows Recall всё ещё не отвечает требованиям безопасности 14 ч.
Рекордные доходы Samsung в первом квартале повысили риск новых забастовок сотрудников 2 ч.
Обувная компания Allbirds решила стать ИИ-неооблаком NewBird AI — инвесторы в восторге 6 ч.
Новая статья: ИИ в иллюминаторе: перспективы орбитальных дата-центров 7 ч.
Китайские учёные совершили рывок в сверхплотной голографической записи 9 ч.
Credo купила израильского разработчика кремниевой фотоники DustPhotonics 9 ч.
Keychron представила беспроводную игровую мышку G3 весом 44 г с флагманской начинкой 10 ч.
Аналитики уверены, что Apple не будет повышать цены на Mac, чтобы перетянуть пользователей ПК 11 ч.
Intel рассказала, каким должен быть игровой ноутбук с ИИ на базе Core Ultra 200HX Plus, — тихим, мощным и холодным 11 ч.
Компания Science бывшего президента Neuralink готовится установить в мозг человека первый биогибридный имплант 11 ч.
Microsoft получит 30 тыс. ИИ-ускорителей NVIDIA Vera Rubin, от которых отказалась OpenAI, отменившая проект Stargate Norway 13 ч.