Сегодня 26 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Гибкие настройки безопасности и новые инструменты для работы с шаблонами — «Базис» обновил конструктор Basis Automation Studio до версии 2.4 24 мин.
Гибкие настройки безопасности и новые инструменты для работы с шаблонами — «Базис» обновил конструктор Basis Automation Studio до версии 2.4 25 мин.
Симулятор жизни Paralives порадовал разработчиков продажами на старте раннего доступа Steam 29 мин.
ЕС готовится оштрафовать Google на рекордную сумму по итогам антимонопольного расследования 5 ч.
Accenture и OneView Commerce получили контракт на замену скандально известного ПО Fujitsu Horizon для Почты Великобритании 13 ч.
Tether выпустит цифровой грузинский лари совместно с правительством Грузии 13 ч.
Konami показала 50 минут геймплея Metal Gear Solid 4: Guns of the Patriots на PS5 — фанаты в восторге 16 ч.
Календарь релизов 25–31 мая: 007 First Light, Paralives, Mina the Hollower и WoT: Heat 16 ч.
Trump Mobile запустила расследование утечки личных данных покупателей смартфона T1 16 ч.
Фанаты призвали Sony сделать Destiny 3 — петицию поддержали больше 180 тысяч человек 17 ч.
Новая статья: Своевременная доставка до последнего байта: как российская сеть Curator CDN совмещает скорость, безопасность и гибкость управления 22 мин.
Учёные впервые поймали гамма-лучи сверхъяркой сверхновой — их связали с рождением магнитара 23 мин.
MediaTek намекнула на выпуск первого чипа для Windows-ноутбуков в преддверии Computex 2026 5 ч.
Масштабный разворот внешнего ядра Земли, начавшийся в 2010 году, может оказаться временным явлением 5 ч.
Новая статья: Обзор и тест процессорного кулера PCCooler RZ700D: битва башен 10 ч.
Tryx представила жидкостный кулер Holo с голографическим дисплеем 10 ч.
Со своим можно: в РФ готовы разрешить строить ЦОД, если они самообеспечатся энергией 11 ч.
Совокупная мощность строящихся ЦОД в мире удвоилась всего за год и достигла 31,7 ГВт 11 ч.
Honor представила смарт-часы Watch 6 Plus с автономностью до 17 дней и ценой от $191 13 ч.
Oppo представила внешний дисплей на магните для смартфонов — чтобы делать селфи и групповые фото 16 ч.