Сегодня 11 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новый большой патч принёс в Crimson Desert особые виды транспорта и извлечение материалов — подробности обновления 1.06.00 2 мин.
Nvidia подтвердила утечку данных пользователей GeForce Now через армянские сервера 17 ч.
Ветеран Epic Games взялся за европейскую альтернативу Unreal Engine 21 ч.
Google привязала reCAPTCHA к Play Services и отрезала от верификации пользователей Android без сервисов Google 23 ч.
Новая статья: Heroes of Might and Magic: Olden Era — время расцвета. Предварительный обзор 10-05 00:05
Anthropic отучила свой ИИ шантажировать пользователей при угрозе отключения 09-05 18:52
Microsoft улучшила работу Windows 11 с тачпадом и сенсорной клавиатурой, а также повысила стабильность «Проводника» 09-05 17:28
Пользователей Instagram лишили сквозного шифрования в личных сообщениях 09-05 16:51
ИИ всё чаще пишет научные статьи — отличить от человеческих становится невозможно, и это пугает 09-05 14:43
ИИ-модель OpenAI GPT-5.5 оказалась в 1,5–2 раза дороже предшественницы 09-05 14:38
Nintendo уронила акции повышением цен на Switch 2 и слабым прогнозом, —а акции Sony подорожали на 10 % 44 мин.
Tesla издевается над фанатами, внезапно отложив церемонию вручения последних Model S и Model X 3 ч.
Учёные предложили разгадку 14 загадочных синих вспышек, наблюдаемых во Вселенной с 2018 года 3 ч.
ByteDance резко увеличит расходы на ИИ — и закупит больше китайских чипов 4 ч.
Apple сохранит высокую зависимость от TSMC, поскольку та будет выпускать по 2-нм технологии модемы 5G 4 ч.
Новая статья: Обзор смартфона nubia Z80 Ultra: на этой выставке я главный экспонат 10 ч.
Новая статья: ИИтоги апреля 2026 г.: пестроцветная инкапсуляция смыслов 11 ч.
Рождение новой SpaceX? Инвесторы с Reddit разогнали акции спутниковой компании AST SpaceMobile на 6000 % 18 ч.
MaxSun выпустила новые MoDT-платы с распаянными Raptor Lake серии Core 200H 20 ч.
Samsung расширила группу по созданию человекоподобных роботов и ускорила ИИ-трансформацию 24 ч.