Сегодня 04 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Отправление задерживается: безумный платформер про неподвластный гравитации поезд Denshattack! не выйдет 17 июня 2 ч.
AMD не планирует наделять поддержкой FSR 4.1 встроенную графику RDNA 3.5 2 ч.
FromSoftware подтвердила дату выхода Elden Ring: Tarnished Edition для Nintendo Switch 2 и платное дополнение для других платформ 3 ч.
Apple App Store обеспечил разработчикам приложений $1,4 трлн продаж — втрое больше, чем в 2019 году 4 ч.
«Всё, о чём я мечтал, и даже больше»: 10 минут геймплея Ace Combat 8: Wings of Theve привели фанатов в восторг 4 ч.
God of War Laufey не придётся ждать годами 5 ч.
Instagram оповестил пользователей, которых взломали с помощью ИИ-бота Meta 7 ч.
Авторитетный инсайдер считает, что большая июньская презентация Nintendo Direct пройдёт на следующей неделе 8 ч.
Глава Take-Two Interactive Штраус Зельник стал рестлером — руководителя добавили в WWE 2K26 9 ч.
Meta вместо закрытия VR-приложения Supernatural выделит его разработку в самостоятельную компанию 9 ч.
Cooler Master представила процессорный кулер V8 Ace 3DHP с «экстремальной» эффективностью теплоотвода 3 ч.
Представлен доступный смартфон Huawei nova Y74 — камера 50 Мп и батарея на 6620 мА·ч 3 ч.
AMD отобрала у Intel треть рынка x86-процессоров, пока рынок настольных CPU рухнул на 20 % 3 ч.
PowerColor показала видеокарты Radeon RX 9000, которые святятся под ультрафиолетом 4 ч.
3,84 Тбайт в формате M.2 — Swissbit представила SSD серии N7000 4 ч.
Silicon Motion нарастила продажи SSD-контроллеров на фоне дефицита NAND — нехватка памяти усугубится в 2027 году 4 ч.
7 из 10 американцев не хотят видеть дата-центры рядом с домом — ещё девять месяцев назад таких было лишь 42 % 4 ч.
Amazon представила полностью автономного складского робота Proteus с голосовым управлением 5 ч.
Microsoft: современный ИИ ЦОД потребляет воды не больше, чем ресторан 6 ч.
Репортаж со стенда Acer на Computex 2026: 50 лет инноваций, умные очки, игровые консоли и устройства нового поколения 6 ч.