Сегодня 31 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Is This Seat Taken? — все когда-нибудь сядут. Рецензия 2 ч.
Meta без спроса заполонила свои соцсети ИИ-двойниками Тейлор Свифт, Скарлетт Йоханссон и других знаменитостей 8 ч.
Стартап Илона Маска обвинил бывшего сотрудника в краже секретов для OpenAI 12 ч.
xAI Илона Маска представила ИИ для программирования, который отвечает мгновенно 12 ч.
Тестирование крупного обновления Windows 11 25H2 вышло на финишный этап 14 ч.
ЕС всё же оштрафует Google за антиконкурентное поведение, но наказание будет скромным 15 ч.
Meta исправила методику обучения ИИ после скандала с неуместными разговорами с подростками 16 ч.
Кровавый геймплейный трейлер раскрыл дату выхода Bloodthief — ураганного слешера про ненасытного вампира 30-08 00:16
Новая статья: Inkshade — навстречу бездне. Рецензия 30-08 00:02
Массовый исход сотрудников элитной лаборатории суперинтеллекта Meta дестабилизировал всю компанию 29-08 18:57
В блистающих останках умирающей звезды «Джеймс Уэбб» увидел, как могла зарождаться Земля 5 ч.
MaxSun представила компактную материнскую плату с разъёмом PCIe x16 для видеокарт на изнанке 8 ч.
Nvidia захватила почти четверть рынка GPU для ПК — лидирует Intel, а доля AMD сжалась до 14 % 10 ч.
General Atomics завершила создание 1000-тонного магнита для термоядерного реактора ИТЭР 10 ч.
Realme не будет выпускать складные смартфоны, а сделает ставку на флагманы и пауэрбанки 14 ч.
Китайские учёные создали «всечастотный» чип для 6G — 100 Гбит/с почти в любых условиях 14 ч.
После утечки секретов о 2-нм техпроцессе TSMC предложила другим компаниям свою систему защиты данных 18 ч.
Intel избавилась от части обязательств перед США по «Закону о чипах» 18 ч.
Huawei объявила о полной победе над санкциями США и нацелилась на лидерство в ИИ 19 ч.
Замедление ИИ-бумa обрушило акции американских чипмейкеров 20 ч.