Сегодня 23 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → экзамен

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.


window-new
Soft
Hard
Тренды 🔥
Ни слова по-русски, $70 за стандартное издание и релиз в октябре: датамайнеры выяснили новые подробности Battlefield 6 35 мин.
Аркадный боевик Terminator 2D: No Fate по мотивам «Терминатор 2: Судный день» не выйдет 5 сентября — объявлена новая дата релиза 2 ч.
Конкуренция в IT не так страшна, как кажется: что показал анализ 30 тысяч вакансий 2 ч.
ИИ-обзоры Google отобрали огромную долю трафика у сайтов, показало исследование 3 ч.
SSD не нужны: OFP обещает на порядок повысить плотность All-Flash СХД и наполовину снизить расходы на инфраструктуру 3 ч.
Windows 11 получила обновлённый Copilot Vision и другие свежие ИИ-функции 4 ч.
Apple выпустила четвёртую бета-версию iOS 26 бета c доработками Liquid Glass и ИИ-сводками новостей 5 ч.
«Sea of Thieves в космосе»: игроки встретили мультиплеерный шутер Wildgate от компании сооснователя Blizzard «очень положительными» отзывами в Steam 12 ч.
Создатели Until Dawn устроили новую волну сокращений и отложили релиз нелинейного хоррора Directive 8020 13 ч.
Более пяти миллионов ассасинов: Ubisoft похвасталась достижениями игроков Assassin's Creed Shadows 15 ч.
Европа стряхнула пыль с марсианского парашюта для миссии ExoMars и испытала его над Арктикой 11 мин.
Илон Маск померялся ИИ-амбициями с Сэмом Альтманом и пообещал, что xAI получит до 50 млн GPU за пять лет 17 мин.
Итальянские учёные научились идентифицировать людей по воздействию тела на сигнал Wi-Fi 22 мин.
BYD притормозила запуск сборки китайских электромобилей в Венгрии, зато ускорила в Турции 34 мин.
SpaceX раскритиковала конкурента AST SpaceMobile за опасные «теннисные корты» на орбите 39 мин.
Администрацию Трампа поймали на желании уничтожить доказательства климатических преступлений человечества 46 мин.
Электромобиль Ford Mustang Mach-E сохранил более 90 % ёмкости батареи, намотав 400 000 км пробега 3 ч.
Утёкшие рендеры раскрыли цветовые варианты смартфонов серии Pixel 10 4 ч.
Возобновление поставок ускорителей Nvidia H20 в Китай таит в себе кучу рисков и неопределённости 4 ч.
Падение спроса на ПК вынудило Dell перевести профильный бизнес под управление операционного директора 5 ч.