Сегодня 19 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Мультяшный экшен Into The Unwell не выйдет в 2026 году — разработчики слишком бурно отпраздновали День вафель 29 мин.
Meta принудительно переведёт 7000 сотрудников на должности в сфере ИИ 31 мин.
Передовые чат-боты с ИИ провалились в роли радиоведущих — каждый по своему 39 мин.
Похоже, Lords of the Fallen 2 всё-таки выйдет в Steam — CI Games разорвала издательское соглашение с Epic Games 2 ч.
В России появится единая платформа управления IT-сервисами и инфраструктурой 2 ч.
Xbox открыла портал Xbox Player Voice для сбора отзывов — игроки требуют эксклюзивы и бесплатный мультиплеер 3 ч.
«Если хочется поубивать, идите в Sons of the Forest»: разработчики Subnautica 2 отказались добавлять в игру убийства, но моддеры тут как тут 3 ч.
«Сбер» в следующем году собрался выпустить собственный мессенджер — с чатами, звонками, видео, почтой, календарём, задачами и GigaChat 4 ч.
«Базис» впервые стал лауреатом премии «ЦИПР Диджитал» за проект в теплоэнергетике 5 ч.
Конференция Apple WWDC 2026 начнётся 8 июня, уделив особое внимание искусственному интеллекту 8 ч.
LG выпустит первый игровой монитор с частотой обновления 1000 Гц и разрешением 1080p 33 мин.
Мировые поставки OLED-мониторов за год подскочили на 78 % — почти четверть рынка за Asus 36 мин.
AMD и NVIDIA свернули не туда: следующий крупный американский суперкомпьютер может получить HPC-чипы NextSilicon 60 мин.
В России стартовали продажи смартфона Realme 16 5G с селфи-зеркалом у основной 50-Мп камеры — от 33 тыс. рублей 3 ч.
NextEra Energy купит Dominion Energy, превратившись в крупнейшую в мире регулируемую энергокомпанию 4 ч.
Intel и Qualcomm поборются за ИИ-стартап Джима Келлера стоимостью $5 млрд 4 ч.
Спутниковый интернет Starlink подорожал на $5–10 4 ч.
Baikal обещает к 2030 году выпустить «основу суверенных дата-центров» — отечественные ИИ-чипы, совместимые с Nvidia CUDA 4 ч.
Европа снова хочет свой «Шаттл» — французский проект космоплана VORTEX поддержала Германия 4 ч.
Энергия как услуга: Hitachi и X LABS займутся созданием гигаваттных энергетических парков для ИИ ЦОД 5 ч.