Сегодня 24 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Zero Parades: For Dead Spies — шпион, выйди вон. Рецензия 5 ч.
ИИ-супермодель Claude Mythos всего за месяц обнаружила свыше 10 тыс. уязвимостей в ПО 9 ч.
В Linux обнаружена очередная серьёзная уязвимость — и ей уже десять лет 12 ч.
Firefox перестал вылетать на ПК с процессорами Intel Raptor Lake — на исправление ошибки ушёл год 13 ч.
Outlook Classic перестал показывать картинки, но Microsoft обещала всё починить 13 ч.
На GitHub напал Megalodon — вредоносный код заразил более чем 5500 репозиториев 16 ч.
Марк Цукерберг высказался в защиту тотальной слежки за действиями сотрудников Meta — для обучения ИИ, но это не точно 18 ч.
Техногиганты в последний момент отговорили Трампа подписывать указ об обязательных проверках ИИ 18 ч.
Новый поиск Google оказался капризным: из-за ИИ запросы «стой» и «игнорируй» ломают выдачу 19 ч.
Глава DeepMind спрогнозировал появление сильного искусственного интеллекта (AGI) к 2030 году 23-05 04:46
Первый полёт Starship V3 доказал живучесть обновлённой мегаракеты, хоть и закончился взрывом 8 ч.
Трамп случайно вложил $1 млн в сеть суши-ресторанов вместо производителя ИИ-оборудования 11 ч.
Первая женщина-тайконавт из Гонконга отправится на китайскую космическую станцию 13 ч.
Производитель умных колец Oura подал заявку на IPO 13 ч.
Производителей компонентов для жёстких дисков заподозрили в завышении цен на протяжении 13 лет 13 ч.
Dell представила «элитные» All-Flash СХД PowerStore Elite вместимостью до 5,8 Пбайт 13 ч.
YADRO представила коммутаторы KORNFELD SE для кампусных сетей 15 ч.
Lenovo представила ноутбук IdeaPad Slim 5i на чипе Intel Wildcat Lake — это прямой конкурент MacBook Neo 16 ч.
С началом строительства ЦОД Meta в США вода в близлежащем округе помутнела 16 ч.
Cолнечная и ветровая энергетика впервые обогнали газовые электростанции по выработке электричества 19 ч.