Сегодня 22 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Сегодня исполнилось 16 лет первой покупке за биткоины — две пиццы теперь стоили бы $770 млн 51 мин.
OpenAI сорвала выход полнометражного мультфильма Critterz, закрыв ИИ-видеогенератор Sora 2 ч.
Microsoft разрешит убирать раздражающую кнопку ИИ-помощника Copilot в Word, Excel и PowerPoint 2 ч.
Новый большой патч для Crimson Desert добавил детёнышей виверн и позволил Клиффу использовать дробовик 3 ч.
Meta переизобрела Reddit — приложение Forum объединит группы Facebook и ИИ-поиск ответов 3 ч.
Техас подал иск против Meta и WhatsApp — мессенджер соврал про зашифрованные переписки 3 ч.
Red Dead Redemption 2 вошла в тройку самых продаваемых игр за всю историю 4 ч.
Microsoft придумала временную заплатку для уязвимости YellowKey в BitLocker 5 ч.
Bungie после завершения поддержки Destiny 2 готовит не Destiny 3, а массовые увольнения 5 ч.
Apple попросила Верховный суд США пересмотреть решение, заставившее её поменять правила App Store 5 ч.
Зарядка от Valve Steam Controller оказалось травмоопасной — она может ударить током 14 мин.
Работники чипового бизнеса Samsung выбили бонусы до $428 000 — остальные почувствовали себя обделёнными 15 мин.
Gigabyte выпустила 27-дюймовый игровой WOLED-монитор GO27Q24G с QHD и 240 Гц 20 мин.
Lenovo представила геймерский смартфон Legion Y70 и пару планшетов Legion Y900 с большими экранами 30 мин.
Wi-Fi 6 с подогревом: Netcraze представила уличную точку доступа Stellar 6 NAP-650 41 мин.
Китайские электромобили уже захватили 15 % европейского рынка и вряд ли остановятся 53 мин.
Waymo перестала пускать роботакси на скоростные шоссе в США из соображений безопасности 2 ч.
В Канаде нашли практически бесплатный источник «белого» водорода — он давно газирует воду в местных источниках 2 ч.
Лиза Су лично поехала на Тайвань выбивать дополнительные мощности для производства чипов AMD 3 ч.
Российская дистрибуция электроники рухнула на 35 % — маркетплейсы вытесняют розницу, а покупатели экономят 3 ч.