Сегодня 05 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Grime 2 — истязание на любителя. Рецензия 2 ч.
Новая статья: Gamesblender № 770: релиз DLSS 4.5, Синдзи Миками и авторы Stellar Blade, почти конец Eidos Montreal 3 ч.
Энтузиаст установил Windows 3.1x на компьютер 2025 года — и она заработала c Ryzen 9 9900X и RTX 5060 Ti 7 ч.
В руководстве OpenAI провели очередные кадровые перестановки — частично вынужденные 12 ч.
Nvidia показала нейронное сжатие текстур: потребление видеопамяти упало почти в 7 раз 12 ч.
Суд обязал Netflix вернуть деньги за необоснованное повышение стоимости подписок, но только в одной стране 14 ч.
Anthropic ввела дополнительную плату за подключение OpenClaw к Claude 14 ч.
На Perplexity подали в суд за тайную передачу личных данных и переписок пользователей рекламщикам 14 ч.
Техподдержка NASA удалённо починила Microsoft Outlook на планшете командира лунной миссии Artemis II 15 ч.
Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами 20 ч.
Обновлённый RedMagic 11 Pro показал достойный FPS в играх для ПК класса AAA 9 ч.
ИИ на селе: NetApp и NTT протестировали геораспределённое обучение LLM 11 ч.
Стартап CavilinQ получил $8,8 млн на разработку квантового интерконнекта для объединения квантовых компьютеров 12 ч.
Специалисты iFixit разобрали наушники Apple AirPods Max 2 — внутренняя компоновка не изменилась 12 ч.
Беспроводная оптическая связь внутри помещений показала новые рекорды скорости и эффективности 14 ч.
Apple распродала все Mac Studio с 256 Гбайт оперативки — сроки доставки растянулись до 4–5 месяцев 16 ч.
Удачно прилунившийся модуль Firefly Aerospace Blue Ghost рассказал о Луне нечто неожиданное 17 ч.
Китайские производители чипов завершили прошлый год рекордными объёмами выручки 18 ч.
Тестовый полёт космического корабля SpaceX Starship V3 в очередной раз перенесён на месяц 21 ч.
Восстание стиральных машин: программное обновление не позволило клиентам Samsung выстирать одежду 21 ч.