Сегодня 08 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Леон должен умереть навсегда»: Capcom выпустила для Resident Evil Requiem обновление с новым режимом, и фанаты «Наёмников» не рады 32 мин.
В ChatGPT появился «доверенный контакт» — его уведомят, если пользователь захочет навредить себе 43 мин.
OpenAI распустила две команды по безопасности ИИ ради прибыли, заявила бывшая сотрудница стартапа 48 мин.
Приложение Fitbit превратилось в Google Health — и сможет собирать данные о здоровье даже из Apple Health 13 ч.
Новый стандарт жанра для вселенной «Чужих»: анонсирован амбициозный кооперативный шутер Aliens: Fireteam Elite 2 14 ч.
В Steam вышло атмосферное сюжетное приключение Will: Follow The Light о поиске смысла «даже в темноте» 15 ч.
Заряженное ностальгией музыкальное приключение Mixtape от создателей The Artful Escape очаровало критиков — игра доступна в российском Steam 16 ч.
IBM когда-то хотела отказаться от навигации с клавишей Tab — Microsoft не согласилась, сославшись на маму Билла Гейтса 17 ч.
ИИ с «глазами» оказался в разы дороже обычного API — агенты сжигают бюджеты, ходя по сайтам 17 ч.
Глава Take-Two взял вину за неудачи Sid Meier’s Civilization VII на себя, а обновление Test of Time исправит главную проблему игры 17 ч.
NVIDIA и Iren объединили усилия для создания ИИ-инфраструктуры мощностью до 5 ГВт 59 мин.
Arm уже получает 15 % выручки от серверного направления и рассчитывает утроить её к 2031 году 3 ч.
AMD представила ускоритель Instinct MI350P — CDNA 4 в формате PCIe 10 ч.
Valve внедрила защиту от перекупщиков и пообещала новые партии Steam Controller 10 ч.
Новая статья: Ноутбук DIGMA PRO Pactos на процессоре AMD Ryzen 5 7430U: скромность украшает 11 ч.
GeIL анонсировала модули DDR5, которые работают со скоростью 8000 МТ/с без разгона 13 ч.
AMD выпустила ИИ-ускоритель Instinct MI350P с 144 Гбайт HBM3E, PCIe 5.0 x16 и потреблением 600 Вт 13 ч.
Google анонсировала Fitbit Air — лёгкий фитнес-трекер без экрана за $99 с круглосуточным отслеживанием активности владельца 14 ч.
Apple закажет новую партию чипов A18 Pro из-за высокого спроса на MacBook Neo 17 ч.
Iridium анонсировала PNT-решение для безошибочного позиционирования и синхронизации времени Project Authentic 18 ч.