Сегодня 22 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Tencent выпустила рассуждающую ИИ-модель T1 — она превосходит DeepSeek R1, в отдельных тестах 6 ч.
Российским блогерам назначили коды экономической деятельности в ОКВЭД 6 ч.
США отменили санкции против криптомиксера Tornado Cash с российскими корнями 10 ч.
AMD представила Gaia — открытое приложение для запуска ИИ локально на ПК с Windows 10 ч.
Частое использование ChatGPT и других ИИ-ботов может привести к обострению чувства одиночества 11 ч.
Roblox оказалась антилидером по числу киберпреступлений в 2025 году 17 ч.
Существующие акционеры ByteDance являются фаворитами готовящейся в США сделки по TikTok 17 ч.
ИИ-поисковик Perplexity собрался купить TikTok, открыть его алгоритм и поменять его до неузнаваемости 22 ч.
Новая статья: Centum — компиляция ночных кошмаров. Рецензия 23 ч.
Отечественные решения серверной виртуализации захватили 60,2 % рынка РФ, но VMware не сдаётся 24 ч.
Пиксели размером с вирус: китайские учёные создали самый маленький в мире LED-дисплей 2 ч.
Китайские учёные создали передовой твердотельный лазер для полупроводниковой DUV-литографии 4 ч.
Xiaomi продала больше электромобилей, чем Ford и GM за прошлый год 7 ч.
Seeed reComputer J3010B — мини-ПК для ИИ-задач на периферии на базе NVIDIA Jetson Orin Nano 8 ч.
В Китае создали глубоководную «болгарку» для вспарывания бронированных морских интернет-кабелей 8 ч.
GL.iNet Comet — компактный IP-KVM с поддержкой Fingerbot для нажатия физических кнопок 9 ч.
Tesla Cybertruck на автопилоте отказалась таранить стену с нарисованной пустой дорогой 10 ч.
Японцы построили умного домашнего робота Mi-Mo, скрестив лампу Pixar и табурет 11 ч.
Французы разработали «домашнюю» систему хранения энергии в сжатом воздухе 12 ч.
Чтобы дыня не треснула: глава Xiaomi оригинальным образом продемонстрировал прочность фирменных батарей для электромобилей 16 ч.