Сегодня 20 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → экзамен

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.


window-new
Soft
Hard
Тренды 🔥
Массовый сбой произошёл в работе интернета в России 6 мин.
МТС объявила о закрытии своего заменителя YouTube и TikTok 24 мин.
Meta AI добрался до Европы, но с ограничениями и без обучения на данных пользователей 2 ч.
Hazelight спрятала в Split Fiction секретный уровень, за прохождение которого можно было выиграть бесплатную поездку в Швецию 2 ч.
Xbox упомянула Hollow Knight: Silksong в списке игр 2025 года — фанаты замерли в предвкушении 12 ч.
ЕС обязал Apple упростить подключение сторонних смарт-часов к iPhone — в компании заявили, что это «это плохо для пользователей» 13 ч.
Исследователи нашли способ масштабирования ИИ без дополнительного обучения, но это не точно 13 ч.
ЕС потребовал от Google прекратить ущемлять конкурентов в поисковой выдаче и пригрозил штрафом до $35 млрд 14 ч.
По мотивам творчества легендарной метал-группы Voivod выйдет «умопомрачительная» метроидвания Voivod: The Nuclear Warrior 15 ч.
Лошадь есть, ума не надо: сюжетный платформер Brute Horse отправит игроков в абсурдный мир, где даже конь может стать оружием 16 ч.
Nvidia перестала быть геймерской компанией, а стала «фабрикой ИИ» 59 мин.
Даже доступные SSD скоро подорожают: китайская YMTC анонсировала повышения цен на флеш-память на 10 % 2 ч.
Установлены самые строгие ограничения на квантовую гравитацию — это ключ для «теории всего» 2 ч.
Глава Nvidia признался, что пока никто не предлагал ему купить часть Intel 5 ч.
Модуль Blue Ghost прислал первые в истории высококачественные фото солнечного заката на Луне 6 ч.
SoftBank купит одного из крупнейший разработчиков серверных процессоров в мире за $6,5 млрд 6 ч.
Анонсированы суперускорители на Rubin и Rubin Ultra, в которых NVIDIA не будет ошибаться в подсчётах 11 ч.
Новая статья: Жидкостное охлаждение ID-Cooling DashFlow 360 XT Pro: лучше, дешевле, но ещё не идеал 12 ч.
Сезон охоты за тёмной материей и не только открыт — опубликован первый пакет данных с телескопа «Евклид» 14 ч.
«Увеон — облачные технологии» выпустил отечественный контроллер доставки приложений 16 ч.