Сегодня 09 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI Deep Research показал рекордный результат в сложнейшем «Последнем экзамене человечества»

Менее двух недель назад эксперты в области искусственного интеллекта представили крайне сложный тест Humanity's Last Exam, предназначенный для оценки передовых нейросетей. Список лидеров в этом испытании возглавили два проекта OpenAI: o3-mini и Deep Research.

 Источник изображения: scale.com

Источник изображения: scale.com

Бенчмарк, созданный экспертами со всего мира, содержит крайне сложные вопросы и задания на знания и рассуждения — даже некоторые люди не могут понять отдельные вопросы в нём, не говоря уже о том, чтобы дать на них ответ. Вскоре после своего выхода список лидеров на экзамене возглавила рассуждающая модель ИИ DeepSeek R1, давшая 9,4 % правильных ответов. Обогнать её смогли модели OpenAI o3-mini с результатом 10,5 % и o3-mini-high, набравшая 13 % — последняя действительно мощнее, но и работает она медленнее. Но более впечатляющим стал результат, который показал ИИ-агент OpenAI Deep Research — он набрал 26,6 %, с ходу побив тем самым предыдущий менее чем за 10 дней.

Сравнение не вполне корректное, потому что Deep Research имеет возможность производить поиск информации, а у традиционных моделей ИИ она отсутствует. И в случае Humanity's Last Exam эта возможность имеет критическое значение, ведь некоторые из вопросов нацелены на проверку знаний. Тем не менее, системы ИИ постоянно улучшают свои результаты, и это заставляет задуматься, когда одна из них сдаст экзамен с высшим баллом. OpenAI Deep Research — чрезвычайно мощный инструмент, предназначенный для работы в качестве персонального аналитика. Он проводит исследования, составляет отчёты и готовит ответы, на которые у человека ушли бы несколько часов.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
iOS 27 получила настраиваемый эквалайзер для AirPods и передачу данных о пульсе через GymKit 2 ч.
Apple лишила не слишком старые iPad и Watch поддержки iPadOS 27 и watchOS 27 2 ч.
Apple представила visionOS 27 с поддержкой Siri AI и изогнутых окон 3 ч.
В iOS 27 появятся новые ИИ-инструменты для редактирования фотографий в «Фото» 3 ч.
Европейцы не получат Siri AI вместе с iOS 27 — Apple винит в этом закон DMA 3 ч.
Apple радикально обновила Apple Intelligence, опираясь на Google Gemini 4 ч.
Apple представила новую Siri, снова — Siri AI поселилась на островке iPhone, работает с Google Gemini и умеет анализировать экран 5 ч.
После семи лет разработки олдскульная ролевая игра Sea of Stars от создателей The Messenger получила прощальное обновление и вышла на Switch 2 6 ч.
Meta обвинила создателя шпионского софта Pegasus в нарушении судебного запрета и новых атаках на WhatsApp 6 ч.
Основатель разорившейся криптобиржи FTX Сэм Бэнкман-Фрид подал Трампу прошение о помиловании 6 ч.
Google заказала у Intel изготовление 3 млн TPU — у TSMC спрос превысил возможности производства 2 ч.
Новая статья: Крах доктрины: авария тяжелой ракеты New Glenn оставила NASA в полной зависимости от SpaceX 2 ч.
Google заказала у Intel производство 3 млн ИИ-процессоров TPU 6 ч.
Акции TSMC и других азиатских техногигантов массово дешевеют вслед за американскими 9 ч.
Россиян не будут заставлять регистрировать аккаунты через отечественные e-mail — «Антифрод 2.0» доработали 10 ч.
Эстонская Skeleton Technologies представила суперконденсаторные ИБП GrapheneUPS для ИИ ЦОД 10 ч.
Российский рынок радиоэлектроники достиг 4 трлн рублей, но зависимость от импорта остаётся высокой 10 ч.
Стартап Windrose Electric, разрабатывающий электрические грузовики, представил концепцию ИИ ЦОД на колёсах 11 ч.
Репортаж со стенда Patriot на Computex 2026: память DDR5-9600, быстрые SSD и решения для эпохи ИИ 11 ч.
Репортаж со стенда PCCooler на Computex 2026: кулеры для самых мощных процессоров, модульный ПК и шаг к серверному охлаждению 12 ч.