Сегодня 12 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследователи Microsoft предупредили, что ИИ-модели пока не готовы к сложному классу задач

Исследователи Microsoft установили, что даже самые продвинутые ИИ-модели допускают существенные ошибки при выполнении длительных многоэтапных задач. В ходе тестирования такие топовые модели, как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, потеряли в среднем 25 % содержимого документов, которые были делегированы им для автономной работы.

 Источник изображения: AI

Источник изображения: AI

Команда Филиппа Лабана (Philippe Laban), Тобиаса Шнабеля (Tobias Schnabel) и Дженнифер Невилл (Jennifer Neville) из Microsoft Research разработала бенчмарк DELEGATE-52, имитирующий рабочие процессы в 52 профессиональных областях, например, в написании кода, нотной записи или кристаллографии. Модели оценивались по способности сохранять целостность документов после 20 циклов обработки, при этом порогом готовности считался результат не ниже 98 %.

Результаты показали, что модели лучше справлялись с задачами программирования и хуже с обработкой естественного языка. Повреждение документов и, соответственно, снижение оценки до 80 % и ниже, произошло более чем в 80 % комбинаций. Лучшая из протестированных моделей, которой оказалась Google Gemini 3.1 Pro, соответствовала критериям готовности лишь в 11 из 52 областей.

При этом ошибки возникали не постепенно, а скачкообразно, например, за один цикл взаимодействия модель могла потерять от 10 до 30 баллов. Более совершенные модели (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) избегали мелких ошибок за счёт того, что откладывали их обработку на более поздние этапы при меньшем количестве взаимодействий. Одновременно выяснилось, что при работе ИИ-моделей с доступом к инструментами в режиме агентского управления их результаты не только не улучшались, но даже ухудшались к концу цикла в среднем на 6 %.

По словам учёных, пользователям по-прежнему необходимо внимательно контролировать работу ИИ-систем при делегировании им полномочий, поскольку текущие модели готовы к автономной работе лишь в узких областях. При этом авторы бенчмарка признают прогресс LLM и отмечают, что, например, семейство ИИ-моделей OpenAI за 16 месяцев улучшило показатели производительности с 14,7 % до 71,5 %.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google может представить на I/O 2026 новую модель генерации видео Omni 29 мин.
Исследователи Microsoft предупредили, что ИИ-модели пока не готовы к сложному классу задач 31 мин.
В iOS 26.5 появилось сквозное шифрования для кроссплатформенных RCS-сообщений 35 мин.
Календарь релизов 11–17 мая: Subnautica 2, Outbound, Directive 8020 и Black Jacket 8 ч.
Samsung выпустила One UI 8.5 для поддерживаемых Galaxy спустя пять месяцев бета-тестов 9 ч.
На ПК стартовали предзаказы Subnautica 2 — игра доступна в российских Steam и Epic Games Store 9 ч.
Издателем Stellar Blade 2 выступит не Sony, а сама Shift Up — официальный анонс сиквела уже не за горами 10 ч.
Фанатов заинтриговал мод, который переносит в Half-Life главную героиню Life is Strange — геймплей и подробности Half-Life is Strange 12 ч.
TikTok позволит полностью отключить рекламу — но не бесплатно и не всем 12 ч.
«Никогда и ни за что»: Red Hook Studios не будет генерировать голос покойной звезды Darkest Dungeon с помощью ИИ, несмотря на разрешение 13 ч.