Сегодня 13 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Даже лучшие ИИ «сыпятся» на длинных задачах: модели теряют четверть данных

Исследователи Microsoft установили, что даже самые продвинутые ИИ-модели допускают существенные ошибки при выполнении длительных многоэтапных задач. В ходе тестирования такие передовые модели, как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, потеряли в среднем 25 % содержимого документов, которые были делегированы им для автономной работы.

 Источник изображения: AI

Источник изображения: AI

Команда Филиппа Лабана (Philippe Laban), Тобиаса Шнабеля (Tobias Schnabel) и Дженнифер Невилл (Jennifer Neville) из Microsoft Research разработала бенчмарк DELEGATE-52, имитирующий рабочие процессы в 52 профессиональных областях, например, в написании кода, нотной записи или кристаллографии. Модели оценивались по способности сохранять целостность документов после 20 циклов обработки, при этом порогом готовности считался результат не ниже 98 %.

Результаты показали, что модели лучше справлялись с задачами программирования и хуже с обработкой естественного языка. Повреждение документов и, соответственно, снижение оценки до 80 % и ниже, произошло более чем в 80 % комбинаций. Лучшая из протестированных моделей, которой оказалась Google Gemini 3.1 Pro, соответствовала критериям готовности лишь в 11 из 52 областей.

При этом ошибки возникали не постепенно, а скачкообразно, например, за один цикл взаимодействия модель могла потерять от 10 до 30 баллов. Более совершенные модели (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) избегали мелких ошибок за счёт того, что откладывали их обработку на более поздние этапы при меньшем количестве взаимодействий. Одновременно выяснилось, что при работе ИИ-моделей с доступом к инструментами в режиме агентского управления их результаты не только не улучшались, но даже ухудшались к концу цикла в среднем на 6 %.

По словам учёных, пользователям по-прежнему необходимо внимательно контролировать работу ИИ-систем при делегировании им полномочий, поскольку текущие модели готовы к автономной работе лишь в узких областях. При этом авторы бенчмарка признают прогресс LLM и отмечают, что, например, семейство ИИ-моделей OpenAI за 16 месяцев улучшило показатели производительности с 14,7 % до 71,5 %.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Вышло приложение ASCILINE Engine для трансляции «неблокируемого» ASCII-видео 6 ч.
ИИ-стартап Mistral AI ведёт переговоры о привлечении €3 млрд при оценке в €20 млрд 6 ч.
Google начала развёртывать поисковых ИИ-агентов — но пока лишь для платных пользователей 10 ч.
Водители Tesla научились обманывать автопилот игрушечной головой — чтобы листать соцсети за рулём 12 ч.
Генпрокуроры нескольких штатов США запустили проверку в отношении OpenAI 12 ч.
Новая статья: Gothic Remake — в новом теле старый дух. Рецензия 23 ч.
Нереалистичные сроки, неумелое руководство и страх отмены: журналисты рассказали о проблемах разработки новой Ghost Recon 12-06 19:51
В работе Facebook и Instagram произошёл масштабный сбой — ленты не обновляются, видео и картинки не загружаются 12-06 18:20
Crimson Desert продолжает превращаться в симулятор разведения животных — подробности обновления 1.11.00 12-06 18:11
«Полмиллиона Безымянных героев»: THQ Nordic похвасталась продажами ремейка «Готики» за первую неделю 12-06 17:13
Слухи: Intel выпустит в 2027 году антикризисные процессоры Raptor Lake Next — для LGA 1700 и DDR4 8 мин.
Nvidia подняла рекомендованную цену RTX Pro 6000 Blackwell до $13 250 — рост на 55 % за год 4 ч.
We will VROC you: Graid Technology продолжит активное развитие купленной у Intel технологии RAID 4 ч.
Компактный ИИ-компьютер AMD Ryzen AI Halo на Windows 11 поступил в продажу за $4000 7 ч.
Учёные создали беспроводной нейростимулятор размером с рисовое зёрнышко — он легко вводится и подавляет боль 10 ч.
Netgear обвинила американскую часть TP-Link в сохранении тесных связей с Пекином 10 ч.
SpaceX построит завод Gigasat для массового выпуска космических ИИ ЦОД 12 ч.
Состоялся первый испытательный полёт Helios Horizon — электросамолёта на твердотельных батареях 12 ч.
Asus представила блок питания ROG Thor 3000W Titanium III Edition 20 за €999 — его хватит на четыре GeForce RTX 5090 13 ч.
Microsoft не исключает отделения Xbox в самостоятельную компанию 14 ч.