Сегодня 01 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Даже лучшие ИИ «сыпятся» на длинных задачах: модели теряют четверть данных

Исследователи Microsoft установили, что даже самые продвинутые ИИ-модели допускают существенные ошибки при выполнении длительных многоэтапных задач. В ходе тестирования такие передовые модели, как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, потеряли в среднем 25 % содержимого документов, которые были делегированы им для автономной работы.

 Источник изображения: AI

Источник изображения: AI

Команда Филиппа Лабана (Philippe Laban), Тобиаса Шнабеля (Tobias Schnabel) и Дженнифер Невилл (Jennifer Neville) из Microsoft Research разработала бенчмарк DELEGATE-52, имитирующий рабочие процессы в 52 профессиональных областях, например, в написании кода, нотной записи или кристаллографии. Модели оценивались по способности сохранять целостность документов после 20 циклов обработки, при этом порогом готовности считался результат не ниже 98 %.

Результаты показали, что модели лучше справлялись с задачами программирования и хуже с обработкой естественного языка. Повреждение документов и, соответственно, снижение оценки до 80 % и ниже, произошло более чем в 80 % комбинаций. Лучшая из протестированных моделей, которой оказалась Google Gemini 3.1 Pro, соответствовала критериям готовности лишь в 11 из 52 областей.

При этом ошибки возникали не постепенно, а скачкообразно, например, за один цикл взаимодействия модель могла потерять от 10 до 30 баллов. Более совершенные модели (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) избегали мелких ошибок за счёт того, что откладывали их обработку на более поздние этапы при меньшем количестве взаимодействий. Одновременно выяснилось, что при работе ИИ-моделей с доступом к инструментами в режиме агентского управления их результаты не только не улучшались, но даже ухудшались к концу цикла в среднем на 6 %.

По словам учёных, пользователям по-прежнему необходимо внимательно контролировать работу ИИ-систем при делегировании им полномочий, поскольку текущие модели готовы к автономной работе лишь в узких областях. При этом авторы бенчмарка признают прогресс LLM и отмечают, что, например, семейство ИИ-моделей OpenAI за 16 месяцев улучшило показатели производительности с 14,7 % до 71,5 %.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
К взлёту готов: амбициозный авиасимулятор «Корея. Серия Ил-2» получил дату выхода в раннем доступе Steam 5 мин.
Княжна, волки и настоящие эмоции: российский боевик «Война Миров: Сибирь» получил атмосферный сюжетный трейлер 55 мин.
«У людей должна быть свобода выбора»: GamesVoice не откажется от русской озвучки Cyberpunk 2077: Phantom Liberty, несмотря на претензии CD Projekt Red 2 ч.
Наш SQL: фанаты MySQL основали фонд OurSQL Foundation, чтобы давить на Oracle 2 ч.
Анонсирована «Смерш: Охотник на волков» — идейная наследница стелс-игр «Смерть шпионам» 12 ч.
Иранские хакеры превратили ChatGPT и Gemini в оружие для кибервойны 16 ч.
GamesVoice анонсировала сбор средств на русскую озвучку Cyberpunk 2077: Phantom Liberty, но CDPR это не понравилось 18 ч.
Трафик поисковика DuckDuckGo утроился после последнего обновления ИИ-поиска Google 22 ч.
ИИ стал реже галлюцинировать, но всё ещё уверенно выдаёт ложь за правду 22 ч.
Новая статья: Lego Batman: Legacy of the Dark Knight — это что, новая Batman: Arkham? Рецензия 31-05 00:04
Ampere Computing: экстремальная жара в мире потребует больше энергии, повышения эффективности вычислений и сокращения количества ЦОД 24 мин.
РТК-ЦОД разворачивает в своих дата-центрах высокоскоростной защищенный Wi-Fi от «Ростелеком» 24 мин.
AMD получит фору: ангстремные Xeon Diamond Rapids задержатся до 2027 года 2 ч.
Венчурные капиталисты всё активнее вкладываются в стартапы, связанные с физическим воплощением ИИ 3 ч.
Власти США запретят китайским компаниям закупать передовые ускорители для своих зарубежных ЦОД 5 ч.
AMD выпустит Radeon RX 9070 GRE по всему миру — 12-Гбайт видеокарту для комфортной игры в 1440p оценили в $549 8 ч.
Новая статья: Обзор видеокарты MSI GeForce RTX 5070 GAMING TRIO OC WHITE 11 ч.
MSI представила монитор с разрешением 5K, частотой 180 Гц и подсветкой Mini LED 12 ч.
Sony показала последние телевизоры собственной разработки — дальше ими займётся TCL 20 ч.
Asus готовит «первый в мире OLED-монитор для киберспорта» — 24,5 дюйма и частота обновления 540 Гц 20 ч.