Сегодня 23 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
AMD выпустила драйвер с поддержкой масштабирования FSR 4.1 на видеокартах Radeon RX 7000 3 ч.
Глобальный интернет столкнулся с масштабным сбоем из-за проблем в инфраструктуре Cloudflare 3 ч.
Эксперт Digital Foundry прояснил тайну «вампирского» колеса обозрения из GTA VI 3 ч.
Календарь релизов 22–28 июня: Star Fox, Empulse, Dark Scrolls и Dead or Alive 6 Last Round 5 ч.
«Всё в одном месте»: лаунчер Owlcat появился в Warhammer 40,000: Rogue Trader, но игра продолжит запускаться и без него 5 ч.
Ставка на ретро: Instagram запускает горизонтальное видео на телевизорах Samsung 5 ч.
Продажи инди-хита Meccha Chameleon превысили 7 миллионов копий менее чем за две недели — даже Resident Evil Requiem покупают не так быстро 6 ч.
Законопроект о регулировании ИИ в России кардинально сократили и упростили 6 ч.
AMD добавила официальную поддержку апскейлера FSR 4.1 видеокартам Radeon RX 7000 6 ч.
Регулирование российского ИИ сделают не таким строгим, как хотели вначале 7 ч.
Новая статья: Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО 29 мин.
Valve даст возможность превратить в Steam Machine любой похожий ПК 2 ч.
Компактный игровой ПК Steam Machine от Valve поступит в продажу 29 июня по цене от $1049 4 ч.
Asus и Acer урегулировали патентный спор с Nokia о технологиях аппаратного ускорения H.265 5 ч.
Квартальные продажи СХД подскочили почти на четверть, а доля All-Flash хранилищ впервые перевалила за 50 % 6 ч.
SpaceX запустила больше спутников, чем всё остальное человечество с 1957 года 8 ч.
Samsung ускорила достройку крупнейшего комплекса по производству памяти — мощности компании удвоятся 10 ч.
TSMC ускорила отказ от зрелых технологий ради миграции на передовые 11 ч.
Critical Energy привлекла $22 млн на строительство модульных геотермальных электростанций для ИИ ЦОД 11 ч.
Саудовская DataVolt строит в Узбекистане 12-МВт дата-центр стоимостью $150 млн 12 ч.