Сегодня 13 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Продажи Silent Hill f превысили два миллиона копий, а ремейк Silent Hill 2 продолжает привлекать игроков 27 мин.
Google представила Gemini Intelligence — следующий эволюционный шаг Gemini на Android-смартфонах 42 мин.
В iOS 27 появится новый жест для вызова поиска через Dynamic Island 5 ч.
Red Hat анонсировала интегрированную ИИ-платформу Red Hat AI 3.4 10 ч.
«Быстро, жестоко и бескомпромиссно олдскульно»: анонсирован ретрошутер Nailcrown в эстетике тёмного фэнтези 12 ч.
Роскомнадзор уже третий раз за полгода опроверг слухи о блокировке Minecraft в России 12 ч.
OpenAI вооружила европейские компании ИИ-моделью GPT-5.5-Cyber для защиты от хакеров 13 ч.
Бывший босс Tekken ушёл из Bandai Namco для создания «по-настоящему великих» игр в новой студии 15 ч.
Как у Маска: в Threads внедрят ИИ-бота, который сможет участвовать в обсуждениях и проверять информацию 16 ч.
Утечка раскрыла дату выхода Elden Ring: Tarnished Edition 16 ч.
Edge-компьютер Firefly AIBox-K3 оснащён чипом RISC-V с ИИ-производительностью до 60 TOPS 41 мин.
Илон Маск намерен построить сеть космопортов по всему миру для SpaceX 43 мин.
Китай запустит на Луну «кентавров» — человекоподобных роботов на колёсных шасси 2 ч.
Взрывы белых карликов-каннибалов оказались неоднородными и годами искажали картину тёмной энергии 2 ч.
Рынок материалов для производства полупроводниковых компонентов в прошлом году вырос на 6,8 % до $73,2 млрд 3 ч.
Замедление темпов роста курса акций Nvidia сократило прошлогодние доходы основателя компании на 27 % 3 ч.
Глава OpenAI заявил в суде, что Илон Маск сам поддержал идею перевода стартапа на коммерческие рельсы 4 ч.
Переговоры профсоюза и руководства Samsung провалились — забастовка намечена на 21 мая 5 ч.
Новая статья: Обзор WQHD IPS-монитора Digma Progress 27P502Q: минимум - 2026 9 ч.
Новая статья: Обзор планшета HUAWEI MatePad Mini: заполняющий пустоту 11 ч.