Сегодня 20 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Один нас подвёл. Другой отверг»: датамайнер нашёл в файлах God of War Ragnarok указания, что новая God of War отправится в Египет 26 мин.
«Блокнот» всё больше превращается в WordPad — теперь Microsoft добавила поддержку изображений 2 ч.
Ubisoft подтвердила разработку двух «очень многообещающих» Far Cry и нескольких Assassin’s Creed, включая мультиплеерные 2 ч.
USDT ожидает самое большое месячное падение со времён краха FTX 2 ч.
Почти полтора года Microsoft рекомендовала обучать ИИ на пиратских книгах о Гарри Поттере 2 ч.
Capcom отправила юристов бороться с утечками Resident Evil Requiem и призвала фанатов не распространять спойлеры 4 ч.
«Продолжение следует»: продажи Nier: Automata превысили 10 миллионов копий, а Square Enix подарила фанатам новую надежду 5 ч.
Дипфейки захватывают интернет — Microsoft предложила план спасения от подделок 6 ч.
WhatsApp перенял ещё одну функцию Telegram — отправку истории сообщений новым участникам групповых чатов 7 ч.
Новая студия режиссёра XCOM 2 закрылась, не выпустив ни одной игры — команда работала над гибридом The Sims и «Шоу Трумана» 8 ч.
NASA наконец удалось провести «мокрую» генеральную репетицию запуска лунной ракеты SLS — теперь только в путь 2 ч.
Винокурня Dewar’s завела робопса, который чует утечку паров виски 4 ч.
OpenAI и Tata договорились о строительстве 1 ГВт ИИ ЦОД в Индии 5 ч.
Узкие специалисты: Talaas, разрабатывающая оптимизированные под конкретные ИИ-модели ускорители, получила на развитие $169 млн 6 ч.
Thermal Grizzly начала продавать скальпированные процессоры Ryzen 7 9850X3D по €749 за штуку 6 ч.
Подводные интернет-кабели Google America-India Connect дважды свяжут США с Индией 6 ч.
Anthropic планирует увеличить к 2029 году расходы на облака до $80 млрд 7 ч.
Samsung готова взять реванш в гонке ИИ-памяти и будет продавать свою HBM4 на 20–30 % дороже HBM3E 7 ч.
Глобальное потепление ускорит деградацию солнечных панелей на крышах — «солнечное» электричество подорожает, если не принять меры 7 ч.
Китай собрался довести долю местного оборудования для выпуска чипов до 70 % уже в следующем году 8 ч.