Сегодня 21 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Не только Cyberpunk 2077: на мощных Android-устройствах заработали AAA-игры для ПК, но с ограничениями 3 ч.
Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя 6 ч.
Roblox обеспечила больше роста игровой индустрии, чем Steam, PlayStation и Fortnite вместе взятые 6 ч.
Microsoft: смена руководства в Xbox не повлечёт сокращений и закрытия студий 9 ч.
WhatsApp научится скрывать сообщения под спойлеры — прямо как другой популярный мессенджер 9 ч.
Фил Спенсер и президент Xbox Сара Бонд ушли из Microsoft — Microsoft Gaming возглавила специалист по ИИ 18 ч.
Новая статья: Mewgenics — девяти жизней может не хватить. Рецензия 19 ч.
«Гонка вооружений» в сфере ИИ бессмысленна — США и Китай преследуют совершенно разные цели 20 ч.
У Steam произошёл массовый сбой: миллионы игроков не могут войти в CS2, Dota 2 и другие игры 21 ч.
«Один нас подвёл. Другой отверг»: датамайнер нашёл в файлах God of War Ragnarok указания, что новая God of War отправится в Египет 22 ч.
Европейский Союз перестал финансировать связанных с Китаем учёных, но остались исключения 3 мин.
G42 из ОАЭ и Cerebras построят в Индии национальный ИИ-суперкомпьютер с царь-ускорителями WSE-3 4 ч.
Nautilus представила универсальный 4-МВт CDU 5 ч.
SpaceX создала систему мониторинга спутников ради безопасности орбиты — бесплатную для всех, но при одном условии 7 ч.
Anthropic обвалила акции CrowdStrike и Cloudflare, представив ИИ-багхантера Claude Code Security 10 ч.
Tesla не смогла оспорить вердикт на $243 млн по делу о смертельной аварии с Autopilot 11 ч.
Верховный суд США признал тарифы Трампа незаконными, но их отмена уже уже не спасёт цены 12 ч.
Видеокарты AMD подорожали в Японии настолько, что их перестали покупать — теперь цены упали на 15–20 % 13 ч.
Google подала на SerpApi в суд за парсинг — та ответила, что Google сама является «крупнейшим веб-скрейпером в мире» 18 ч.
Не $100 млрд, а $30 млрд, и не выиграл, а переиграл — NVIDIA и OpenAI готовят новую инвестиционную сделку 21 ч.