Сегодня 16 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новый ИИ-помощник Adobe может использовать приложения Creative Cloud для выполнения задач 6 ч.
Призыв существ, талисманы и новое эпическое оружие: для Titan Quest 2 вышло крупное обновление 7 ч.
Google выпустила приложение Gemini для macOS 7 ч.
Хоррор-шутер Industria 2 перенесли на 29 апреля — создатели пообещали как следует поработать в ближайшие две недели 7 ч.
Поездка затягивается: уютный симулятор путешествий в доме на колёсах Outbound не выйдет 23 апреля 9 ч.
«Вложу всю свою страсть, энергию и душу»: анимационный фильм по Bloodborne оказался в надёжных руках 9 ч.
Snap объявила о сокращении 1000 человек из-за «достижений в области ИИ» 10 ч.
Нет худа без добра: украденные хакерами данные об успехах GTA Online обернулись для Take-Two резким ростом стоимости акций 11 ч.
Аналитики: спустя два с половиной года Starfield на PS5 оказалась почти никому не нужна 12 ч.
Европейское приложение для верификации возраста пользователей готово к запуску 12 ч.
Обувная компания Allbirds решила стать ИИ-неооблаком NewBird AI — инвесторы в восторге 5 ч.
Новая статья: ИИ в иллюминаторе: перспективы орбитальных дата-центров 5 ч.
Китайские учёные совершили рывок в сверхплотной голографической записи 7 ч.
Credo купила израильского разработчика кремниевой фотоники DustPhotonics 8 ч.
Keychron представила беспроводную игровую мышку G3 весом 44 г с флагманской начинкой 9 ч.
Аналитики уверены, что Apple не будет повышать цены на Mac, чтобы перетянуть пользователей ПК 9 ч.
Intel рассказала, каким должен быть игровой ноутбук с ИИ на базе Core Ultra 200HX Plus, — тихим, мощным и холодным 10 ч.
Компания Science бывшего президента Neuralink готовится установить в мозг человека первый биогибридный имплант 10 ч.
Microsoft получит 30 тыс. ИИ-ускорителей NVIDIA Vera Rubin, от которых отказалась OpenAI, отменившая проект Stargate Norway 12 ч.
Lexar: геймеры готовы жертвовать объёмом оперативной памяти, но не SSD 12 ч.