Сегодня 02 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
The Alters без альтеров: анонсирован научно-фантастический симулятор выживания с упором на физику Venus: The Last Ascent 3 мин.
Google одним махом исправила 124 уязвимости в Android — одну из них вовсю использовали хакеры 5 мин.
ИИ Meta помог хакерам угонять аккаунты Instagram 15 мин.
Бывшие разработчики Forza Horizon анонсировали амбициозный гоночный боевик Clutch — первый трейлер и подробности 51 мин.
Хоррор Farsight погрузит игроков в неуютный мир бесконечных пространств в духе фильма ужасов «Закулисье» 2 ч.
Ведущие ИИ-лаборатории озаботились вопросом «сознания» у машин 3 ч.
Google навела порядок в «Play Маркете» — искать скидки и новинки стало проще 4 ч.
Новый трейлер подтвердил дату выхода неонуарного хоррора на выживание Silver Pines в духе «Твин Пикс» 5 ч.
«Silent Hill встретилась с Diablo»: трейлер изометрического хоррора Liminal Point с бывшей рок-звездой в главной роли понравился игрокам 6 ч.
Доработка сюжета, улучшения геймплея и DLC на горизонте: авторы Crimson Desert раскрыли планы на ближайшие обновления 6 ч.
Подорожание ноутбуков и компьютеров из-за ИИ перевалило за 10 % 12 мин.
Noctua показала мощный низкопрофильный кулер для AM5 с полноценным 120-мм вентилятором 13 мин.
Intel с партнёрами разработает эталонный дизайн стоек с чипами Xeon для ODM и OEM-производителей 16 мин.
MaxSun привезла на Computex 2026 десятилетнюю Radeon RX 580 с шестью HDMI 2 ч.
ИИ-бум создал очередной ажиотаж — теперь вокруг китайских синтетических алмазов 2 ч.
Marvell представила чип-коммутатор Teralynx T100 на 102,4 Тбит/с для ИИ ЦОД 2 ч.
MSI показала кулер с алмазами и металлическими вентиляторами для видеокарт нового поколения 3 ч.
iPhone рискуют остаться без поддержки 5G в России — всё из-за нестандартных частот 3 ч.
Учёные наконец собрали воедино «улики» по загадочным радиосигналам из глубин космоса — и приблизились к их разгадке 3 ч.
SAMA привезла на Computex 2026 панорамные корпуса, СЖО с двумя экранами и блоки питания мощностью до 1650 Вт 3 ч.