Сегодня 26 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Суд в США впервые обязал выплатить $6 млн пользователю по делу о зависимости от соцсетей 2 ч.
Google назвала Android в связке с Chrome самой быстрой платформой для веб-сёрфинга 3 ч.
Microsoft запустила ИИ-рестайлинг фотографий — и это не Copilot 8 ч.
YouTube завалил некоторых пользователей проверками CAPTCHA перед просмотром видео 9 ч.
В России арестовали администратора одной из крупнейших хакерских площадок LeakBase 10 ч.
Разработчик «Мира танков» решил проблему с долгом государству на 11 миллиардов рублей — исполнительное производство прекращено 10 ч.
Nvidia выпустила драйвер-заплатку для исправления подтормаживаний в Arknights: Endfield 10 ч.
Древний ужас пробуждается в геймплейном трейлере Cthulhu: The Cosmic Abyss — детективного хоррора по мотивам творчества Лавкрафта 11 ч.
Google выпустила ИИ-модель Lyria 3 Pro для генерации трёхминутных музыкальных треков — но не бесплатно 12 ч.
Надёжный инсайдер раскрыл главную игру апрельской линейки PS Plus за неделю до официального анонса 12 ч.
Многие производители электронных компонентов повысят цены с 1 апреля 57 мин.
Sonova решила продать бизнес по производству наушников Sennheiser 3 ч.
В Meta новая волна увольнений — всё ради искусственного интеллекта 3 ч.
Sandisk, Solidigm, Kioxia и Cisco вложили $2,5 млрд в акции тайваньской Nanya Technology, чтобы обеспечить себя памятью DRAM 4 ч.
Новая статья: Система жидкостного охлаждения ID-Cooling FX360 LCD: кому котиков? Недорого 9 ч.
MaxSun представила свои варианты Arc Pro B70 — с активным и пассивным охлаждением 12 ч.
Google поведёт квантовые компьютеры по гибридному пути: к сверхпроводящим кубитам добавят нейтральные атомы 12 ч.
ASRock представила юбилейную матплату Z890 Taichi 10th Anniversary с обновлённым дизайном 12 ч.
Dell представила обновлённые ноутбуки серии Pro — они стали тоньше и получили свежие чипы Intel и AMD 14 ч.
Intel выпустила Xeon 600 с 12–86 ядрами для рабочих станций и Core Ultra 300 vPro для бизнес-ноутбуков 14 ч.