Сегодня 13 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Чужого не надо: прокачиваем смартфон российским ИИ-софтом 5 ч.
Capcom спрятала в Resident Evil Requiem упоминание секретного сайта — им завладел белорусский датамайнер игр Valve 6 ч.
В Steam открылся ранний доступ Solasta 2 — фэнтезийной тактической RPG в духе настольных игр 9 ч.
Создатели Tropico 7 пригласили игроков принять участие в построении будущего Тропико — подробности закрытой «беты» 10 ч.
Apple выпустила обновление iOS для iPhone 6s и других древних iPhone и iPad 10 ч.
Большое обновление Google Maps: ИИ-функция «Спроси карту», улучшенная иммерсивная навигация и другие нововведения 10 ч.
«Это был конец»: бывший босс Overwatch объяснил, почему спустя 20 лет работы покинул Blizzard 11 ч.
Разработчики Heroes of Might & Magic: Olden Era показали, как улучшили фракцию «Подземелье» после критики игроков 12 ч.
Тысячи роутеров превратили в ботнет, который не получается удалить — но способ борьбы есть 13 ч.
Акции Oracle подскочили почти на 10 % благодаря высоким результатам и сильному прогнозу 13 ч.
Это надолго: дефицит памяти не ослабнет до второй половины 2027 года, прикинули аналитики 4 ч.
JBL представила беспроводные наушники с автономностью до 80 часов — полноразмерные Live 780NC и накладные Live 680NC 4 ч.
V-Color выпустит антикризисные комплекты DDR5 — с настоящей памятью и RGB-муляжами 7 ч.
Тысячеглазая Мотра — в Чили построят уникальный телескоп для первого масштабного картографирования космической паутины 8 ч.
Топ-10 мировых чипмейкеров увеличили выручку до рекордных $169,5 млрд за прошлый год 8 ч.
Gigabyte представила платы Z890 Plus с поддержкой памяти CQDIMM и оптимизацией под Core Ultra 200S Plus 10 ч.
Тяжёлый люкс: Dreame показала смартфоны за $15 000 11 ч.
В последние дни в Москве взлетел спрос на пейджеры, радиостанции и стационарные телефоны 12 ч.
Представлен смартфон-кирпич Energizer P30K Apex — с батареей на 30 000 мА·ч и 200-Мп камерой за €399 12 ч.
«Алису» во всех умных колонках и телевизорах «Яндекса» перевели на передовую ИИ-модель 12 ч.