Сегодня 15 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
OpenAI представила GPT-5.4-Cyber — передовую ИИ-модель для защиты от киберугроз 12 мин.
Американские ведомства стали игнорировать запрет на сотрудничество с Anthropic — модель Mythos оказалась слишком хороша 13 мин.
Бесплатная раздача Graveyard Keeper обернулась для издателя игры выручкой в четверть миллиона долларов 2 ч.
Операторы связи и маркетплейсы начали отговаривать россиян от использования VPN 2 ч.
Исследование показало, что многие сайты продолжают сохранять файлы cookie даже после запрета 2 ч.
Возвращение Тюра, Мерлин и смесь разных мифологий: журналисты раскрыли новые подробности следующей большой God of War 2 ч.
HCI-платформа Arcfra AECP обещает наполовину снизить TCO по сравнению с VMware VCF 4 ч.
«Да здравствует хардкор!»: глава Battlestate Games подтвердил, что не бросит Escape from Tarkov ради Fragmentary Order 4 ч.
Апрельское обновление Microsoft закрыло 167 уязвимостей, в том числе в Word и Excel 4 ч.
Apple запустила единую платформу Apple Business для управления бизнесом 5 ч.
ИИ способен извлечь все данные о мышечной активности рабочей руки пользователя из журнала сенсорного экрана смартфона 10 мин.
Анонсированы китайские SSD для дата-центров PetaIO: PCIe 6.0, CXL 3.0 и 28 Гбайт/с 37 мин.
«Яндекс» выпустила «ТВ Станцию miniLED» — «самый доступный» телевизор в премиум-сегменте 2 ч.
Microsoft сняла с производства большие сенсорные экраны Surface Hub 2 ч.
Китайские производители чипов научились закупать американское оборудование в Азии 2 ч.
Samsung тоже увеличила объёмы продаж смартфонов на падающем рынке, по версии IDC 3 ч.
В первом квартале продажи складных смартфонов в России подскочили на 32 % 5 ч.
Новый раунд финансирования оценивает Anthropic в $800 млрд — до OpenAI рукой подать 8 ч.
За три года расходы Nvidia на гарантийное обслуживание взлетели в 11 раз 8 ч.
Новая статья: Обзор игрового OLED 4K-монитора MSI MAG 322UP QD-OLED E16: достаточный уровень 13 ч.