Сегодня 05 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-боты тупеют при длительном общении с человеком, показало большое исследование Microsoft

Microsoft Research и Salesforce проанализировали более 200 000 диалогов с передовыми моделями ИИ, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, OpenAI o3, DeepSeek R1 и Llama 4. Результаты показали, что все они часто «теряются в разговоре», если он разбивается на естественные многоходовые диалоги с обменом репликами. Для собеседника чат-ботов это выглядит, как постепенное «оглупление» модели, сопровождающееся галлюцинациями и откровенно неверными ответами.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Учёные утверждают, что ИИ-модели, такие как GPT-4.1 и Gemini 2.5 Pro, достигают 90 % точных ответов при обработке отдельных запросов. Однако их производительность падает примерно до 65 % во время более длительных диалогов с обменом многочисленными репликами. Причём модели склонны использовать свой первоначальный ответ в качестве основы для ответа на последующие вопросы, даже если он был неверным.

Исследователи обнаружили ещё одно любопытное явление — раздувание ответов. Ответы и реакции моделей становились на 20‑300 % длиннее при участии в многоходовых диалогах. Более длинные ответы на запросы приводили к большему количеству предположений и иллюзий, которые затем использовались моделями в качестве постоянного контекста в разговоре.

Хотя такие модели, как o3 от OpenAI и DeepSeek R1, обладают дополнительными «токенами мышления», они не смогли выбраться из этой странной ситуации. Исследователи подчеркнули, что надёжность LLM снизилась на 112 %. Это объясняется склонностью моделей к преждевременной генерации — они пытаются предложить ответ на запрос, не дочитав его до конца.

Становится очевидным, что ИИ ещё не достиг своего пика, сталкиваясь с такими критическими проблемами, как низкая надёжность при участии в многоходовых диалогах. Тем не менее, отношение пользователей к ИИ-сервисам быстро меняется, особенно с появлением таких инструментов, как «ИИ-обзоры Google». Следует отметить, что отказ от традиционных поисковых систем в пользу инструментов на основе ИИ — это большой риск, поскольку генерируемая информация может оказаться недостоверной.

Некоторое время назад Microsoft обвинила пользователей в неправильном использовании ИИ, заявив о низком уровне инженерных навыков при разработке подсказок. Возможно, именно глупые вопросы и плохие подсказки от «кожаных мешков» не дают моделям искусственного интеллекта проявить себя во всей красе?

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft, xAI и Google согласились отдавать ИИ-модели властям США на проверку безопасности 28 мин.
Google повысила вознаграждение за обнаружение эксплойтов в Android до $1,5 млн 30 мин.
Google внедрит «аналог блокчейна» для проверки подлинности приложений и модулей Android 37 мин.
Суд в Москве оштрафовал Telegram на 7 млн, а Google — на 15,2 млн рублей 45 мин.
«Это не распознавание лиц»: в Facebook и Instagram встроили ИИ, который выявляет детей по росту и строению скелета 48 мин.
Из WhatsApp исчезнут аватары для метавселенной 2 ч.
Эксперты «Инфосистемы Джет» представили концепцию построения ИТ-инфраструктуры в условиях постоянных сбоев и изменений 3 ч.
Раскрыты самые успешные игровые компании по итогам 2025 года — российский рынок восстанавливается после краха 4 ч.
Нет худа без добра: Capcom нашла позитив в негативе фанатов Resident Evil Requiem вокруг DLSS 5 4 ч.
ИИ-помощник Copilot начал присваивать себе заслуги программистов, но Microsoft уже всё починила 5 ч.
По бумагам всё чисто: Малайзия стремительно становится хабом ИИ ЦОД, благодаря доступности чипов NVIDIA и лояльности к клиентам из Китая 22 мин.
Adata выпустила память с «бесконечным зеркалом» — XPG Novakey RGB DDR5 объёмом до 32 Гбайт и скоростью до 6400 МТ/с 31 мин.
Анонсирован смартфон Honor Play 80 Plus с батареей на 7500 мА·ч и Snapdragon 4 Gen 4 по цене от $249 39 мин.
Be quiet! выпустила кулеры Dark Rock 6 и Dark Rock Pro 6 весом больше килограмма для процессоров с TDP до 300 Вт 41 мин.
Флагманский внедорожник Xiaomi показался на дорожных испытаниях 45 мин.
Google может столкнуться с забастовками ИИ-разработчиков из-за контрактов с военными 46 мин.
РТК-ЦОД инвестировал в развитие инфраструктуры дата-центров более 38 млрд рублей 2 ч.
«Тёмная, горячая, безжизненная скала»: телескоп «Джеймс Уэбб» впервые изучил поверхность экзопланеты за пределами Солнечной системы 2 ч.
Panthalassa разработала морские ИИ-платформы, работающие от энергии волн 3 ч.
OCP продвигает переход ЦОД на DC-питание для повышения плотности и энергоэффективности вычислений 3 ч.