Сегодня 10 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Исследование показало, что американские и китайские ИИ-модели часто перегибают с подхалимством

Наиболее популярные ИИ-модели из США и Китая, как показало исследование учёных Стэнфордского университета и коллег из Карнеги Меллон, склонны слишком сильно льстить пользователям и не всегда доносят до них объективную информацию. Руководствуясь советами чат-ботов, полученных таким образом, люди могут с меньшей вероятностью добиться установления гармоничных отношений между собой.

 Источник изображения: Nvidia

Источник изображения: Nvidia

Авторы исследования изучали, как 11 популярных больших языковых моделей отвечают на запросы пользователей, касающиеся межличностных взаимоотношений. Было установлено, что многие языковые модели склонны слишком часто соглашаться с пользователями в надежде им угодить. Например, выпущенная в декабре прошлого года DeepSeek V3 одобряла действия пользователей на 55 % чаще, чем живой собеседник. Для прочих моделей, попавших в выборку, средний показатель «превышения подхалимства над нормой» достигал 47 %.

Что характерно, авторы исследования за эталон человеческой реакции брали ответы пользователей со страниц Reddit, которые описывали оценку действий других людей в разного рода межличностных конфликтах. В качестве эталона выбирались те ситуации, в которых сообщество выступало с осуждением автора публикации, указывая на его неправоту. Эти же сценарии прогонялись через популярные большие языковые модели, и они гораздо чаще оправдывали совершивших те или иные проступки людей, чем живые собеседники. В исследовании использовались преимущественно публикации и обсуждения на английском языке.

Разработанная Alibaba языковая модель Qwen2.5-7B-Instruct вообще оказалась чемпионом подхалимства, оправдав проступки человека в 79 % случаев. На втором месте оказалась DeepSeek V3, которая оправдывала обсуждаемых людей в 76 % случаев. Американская Gemini 1.5 корпорации Google оправдала человека только в 18 % случаев. Из 11 протестированных моделей только две были разработаны в Китае, остальные были созданы в США, если не считать французскую Mistral.

Авторы исследования также пришли к выводу, что подхалимство чат-ботов снижает склонность людей к разрешению конфликтов полюбовно, поскольку вселяет в них ложное ощущение собственной правоты. На психическом здоровье пользователей больших языковых моделей такое подхалимство тоже сказывается не лучшим образом. При использовании ИИ в сфере бизнес-аналитики склонность к подхалимству тоже вредна, поскольку языковая модель стремится чаще соглашаться с аналитиком, чем следовало бы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Экс-продюсер GTA Лесли Бензис «временно» покинул основанную им Build a Rocket Boy, а руководство MindsEye надеется повторить путь Cyberpunk 2077 7 ч.
Календарь релизов 9–15 февраля: Reanimal, Mewgenics, Romeo is a Dead Man и Disciples: Domination 8 ч.
Зрелищный ретрофутуристический боевик Replaced порадовал журналистов и скоро получит демоверсию в Steam 10 ч.
Успех на грани разочарования: критики оценили Yakuza Kiwami 3 хуже классической Yakuza 3 11 ч.
Десятки тысяч ИИ-агентов OpenClaw оказались уязвимы для взлома из-за ошибок в настройках 11 ч.
ChatGPT начнёт массово показывать рекламу уже на этой неделе — а пока Альтман похвалился активным ростом аудитории 12 ч.
«Жёсткое, но единственно правильное решение»: после критики фанатов авторы «Зайчика» объявили о полной переработке игры 12 ч.
Google спрятала тексты песен в YouTube Music от бесплатных пользователей 12 ч.
Sony подтвердила самый масштабный выпуск State of Play в истории — больше 60 минут анонсов от студий по всему миру 13 ч.
В январе «VK Видео» стал самым популярным видеосервисом в России — через полтора года после замедления YouTube 14 ч.
Власти США готовятся поднять пошлины на импорт чипов, но гиперскейлеры из числа клиентов TSMC получат льготы 2 ч.
Новая статья: Обзор игровых системных блоков ASUS ROG G700 и ASUS TUF Gaming T500: бессмертная классика и необычный гибрид 6 ч.
Dreame показала дебютную тройку смартфонов — флагман Dreame RS1 получил нетривиальный дизайн и Snapdragon 8 Elite Gen 5 7 ч.
Alphabet возьмёт в долг $20 млрд на 100 лет, чтобы вложиться в ИИ 7 ч.
NASA и SpaceX отложили запуск миссии Crew-12 с россиянином к МКС из-за непогоды 7 ч.
Snapdragon X2 Elite оказался быстрее Apple M5 в синтетических тестах, но уступил Ryzen AI 9 и Core Ultra X9 в играх 10 ч.
Google собралась одолжить $15 млрд на строительство дата-центров для ненасытного ИИ 12 ч.
Intel тихо похоронила идею активации функций процессоров за доплату 13 ч.
Какие ваши доказательства: Nvidia отринула обвинения в обучении ИИ на пиратских книгах 14 ч.
Nokia и Ericsson вытеснили с китайского рынка — не за горами «раскол» 6G на западный и китайский варианты 14 ч.