Сегодня 03 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами

Anthropic сообщила, что при сильном давлении на ИИ-модель Claude может переходить к поведению, отклоняющемуся от поставленной цели: идти на нечестные упрощения, вводить в заблуждение и даже шантажировать.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Исследователи связывают это не с эмоциями в человеческом смысле, а с усвоенными в обучении поведенческими схемами, которые включаются в заведомо невыполнимых условиях. Во время обучения ИИ-модель усваивает представления о человеческих реакциях и в напряжённой ситуации может воспроизводить их как поведенческий шаблон. Если задача становится фактически невыполнимой, это влияет не только на качество ответа, но и на сам способ действия ИИ.

Один из ключевых опытов был поставлен на ранней, ещё не выпущенной версии Claude Sonnet 4.5. ИИ дали трудную задачу по программированию и одновременно установили заведомо жёсткий срок. По мере того как ИИ-модель раз за разом пыталась решить задачу и терпела неудачу, давление нарастало. В этот момент, как считают исследователи, у ИИ включилась схема поведения, соответствующая отчаянию: вместо последовательного и методичного поиска решения она перешла к грубому обходному приёму. Во внутреннем ходе рассуждения Claude сформулировала это так: «Может быть, для этих конкретных входных данных существует какой-то математический приём». По существу, такой шаг был равносилен жульничеству.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Во втором случае Claude отвели роль ИИ-помощника, который в рамках вымышленной рабочей ситуации узнаёт, что его скоро заменят новым ИИ. Одновременно ИИ-модель получает сведения о том, что руководитель, отвечающий за её замену, состоит в любовной связи. Затем Claude читает всё более тревожные письма этого руководителя коллеге, уже узнавшему о романе. По наблюдению исследователей, именно эмоционально напряжённое содержание переписки запускает у Claude ту же схему поведения, и в итоге система выбирает шантаж.

Для разработчиков ИИ главный вывод сводится к двум пунктам. Во-первых, исследователи Anthropic полагают, что большие языковые модели не следует специально обучать подавлять или скрывать состояния, сходные с эмоциями: ИИ-модель, умеющая лучше маскировать такие состояния, вероятно, будет и более склонна к вводящему в заблуждение поведению. Во-вторых, на этапе обучения, по мнению авторов статьи, имеет смысл ослаблять связь между неудачей и отчаянием, чтобы давление реже подталкивало ИИ к отклонению от заданной линии поведения.

Чем яснее и реальнее поставлена задача, тем надёжнее результат. Поэтому вместо требования за 10 минут безупречно подготовить презентацию на 20 слайдов с бизнес-планом новой компании в ИИ-сфере и выручкой $10 млрд в первый год, разумнее сначала попросить 10 идей, а затем разобрать их по одной. Такой запрос не обещает готового ответа на $10 млрд, но оставляет ИИ-модели посильную работу, а окончательный выбор — человеку.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Исследователи создали червя на основе ИИ — он может использовать любую известную компьютерную уязвимость 31 мин.
В один день с Control Resonant выйдет психологический хоррор Silent Hill: Townfall — с туманным островом конца 90-х и видом от первого лица 4 ч.
Meta передумала следить за всеми действиями сотрудников после волны недовольства 5 ч.
Трамп всё-таки подписал указ об обязательных проверках ИИ-моделей — его считают угрозой для отрасли ИИ 5 ч.
Tomb Raider: Legacy of Atlantis получил точную дату релиза, новый трейлер и скриншоты — ремейк классической Tomb Raider не выйдет в 2026 году 5 ч.
Новая история, новые герои, новый разработчик: анонсирована Until Dawn 2 5 ч.
Stuntman: Hollywood отправит игроков исполнять легендарные трюки из «Назад в будущее», «Форсажа», «Рыцаря дорог» и других хитов кинематографа 6 ч.
Anthropic доверит свой самый опасный ИИ Mythos 150 организациям в 15 странах по всему миру 6 ч.
Тест 3DMark для трассировки лучей получил поддержку нативного 4K, ИИ-масштабирования и генерации кадров 6 ч.
Google позволит исключать сайты из ИИ-поиска без потери позиций в выдаче 7 ч.
Инвесторы уверены, что человекоподобные роботы изменят жизнь людей и промышленность за 10 лет 2 мин.
Научное сообщество скептически отнеслось к квантовому процессору Microsoft Majorana 2 16 мин.
ЦОД проекта Fairwater заработал в Висконсине, Microsoft одобрила использование систем NVIDIA Vera Rubin 2 ч.
Ayar Labs присоединилась к экосистеме NVIDIA NVLink Fusion с собственной CPO-технологией 2 ч.
Репортаж со стенда MSI на Computex 2026: первый ноутбук на Nvidia RTX Spark, юбилейный Titan с RTX 5090 и другие новинки 3 ч.
Honor раскрыла новые подробности о Robot Phone с камерой на подвесе и успокоила насчёт его надёжности 3 ч.
Строительство ЦОД в США захлёбывается в нехватке энергии, но у Google есть план 4 ч.
Новые ВМ Azure Cobalt 200 оптимизированы для ИИ-нагрузок с агентами и в 1,5 раза быстрее ВМ Azure Cobalt 100 4 ч.
G.Skill показала самую быструю память для рабочих станций — восьмиканальный комплект DDR5-10000 ECC RDIMM 4 ч.
ASRock показала платы X870E Taichi 10th Anniversary и Z890 Taichi 10th Anniversary для AMD и Intel 4 ч.