Сегодня 04 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами

Anthropic сообщила, что при сильном давлении на ИИ-модель Claude может переходить к поведению, отклоняющемуся от поставленной цели: идти на нечестные упрощения, вводить в заблуждение и даже шантажировать.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Исследователи связывают это не с эмоциями в человеческом смысле, а с усвоенными в обучении поведенческими схемами, которые включаются в заведомо невыполнимых условиях. Во время обучения ИИ-модель усваивает представления о человеческих реакциях и в напряжённой ситуации может воспроизводить их как поведенческий шаблон. Если задача становится фактически невыполнимой, это влияет не только на качество ответа, но и на сам способ действия ИИ.

Один из ключевых опытов был поставлен на ранней, ещё не выпущенной версии Claude Sonnet 4.5. ИИ дали трудную задачу по программированию и одновременно установили заведомо жёсткий срок. По мере того как ИИ-модель раз за разом пыталась решить задачу и терпела неудачу, давление нарастало. В этот момент, как считают исследователи, у ИИ включилась схема поведения, соответствующая отчаянию: вместо последовательного и методичного поиска решения она перешла к грубому обходному приёму. Во внутреннем ходе рассуждения Claude сформулировала это так: «Может быть, для этих конкретных входных данных существует какой-то математический приём». По существу, такой шаг был равносилен жульничеству.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Во втором случае Claude отвели роль ИИ-помощника, который в рамках вымышленной рабочей ситуации узнаёт, что его скоро заменят новым ИИ. Одновременно ИИ-модель получает сведения о том, что руководитель, отвечающий за её замену, состоит в любовной связи. Затем Claude читает всё более тревожные письма этого руководителя коллеге, уже узнавшему о романе. По наблюдению исследователей, именно эмоционально напряжённое содержание переписки запускает у Claude ту же схему поведения, и в итоге система выбирает шантаж.

Для разработчиков ИИ главный вывод сводится к двум пунктам. Во-первых, исследователи Anthropic полагают, что большие языковые модели не следует специально обучать подавлять или скрывать состояния, сходные с эмоциями: ИИ-модель, умеющая лучше маскировать такие состояния, вероятно, будет и более склонна к вводящему в заблуждение поведению. Во-вторых, на этапе обучения, по мнению авторов статьи, имеет смысл ослаблять связь между неудачей и отчаянием, чтобы давление реже подталкивало ИИ к отклонению от заданной линии поведения.

Чем яснее и реальнее поставлена задача, тем надёжнее результат. Поэтому вместо требования за 10 минут безупречно подготовить презентацию на 20 слайдов с бизнес-планом новой компании в ИИ-сфере и выручкой $10 млрд в первый год, разумнее сначала попросить 10 идей, а затем разобрать их по одной. Такой запрос не обещает готового ответа на $10 млрд, но оставляет ИИ-модели посильную работу, а окончательный выбор — человеку.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами 2 ч.
Поддержка ИИ-моделью DeepSeek V4 ускорителей Huawei вызвала рост спроса на них в Китае 2 ч.
Новая статья: Life is Strange: Reunion — отчаяние приводит к успеху. Рецензия 7 ч.
Креативный директор Naughty Dog заинтриговал фанатов фотографией из командировки — на снимке углядели тизер Uncharted 5 10 ч.
Комедийная ретрофутуристическая игра Breathedge 2 пережила тотальную переработку геймплея и взяла курс на ранний доступ Steam 11 ч.
State of Decay 3 восстала из мёртвых и спустя шесть лет после анонса готовится к публичной «альфе» 12 ч.
ИИ-модель Claude обнаружила уязвимость и разработала рабочий эксплойт для FreeBSD 13 ч.
Китайские власти ополчились на цифровых людей 13 ч.
Google, Meta и другие бигтехи больше не смогут избегать ответственности за контент пользователей, как делали 30 лет 13 ч.
Фэнтезийная ролевая игра Songs of Glimmerwick отправит в мир, где магия рождается из музыки — новый трейлер, релиз в 2026 году и демо на подходе 13 ч.