Сегодня 24 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами

Anthropic сообщила, что при сильном давлении на ИИ-модель Claude может переходить к поведению, отклоняющемуся от поставленной цели: идти на нечестные упрощения, вводить в заблуждение и даже шантажировать.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Исследователи связывают это не с эмоциями в человеческом смысле, а с усвоенными в обучении поведенческими схемами, которые включаются в заведомо невыполнимых условиях. Во время обучения ИИ-модель усваивает представления о человеческих реакциях и в напряжённой ситуации может воспроизводить их как поведенческий шаблон. Если задача становится фактически невыполнимой, это влияет не только на качество ответа, но и на сам способ действия ИИ.

Один из ключевых опытов был поставлен на ранней, ещё не выпущенной версии Claude Sonnet 4.5. ИИ дали трудную задачу по программированию и одновременно установили заведомо жёсткий срок. По мере того как ИИ-модель раз за разом пыталась решить задачу и терпела неудачу, давление нарастало. В этот момент, как считают исследователи, у ИИ включилась схема поведения, соответствующая отчаянию: вместо последовательного и методичного поиска решения она перешла к грубому обходному приёму. Во внутреннем ходе рассуждения Claude сформулировала это так: «Может быть, для этих конкретных входных данных существует какой-то математический приём». По существу, такой шаг был равносилен жульничеству.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Во втором случае Claude отвели роль ИИ-помощника, который в рамках вымышленной рабочей ситуации узнаёт, что его скоро заменят новым ИИ. Одновременно ИИ-модель получает сведения о том, что руководитель, отвечающий за её замену, состоит в любовной связи. Затем Claude читает всё более тревожные письма этого руководителя коллеге, уже узнавшему о романе. По наблюдению исследователей, именно эмоционально напряжённое содержание переписки запускает у Claude ту же схему поведения, и в итоге система выбирает шантаж.

Для разработчиков ИИ главный вывод сводится к двум пунктам. Во-первых, исследователи Anthropic полагают, что большие языковые модели не следует специально обучать подавлять или скрывать состояния, сходные с эмоциями: ИИ-модель, умеющая лучше маскировать такие состояния, вероятно, будет и более склонна к вводящему в заблуждение поведению. Во-вторых, на этапе обучения, по мнению авторов статьи, имеет смысл ослаблять связь между неудачей и отчаянием, чтобы давление реже подталкивало ИИ к отклонению от заданной линии поведения.

Чем яснее и реальнее поставлена задача, тем надёжнее результат. Поэтому вместо требования за 10 минут безупречно подготовить презентацию на 20 слайдов с бизнес-планом новой компании в ИИ-сфере и выручкой $10 млрд в первый год, разумнее сначала попросить 10 идей, а затем разобрать их по одной. Такой запрос не обещает готового ответа на $10 млрд, но оставляет ИИ-модели посильную работу, а окончательный выбор — человеку.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Meta расширила родительский контроль на ИИ-чат-бот — родители увидят темы бесед подростков за неделю 4 ч.
Совсем без Call of Duty подписчиков Game Pass в 2026 году не оставят 11 ч.
Microsoft Gaming в прошлом — игровое подразделение вернуло имя Xbox 11 ч.
Funcom бесплатно прокачает Conan Exiles до версии на Unreal Engine 5 — трейлер и подробности Conan Exiles Enhanced 12 ч.
Tencent запустила тестирование ИИ-агента QClaw, но сильно ограничила к нему доступ 12 ч.
«Пришло время снова поднять чёрный флаг!»: Ubisoft наконец анонсировала Assassin’s Creed Black Flag Resynced 13 ч.
Релиз «Кибер Бэкап» 18.5: многопоточность, поддержка LDAPS, расширенная интеграция с Kubernetes и многое другое 13 ч.
Евросоюз принуждает Google открыть Android для конкурентов Gemini 13 ч.
Первое сюжетное дополнение к Vampire: The Masquerade — Bloodlines 2 даст почувствовать себя шерифом вампиров — трейлер и дата выхода Loose Cannon 14 ч.
Тим Кук рассказал, какой была его первая большая ошибка на посту главы Apple 15 ч.
Intel призывает рассчитывать на снижение спроса на ПК во втором полугодии 2 мин.
Seagate представила три внешних накопителя ёмкостью от 24 до 256 Тбайт — старший получил восемь отсеков и Thunderbolt 5 33 мин.
Прогноз по выручке Intel превзошёл ожидания рынка, акции компании выросли в цене на 20 % 36 мин.
Rivian запустила производство электрического внедорожника R2 — первый экземпляр уже сошёл с конвейера 5 ч.
Новая статья: Экспресс-тест внешнего SSD-накопителя MSI Datamag 40Gbps 9 ч.
Cisco представила прототип универсального квантового коммутатора 10 ч.
3D X-DRAM впервые воплотили в кремнии — оперативная память будущего стала ближе 11 ч.
Intel показала эталонный ноутбук на Wildcat Lake — он похож на MacBook Neo 11 ч.
Honor представила конкурентов MacBook Air — MagicBook X14 Plus и X16 Plus с Intel Panther Lake и дисплеями 120 Гц 14 ч.
Китай оценил мощность своей ИИ-инфраструктуры — оценки США были ниже в 6000 раз 15 ч.