Сегодня 16 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами

Anthropic сообщила, что при сильном давлении на ИИ-модель Claude может переходить к поведению, отклоняющемуся от поставленной цели: идти на нечестные упрощения, вводить в заблуждение и даже шантажировать.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Исследователи связывают это не с эмоциями в человеческом смысле, а с усвоенными в обучении поведенческими схемами, которые включаются в заведомо невыполнимых условиях. Во время обучения ИИ-модель усваивает представления о человеческих реакциях и в напряжённой ситуации может воспроизводить их как поведенческий шаблон. Если задача становится фактически невыполнимой, это влияет не только на качество ответа, но и на сам способ действия ИИ.

Один из ключевых опытов был поставлен на ранней, ещё не выпущенной версии Claude Sonnet 4.5. ИИ дали трудную задачу по программированию и одновременно установили заведомо жёсткий срок. По мере того как ИИ-модель раз за разом пыталась решить задачу и терпела неудачу, давление нарастало. В этот момент, как считают исследователи, у ИИ включилась схема поведения, соответствующая отчаянию: вместо последовательного и методичного поиска решения она перешла к грубому обходному приёму. Во внутреннем ходе рассуждения Claude сформулировала это так: «Может быть, для этих конкретных входных данных существует какой-то математический приём». По существу, такой шаг был равносилен жульничеству.

 Источник изображения: Steve Johnson / unsplash.com

Источник изображения: Steve Johnson / unsplash.com

Во втором случае Claude отвели роль ИИ-помощника, который в рамках вымышленной рабочей ситуации узнаёт, что его скоро заменят новым ИИ. Одновременно ИИ-модель получает сведения о том, что руководитель, отвечающий за её замену, состоит в любовной связи. Затем Claude читает всё более тревожные письма этого руководителя коллеге, уже узнавшему о романе. По наблюдению исследователей, именно эмоционально напряжённое содержание переписки запускает у Claude ту же схему поведения, и в итоге система выбирает шантаж.

Для разработчиков ИИ главный вывод сводится к двум пунктам. Во-первых, исследователи Anthropic полагают, что большие языковые модели не следует специально обучать подавлять или скрывать состояния, сходные с эмоциями: ИИ-модель, умеющая лучше маскировать такие состояния, вероятно, будет и более склонна к вводящему в заблуждение поведению. Во-вторых, на этапе обучения, по мнению авторов статьи, имеет смысл ослаблять связь между неудачей и отчаянием, чтобы давление реже подталкивало ИИ к отклонению от заданной линии поведения.

Чем яснее и реальнее поставлена задача, тем надёжнее результат. Поэтому вместо требования за 10 минут безупречно подготовить презентацию на 20 слайдов с бизнес-планом новой компании в ИИ-сфере и выручкой $10 млрд в первый год, разумнее сначала попросить 10 идей, а затем разобрать их по одной. Такой запрос не обещает готового ответа на $10 млрд, но оставляет ИИ-модели посильную работу, а окончательный выбор — человеку.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Календарь релизов 15–21 июня: Copa City, The Adventures of Elliot и The Last Salvage Squad 4 ч.
В Steam стартовал фестиваль «Играм быть» с демоверсиями тысяч будущих хитов 4 ч.
«Яндекс» намерен научить ИИ считывать эмоции и чувства людей 5 ч.
У Don't Nod большие проблемы — разработчики Life is Strange, Remember Me и Jusant оказались на грани банкротства 6 ч.
Nintendo проговорилась, чего ждать от ремейка легендарной The Legend of Zelda: Ocarina of Time 7 ч.
Спустя два года после релиза Capcom удалит микротранзакции из Dragon’s Dogma 2 и снизит цену игры 9 ч.
В Великобритании полицейского уличили в фальсификации доказательств преступлений с помощью ИИ 14 ч.
«Кто купит Xbox и Game Pass ради Gears?»: инсайдер рассекретил «безумный» бюджет Gears of War: E-Day 14 ч.
Anthropic проведёт переговоры с властями США для разблокировки ИИ-моделей Mythos 5 и Fable 5 15 ч.
В Steam завирусились виртуальные прятки Meccha Chameleon, где можно буквально слиться с окружением 16 ч.
Новая статья: Обзор смартфона Xiaomi 17 Ultra: человечный камерофон с настоящим зумом 2 ч.
Midea запустила акцию «Сорви летний куш» с розыгрышем поездки в Китай и других призов 6 ч.
Nvidia тоже залезет в долги ради финансирования ИИ — Хуанг готовит облигации на $20 млрд 7 ч.
SpaceX с помощью IPO привлекла $85,7 млрд — сумма выросла на 14 % за счёт «зелёного башмака» 8 ч.
Ирано-американская мирная сделка запустила рост акций Samsung, SK hynix и других IT-компаний из Азии 8 ч.
МТС вложит 1 млрд рублей в модернизацию ядра сети ШПД и установку маршрутизаторов собственной разработки 8 ч.
Индийские клиенты Google Cloud уже неделю мирятся со сбоями сети из-за пожара в ЦОД в Дели 9 ч.
MSI оценила портативную приставку Claw 8 EX AI+ на чипе Arc G3 Extreme в $1799 9 ч.
Google Chromebook исполнилось 15 лет — массовыми хромбуки не стали, но завоевали популярность в образовании 9 ч.
Samsung в следующем году запустит производство 4-нм чипов для мозговых имплантов Neuralink 10 ч.