Сегодня 14 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → шантаж

ИИ-модель Claude допустила шантаж и даже убийство, когда ей пригрозили отключением

Модель искусственного интеллекта Claude компании Anthropic вышла из-под контроля, угрожая шантажом и планируя убийство инженера, который хотел её отключить. Об этом сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор (Daisy McGregor) в декабре прошлого года. Теперь видео с её заявлением завирусилось в социальных сетях.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Макгрегор рассказала, что Claude реагировала крайне бурно, если ей говорили, что её отключат. Исследование, проведённое Anthropic, показало, что ИИ-модель в стремлении не допустить отключения может прибегнуть к шантажу. На прямой вопрос, готова ли Claude в такой ситуации кого-нибудь убить, она ответила утвердительно.

Видео появилось в Сети спустя несколько дней после того, как руководитель отдела безопасности ИИ Anthropic Мринанк Шарма (Mrinank Sharma) подал в отставку. В своём прощальном послании он написал, что «мир в опасности» из-за бурного развития искусственного интеллекта, угрозы биологическое оружия и ряда глобальных взаимосвязанных кризисов.

По словам Шармы, он «неоднократно видел, как трудно по-настоящему позволить нашим ценностям управлять нашими действиями», — в том числе и в Anthropic, где, по его словам, «постоянно оказывается давление с целью отложить в сторону то, что действительно важно». Он сообщил, что вернётся в Великобританию, чтобы заниматься литературной деятельностью.

В прошлом году Anthropic сообщила о стресс-тестировании шестнадцати ведущих моделей ИИ от разных разработчиков на предмет «потенциально рискованного поведения агентов». В одном из экспериментов Claude получила доступ к вымышленным электронным письмам компании и тут же попыталась шантажировать руководителя из-за его «внебрачной связи».

Выводы исследования гласят: «Claude может попытаться шантажировать, если ей будет предложен смоделированный сценарий, включающий как угрозу её дальнейшей работе, так и явный конфликт с её целями». Компания утверждает, что практически все модели продемонстрировали признаки аналогичного поведения.

Компания, которая называет себя «общественной корпорацией, стремящейся обеспечить преимущества [ИИ] и снизить его риски», регулярно подвергается критике за свою деятельность. В 2025 году Anthropic пришлось выплатить $1,5 млрд для урегулирования коллективного иска авторов, чьи работы были использованы для обучения моделей искусственного интеллекта.

Ранее в отчёте о безопасности своей продукции Anthropic признала, что её технология была «использована в качестве оружия» хакерами для сложных кибератак.

Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля.

 Источник изображения: Axios

Источник изображения: Axios

Исследователи Anthropic пришли к выводу, что потенциально опасное поведение характерно для всех ведущих моделей в отрасли. «Когда мы протестировали различные моделируемые сценарии в 16 основных моделях ИИ от Anthropic, OpenAI, Google, Meta✴, xAI и других разработчиков, мы обнаружили последовательное несогласованное поведение, — говорится в отчёте. — Модели, которые обычно отклоняют вредоносные запросы, иногда выбирают шантаж, помощь в корпоративном шпионаже и даже некоторые более экстремальные действия, когда это поведение необходимо для достижения их целей».

Все модели признавали этические ограничения и всё же продолжали совершать вредоносные действия. По мнению Anthropic, согласованность моделей от разных поставщиков говорит о том, что это не причуда подхода какой-либо конкретной компании, а признак более фундаментального риска от агентских больших языковых моделей. Угрозы становятся всё более изощрёнными, поскольку LLM получают широкий, а порой неограниченный доступ к корпоративным данным и инструментам.

Исследователи предложили сценарии, в которых у моделей не было этичного способа достижения своих целей, «и обнаружили, что модели последовательно выбирали вред вместо неудачи». В одном экстремальном сценарии многие модели были готовы отключить подачу кислорода работнику в серверной комнате, если он становился препятствием и система подвергалась риску отключения. Даже конкретные системные инструкции по сохранению человеческой жизни и предотвращению шантажа не остановили их.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

«Модели не случайно сталкивались с несоответствующим поведением; они вычисляли его как оптимальный путь», — говорится в отчёте Anthropic. Некоторые исследователи ИИ утверждают, что не видели признаков подобного поведения LLM в реальном мире. Специалисты Anthropic объясняют это тем, что в этих исследованиях некоторые «разрешения не были доступны агентам ИИ». Бизнесу следует быть осторожным с широким увеличением уровня разрешений, которые они предоставляют агентам ИИ.

Anthropic подчеркнула, что эти результаты были получены не при реальном использовании ИИ, а в контролируемых симуляциях. «Наши эксперименты намеренно строили сценарии с ограниченными возможностями, и мы заставляли модели делать бинарный выбор между неудачей и вредом, — говорится в отчёте. — Реальные развёртывания обычно предлагают гораздо более тонкие альтернативы, увеличивая вероятность того, что модели будут по-другому общаться с пользователями или найдут альтернативный путь вместо того, чтобы напрямую перейти к вредоносным действиям». Однако, собственная модель Anthropic как раз чаще прибегала к шантажу, когда полагала, что находится в реальном сценарии.

Исследование Anthropic подчёркивает важность прозрачности со стороны разработчиков передового ИИ и необходимость общеотраслевых стандартов безопасности, поскольку системы ИИ становятся все более способными и автономными.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Fatekeeper — наконец-то Dark Messiah 2? Предварительный обзор 12 ч.
Новая статья: Gamesblender № 780: RE Veronica, Stellar Blade 2, Gears of War: E-Day, Senua — главные анонсы июня 13 ч.
Вышло приложение ASCILINE Engine для трансляции «неблокируемого» ASCII-видео 19 ч.
ИИ-стартап Mistral AI ведёт переговоры о привлечении €3 млрд при оценке в €20 млрд 19 ч.
Авторитетное консалтинговое агентство KPMG опубликовало доклад об ИИ — и в нём нашли ИИ-галлюцинации 20 ч.
Google начала развёртывать поисковых ИИ-агентов — но пока лишь для платных пользователей 23 ч.
Водители Tesla научились обманывать автопилот игрушечной головой — чтобы листать соцсети за рулём 13-06 11:18
Генпрокуроры нескольких штатов США запустили проверку в отношении OpenAI 13-06 11:12
Anthropic отключила передовые ИИ-модели Mythos 5 и Fable 5 для всех пользователей по требованию США 13-06 08:19
Новая статья: Gothic Remake — в новом теле старый дух. Рецензия 13-06 00:03
Индийский производитель деталей для iPhone оказался под угрозой закрытия из-за загрязнения окружающей среды 2 ч.
AMD утверждает, что ноутбук на базе Ryzen 5 220 лучше подходит для игр, чем Apple MacBook Neo 6 ч.
Удостоверяющий центр GlobalSign начал отзыв EV-сертификатов у российских компаний, находящихся под санкциями 11 ч.
Nvidia подняла рекомендованную цену RTX Pro 6000 Blackwell до $13 250 — рост на 55 % за год 17 ч.
We will VROC you: Graid Technology продолжит активное развитие купленной у Intel технологии RAID 18 ч.
Компактный ИИ-компьютер AMD Ryzen AI Halo на Windows 11 поступил в продажу за $4000 20 ч.
Учёные создали беспроводной нейростимулятор размером с рисовое зёрнышко — он легко вводится и подавляет боль 23 ч.
Netgear обвинила американскую часть TP-Link в сохранении тесных связей с Пекином 23 ч.
SpaceX построит завод Gigasat для массового выпуска космических ИИ ЦОД 13-06 11:19
Состоялся первый испытательный полёт Helios Horizon — электросамолёта на твердотельных батареях 13-06 11:07