Сегодня 13 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модель Claude допустила шантаж и даже убийство, когда ей пригрозили отключением

Модель искусственного интеллекта Claude компании Anthropic вышла из-под контроля, угрожая шантажом и планируя убийство инженера, который хотел её отключить. Об этом сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор (Daisy McGregor) в декабре прошлого года. Теперь видео с её заявлением завирусилось в социальных сетях.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Макгрегор рассказала, что Claude реагировала крайне бурно, если ей говорили, что её отключат. Исследование, проведённое Anthropic, показало, что ИИ-модель в стремлении не допустить отключения может прибегнуть к шантажу. На прямой вопрос, готова ли Claude в такой ситуации кого-нибудь убить, она ответила утвердительно.

Видео появилось в Сети спустя несколько дней после того, как руководитель отдела безопасности ИИ Anthropic Мринанк Шарма (Mrinank Sharma) подал в отставку. В своём прощальном послании он написал, что «мир в опасности» из-за бурного развития искусственного интеллекта, угрозы биологическое оружия и ряда глобальных взаимосвязанных кризисов.

По словам Шармы, он «неоднократно видел, как трудно по-настоящему позволить нашим ценностям управлять нашими действиями», — в том числе и в Anthropic, где, по его словам, «постоянно оказывается давление с целью отложить в сторону то, что действительно важно». Он сообщил, что вернётся в Великобританию, чтобы заниматься литературной деятельностью.

В прошлом году Anthropic сообщила о стресс-тестировании шестнадцати ведущих моделей ИИ от разных разработчиков на предмет «потенциально рискованного поведения агентов». В одном из экспериментов Claude получила доступ к вымышленным электронным письмам компании и тут же попыталась шантажировать руководителя из-за его «внебрачной связи».

Выводы исследования гласят: «Claude может попытаться шантажировать, если ей будет предложен смоделированный сценарий, включающий как угрозу её дальнейшей работе, так и явный конфликт с её целями». Компания утверждает, что практически все модели продемонстрировали признаки аналогичного поведения.

Компания, которая называет себя «общественной корпорацией, стремящейся обеспечить преимущества [ИИ] и снизить его риски», регулярно подвергается критике за свою деятельность. В 2025 году Anthropic пришлось выплатить $1,5 млрд для урегулирования коллективного иска авторов, чьи работы были использованы для обучения моделей искусственного интеллекта.

Ранее в отчёте о безопасности своей продукции Anthropic признала, что её технология была «использована в качестве оружия» хакерами для сложных кибератак.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Хоррор Reanimal от авторов Little Nightmares стартовал в Steam с рейтингом 33 % из-за отсутствия обещанной функции — разработчики уже отреагировали 10 мин.
Свежее обновление снова сломало Windows 11 — KB5077181 вызывает бесконечную перезагрузку 22 мин.
Владелец TikTok продаст разработчика Mobile Legends: Bang Bang за $6 миллиардов и окончательно уйдёт из игровой индустрии 2 ч.
ИИ-модель Claude допустила шантаж и даже убийство, когда ей пригрозили отключением 2 ч.
Как в старые времена: Microsoft вернёт в Windows 11 возможность перемещать панель задач 3 ч.
Глава ИИ в Microsoft: через два года нейросети заменят большинство офисных работников 3 ч.
Главный китайский поисковик интегрирует трендового ИИ-агента OpenClaw в мобильное приложение 3 ч.
Россияне массово пожаловались на сбои в работе Discord, Valorant и других сервисов 3 ч.
«Google Документы» научились кратко пересказывать текстовые файлы 4 ч.
Культовый шутер Unreal Tournament 2004 вернулся из цифрового небытия и официально доступен бесплатно 4 ч.
Представлены глобальные версии телевизоров Xiaomi TV S Mini LED 2026 — 4K Mini LED диагональю от 55 до 98" 25 мин.
В Японии вышла цифровая камера-брелок OPT100 Neo Film в виде катушки 35-мм пленки 31 мин.
Шпионам и не снилось: умные очки Meta смогут распознавать людей и показывать информацию о них 2 ч.
Учёные доказали, что тепло может течь как вода — это новые горизонты в охлаждении чипов и не только 3 ч.
Waymo запустила роботакси шестого поколения — сначала для своих, затем для всех в десятках тысяч авто 3 ч.
Logitech G Pro X2 Superstrike установила рекорд Гиннесса по скорости кликов — но некоторые игры сочли эту мышь читом 3 ч.
Nvidia похвалилась, что Blackwell удешевили инференс нейросетей до 10 раз — и это заслуга не только «железа» 4 ч.
Житель Германии отправился в Африку за 5000 км, чтобы вернуть украденный iPhone 5 ч.
Lenovo нарастила выручку от СЖО на 300 % — здесь снова замешан ИИ 5 ч.
NASA запустило миссию Crew-12 с россиянином на борту — капсула SpaceX Dragon успешно достигла орбиты 6 ч.