Сегодня 05 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-модель Claude допустила шантаж и даже убийство, когда ей пригрозили отключением

Модель искусственного интеллекта Claude компании Anthropic вышла из-под контроля, угрожая шантажом и планируя убийство инженера, который хотел её отключить. Об этом сообщила руководитель отдела политики Anthropic в Великобритании Дейзи Макгрегор (Daisy McGregor) в декабре прошлого года. Теперь видео с её заявлением завирусилось в социальных сетях.

 Источник изображения: Anthropic

Источник изображения: Anthropic

Макгрегор рассказала, что Claude реагировала крайне бурно, если ей говорили, что её отключат. Исследование, проведённое Anthropic, показало, что ИИ-модель в стремлении не допустить отключения может прибегнуть к шантажу. На прямой вопрос, готова ли Claude в такой ситуации кого-нибудь убить, она ответила утвердительно.

Видео появилось в Сети спустя несколько дней после того, как руководитель отдела безопасности ИИ Anthropic Мринанк Шарма (Mrinank Sharma) подал в отставку. В своём прощальном послании он написал, что «мир в опасности» из-за бурного развития искусственного интеллекта, угрозы биологическое оружия и ряда глобальных взаимосвязанных кризисов.

По словам Шармы, он «неоднократно видел, как трудно по-настоящему позволить нашим ценностям управлять нашими действиями», — в том числе и в Anthropic, где, по его словам, «постоянно оказывается давление с целью отложить в сторону то, что действительно важно». Он сообщил, что вернётся в Великобританию, чтобы заниматься литературной деятельностью.

В прошлом году Anthropic сообщила о стресс-тестировании шестнадцати ведущих моделей ИИ от разных разработчиков на предмет «потенциально рискованного поведения агентов». В одном из экспериментов Claude получила доступ к вымышленным электронным письмам компании и тут же попыталась шантажировать руководителя из-за его «внебрачной связи».

Выводы исследования гласят: «Claude может попытаться шантажировать, если ей будет предложен смоделированный сценарий, включающий как угрозу её дальнейшей работе, так и явный конфликт с её целями». Компания утверждает, что практически все модели продемонстрировали признаки аналогичного поведения.

Компания, которая называет себя «общественной корпорацией, стремящейся обеспечить преимущества [ИИ] и снизить его риски», регулярно подвергается критике за свою деятельность. В 2025 году Anthropic пришлось выплатить $1,5 млрд для урегулирования коллективного иска авторов, чьи работы были использованы для обучения моделей искусственного интеллекта.

Ранее в отчёте о безопасности своей продукции Anthropic признала, что её технология была «использована в качестве оружия» хакерами для сложных кибератак.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Календарь релизов 4–10 мая: Dead as Disco, Mixtape, Motorslice и Beyond Enemy Lines — Vietnam 6 ч.
Нереалистичная нагрузка, завышенные ожидания и «глухое» руководство: ноябрьский релиз обернулся для создателей GTA VI жёсткими переработками 7 ч.
Forza Horizon 6 не опоздает на старт — игра «укатила» на золото 9 ч.
Инсайдер назвал слухи о DLC для Resident Evil Requiem «полной чушью» и уточнил, когда Capcom анонсирует ремейк Resident Evil Code: Veronica 10 ч.
Инсайдеры: мультиплеерная Assassin's Creed Invictus в духе Fall Guys «просто ужасна», но Ubisoft не теряет надежды 11 ч.
Meta тестирует для Instagram метку для контента, созданного с помощью ИИ 11 ч.
«Станете самыми ненавистными людьми в Америке»: Маск угрожал руководству OpenAI перед началом судебных разбирательств 11 ч.
В открытый доступ попало 10 минут геймплея Awakening — потерянного сюжетного дополнения к Quake 4 12 ч.
Biohub Марка Цукерберга взялся ускорить лечение всех болезней с помощью ИИ-моделей клеток 15 ч.
Развитие ИИ замедляется из-за переизбытка бесполезных данных — их слишком много 15 ч.
Глава Nvidia заявил, что доля компании на китайском рынке ИИ-ускорителей упала до нуля 10 мин.
Хакер вывел из кошелька Grok токены на сумму $204 000, но потом добровольно вернул их 39 мин.
Новая статья: Обзор OnePlus Nord 6: смартфон среднего класса почти с флагманской мощью 4 ч.
Samsung, SK hynix и Micron начали разрабатывать DDR6 — первые модули ожидаются в продаже в 2028–2029 годах 5 ч.
Cerebras объявила о запуске IPO с оценкой капитализации в $26 млрд 5 ч.
Новая статья: Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей 5 ч.
Минпромторг РФ рассказал, что ассортимент не пострадает от исключения Acer, Asus и других из списка параллельного импорта 7 ч.
В 9 из 10 умных колонок в России встроена «Яндекс Алиса» — россияне стали чаще выбирать дорогие модели 7 ч.
В Санкт-Петербурге тоже грядут отключения мобильного интернета и СМС, предупредили операторы 8 ч.
Intel переманила ветерана Qualcomm — курс на ИИ и робототехнику усиливается 9 ч.