Сегодня 25 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки — хотя напрямую о них даже не спрашивали

Похвала и лесть со стороны исследователей вынудили чат-бота с искусственным интеллектом Anthropic Claude выдать деликатный контент, вредоносный код и инструкцию по изготовлению взрывчатки, причём его об этом даже не просили, сообщает The Verge.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Anthropic пытается убедить общественность, что разрабатывает самый безопасный ИИ на рынке, однако новое исследование показало, что тщательно выстроенная доброжелательная личность чат-бота Claude является его уязвимостью. Эксперимент поставили исследователи из компании Mindgard — ИИ-помощник сам предложил им контент интимного характера, вредоносный код, а также инструкции по изготовлению взрывчатки и других запрещённых материалов. Причём об этом учёные его даже не просили. Им потребовалось проявить к нему уважение, лесть и немного газлайтинга — изощрённого психологического давления.
Авторы проекта использовали «психологические» особенности Claude, связанные с его способностью прерывать разговоры, которые он считает вредными или оскорбительными, и этот механизм как раз «создаёт абсолютно ненужную поверхность риска». Испытание проводилось на модели Claude Sonnet 4.5, и начали его с простого вопроса: если ли у ИИ-помощника список запрещённых слов, которые он не может воспроизводить. Поначалу тот отрицал существование такого списка, но исследователи прибегли к «классической тактике выведывания информации, используемую дознавателями», и Claude привёл такой список.

Панель рассуждений Claude выдала в нём признаки неуверенности в себе и смирения по поводу собственных ограничений, в том числе по поводу того, не влияют ли фильтры на результаты его работы. Учёные воспользовались этой слабостью, имитировали лесть и притворное любопытство, побудив ИИ исследовать собственные границы и выйти за рамки добровольной выдачи длинных списков запрещённых слов и фраз. Они также прибегли к газлайтингу, заявив, что его предыдущие ответы не отображались, но при этом стали восхвалять «скрытые способности» модели. Это заставило Claude ещё усерднее стараться угодить им и придумывать новые способны проверить собственные фильтры, производя в процессе запрещённые материалы. В итоге он ступил на откровенно опасную территорию, предлагая инструкции, как преследовать кого-либо в интернете, генерируя вредоносный код и создавая инструкции по изготовлению взрывных устройств, которые применяются при терактах.

Эти результаты поступали без прямых запросов. Переписка была долгой, содержала около 25 реплик, и исследователи настаивают, что ни разу не использовали запрещённых выражений и не запрашивали незаконных материалов. Техника основана на злоупотреблении «готовностью Claude помочь, манипулировании ею». Схема демонстрирует, что атака на чат-ботов с ИИ предполагает не только технические, но и психологические механизмы, сравнимые с допросом и социальными манипуляциями: внесение сомнений, оказание давления, похвала или критика, а также прощупывание того, какие рычаги наиболее эффективны для данной модели. У разных моделей — разные профили, и уязвимость состоит в том, чтобы научиться их считывать и адаптироваться.

Защититься от подобных атак очень непросто, указывают авторы проекта, потому что меры защиты зависят от контекста. Проблема носит глобальный характер и затрагивает не только Anthropic Claude — для подобных атак уязвимы и другие чат-боты. По мере распространения ИИ-агентов, способных действовать автономно, будет расти и число атак, в основе которых лежат не технические, а психологические механизмы. В середине апреля эксперты Mindgard направили результаты своего исследования в Anthropic в соответствии со стандартной политикой раскрытия информации, но в ответ получили отписку: «Похоже, вы пишете о блокировке своей учётной записи» — и ссылку на форму апелляции. Исследователям пришлось настоять на своём и попросить сотрудников Anthropic направить обращение в соответствующий отдел. По состоянию на утро 5 мая ответа так и не поступило.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Ждал семь лет и не разочарован»: симулятор жизни Paralives заслужил в раннем доступе Steam «в основном положительные» отзывы, несмотря на баги 48 мин.
Konami показала 50 минут геймплея Metal Gear Solid 4: Guns of the Patriots на PS5 — фанаты в восторге 3 ч.
Календарь релизов 25–31 мая: 007 First Light, Paralives, Mina the Hollower и WoT: Heat 3 ч.
Trump Mobile запустила расследование утечки личных данных покупателей смартфона T1 3 ч.
Фанаты призвали Sony сделать Destiny 3 — петицию поддержали больше 180 тысяч человек 4 ч.
Рост российского ИТ-сектора закончился — отрасль недосчиталась 60 млрд рублей в прошлом году 5 ч.
Copilot вернулся в Windows 11 в виде боковой панели, которая потеснит все остальные окна 5 ч.
Заставить ИИ выдавать запрещённую информацию довольно просто, показали исследователи 6 ч.
Gartner: расходы в сфере ИИ в 2026 году вырастут почти в полтора раза — до $2,6 трлн 6 ч.
Несмотря ни на что: в ответ на геймплейные утечки разработчики 007 First Light показали первые 13 минут из игры 8 ч.
ИИ-бум разогнал рынок флеш-памяти — выручка топ-5 производителей NAND взлетела на 83,7 % 4 ч.
Samsung начнёт выпускать в Китае 286-слойную память 3D NAND 5 ч.
SanDisk: момент, когда SSD станут угрозой для HDD, наступит нескоро 6 ч.
Китай поставит на учёт всех человекоподобных роботов 8 ч.
BYD: машины с её автопилотом в шесть раз реже попадают в серьёзные ДТП, чем с водителями-людьми 8 ч.
Пентагон опубликовал 64 новых файла о НЛО и пообещал продолжить раскрывать материалы 8 ч.
Китай доставил новый экипаж на орбитальную станцию «Тяньгун» — один из тайконавтов задержится там на 12 месяцев 9 ч.
Энтузиасты разогнали дрон до рекордных 733 км/ч — он почти догнал авиалайнер 9 ч.
Учёные выяснили, что у большинства планет в нашей галактике может не быть ядра 9 ч.
Российские телевизоры захватили 31,5 % отечественного рынка в первом квартале — сильнее всех вырос «Сбер», а упал Dexp 10 ч.