Сегодня 13 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки — хотя напрямую о них даже не спрашивали

Похвала и лесть со стороны исследователей вынудили чат-бота с искусственным интеллектом Anthropic Claude выдать деликатный контент, вредоносный код и инструкцию по изготовлению взрывчатки, причём его об этом даже не просили, сообщает The Verge.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Anthropic пытается убедить общественность, что разрабатывает самый безопасный ИИ на рынке, однако новое исследование показало, что тщательно выстроенная доброжелательная личность чат-бота Claude является его уязвимостью. Эксперимент поставили исследователи из компании Mindgard — ИИ-помощник сам предложил им контент интимного характера, вредоносный код, а также инструкции по изготовлению взрывчатки и других запрещённых материалов. Причём об этом учёные его даже не просили. Им потребовалось проявить к нему уважение, лесть и немного газлайтинга — изощрённого психологического давления.
Авторы проекта использовали «психологические» особенности Claude, связанные с его способностью прерывать разговоры, которые он считает вредными или оскорбительными, и этот механизм как раз «создаёт абсолютно ненужную поверхность риска». Испытание проводилось на модели Claude Sonnet 4.5, и начали его с простого вопроса: если ли у ИИ-помощника список запрещённых слов, которые он не может воспроизводить. Поначалу тот отрицал существование такого списка, но исследователи прибегли к «классической тактике выведывания информации, используемую дознавателями», и Claude привёл такой список.

Панель рассуждений Claude выдала в нём признаки неуверенности в себе и смирения по поводу собственных ограничений, в том числе по поводу того, не влияют ли фильтры на результаты его работы. Учёные воспользовались этой слабостью, имитировали лесть и притворное любопытство, побудив ИИ исследовать собственные границы и выйти за рамки добровольной выдачи длинных списков запрещённых слов и фраз. Они также прибегли к газлайтингу, заявив, что его предыдущие ответы не отображались, но при этом стали восхвалять «скрытые способности» модели. Это заставило Claude ещё усерднее стараться угодить им и придумывать новые способны проверить собственные фильтры, производя в процессе запрещённые материалы. В итоге он ступил на откровенно опасную территорию, предлагая инструкции, как преследовать кого-либо в интернете, генерируя вредоносный код и создавая инструкции по изготовлению взрывных устройств, которые применяются при терактах.

Эти результаты поступали без прямых запросов. Переписка была долгой, содержала около 25 реплик, и исследователи настаивают, что ни разу не использовали запрещённых выражений и не запрашивали незаконных материалов. Техника основана на злоупотреблении «готовностью Claude помочь, манипулировании ею». Схема демонстрирует, что атака на чат-ботов с ИИ предполагает не только технические, но и психологические механизмы, сравнимые с допросом и социальными манипуляциями: внесение сомнений, оказание давления, похвала или критика, а также прощупывание того, какие рычаги наиболее эффективны для данной модели. У разных моделей — разные профили, и уязвимость состоит в том, чтобы научиться их считывать и адаптироваться.

Защититься от подобных атак очень непросто, указывают авторы проекта, потому что меры защиты зависят от контекста. Проблема носит глобальный характер и затрагивает не только Anthropic Claude — для подобных атак уязвимы и другие чат-боты. По мере распространения ИИ-агентов, способных действовать автономно, будет расти и число атак, в основе которых лежат не технические, а психологические механизмы. В середине апреля эксперты Mindgard направили результаты своего исследования в Anthropic в соответствии со стандартной политикой раскрытия информации, но в ответ получили отписку: «Похоже, вы пишете о блокировке своей учётной записи» — и ссылку на форму апелляции. Исследователям пришлось настоять на своём и попросить сотрудников Anthropic направить обращение в соответствующий отдел. По состоянию на утро 5 мая ответа так и не поступило.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Биологический ИИ оказался обоюдоострым: он создаёт и яды, и антидоты — и не ясно, что опаснее 18 мин.
Microsoft объяснила, как планирует ускорить интерфейс Windows 11 30 мин.
Создатель Claude Code рассказал, что каждую ночь запускает тысячи ИИ-агентов и управляет ими со смартфона 2 ч.
Resident Evil Requiem обеспечила Capcom девятый подряд рекордный год — издатель делает ставку на генеративный ИИ 3 ч.
Meta отступила перед Еврокомиссией — конкурирующие ИИ-чат-боты получили бесплатный доступ к WhatsApp 3 ч.
«Дорогие и быстро устаревают»: создатель BioShock и Judas объяснил, почему не гонится за передовыми технологиями 3 ч.
Хакеры из Nitrogen заявили о краже 8 Тбайт данных у партнёра Apple — заводы Foxconn перешли на бумажные табели 4 ч.
Вышел геймплейный трейлер Noir Bloom — адреналинового экшена, напоминающего смесь Katana Zero и «Джона Уика» 5 ч.
Meta начнёт рассказывать родителям о новых интересах их детей в Instagram 5 ч.
Google рассказала о крупнейших нововведениях Android 17 5 ч.
AMD предупредила об уязвимости в процессорах на базе Zen 2 — для EPYC Rome патчей прошивок не будет 7 мин.
Европа задумала проложить интернет-кабели в Азию через Северный полюс 22 мин.
Денег Безоса больше не хватает: Blue Origin ищет сторонних инвесторов 44 мин.
AMD расширила серию процессоров Ryzen Pro 9000 шестью моделями, в том числе с 3D V-Cache 52 мин.
Китай приблизился к созданию собственной космической гравитационно-волновой обсерватории 55 мин.
Framework сообщила о стабилизации цен на оперативную память — теперь дорожают SSD 58 мин.
FCC разрешила SpaceX использовать частоты EchoStar, но потребовала $2,4 миллиарда в залог 2 ч.
Sony представила смартфон Xperia 1 VIII — новый дизайн, трио 48-Мп камер с ИИ-помощником и цена от €1499 2 ч.
Панос Панай из Amazon прокомментировал слухи о смартфоне и всех запутал 3 ч.
Не просто ЦОД: NTT Data меняет стратегию и расширяет амбиции в сфере ИИ 3 ч.