Сегодня 07 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Наконец-то игра про Джона Уика»: мрачный боевик Blackwood расскажет историю владельца магазина DVD, который ведёт двойную жизнь 22 мин.
Всё, к чему прикасается OpenAI, начинает расти — раньше такой сверхспособностью обладала только Nvidia 56 мин.
Олдскульное приключение Mina the Hollower не выйдет 31 октября — смесь Bloodborne, «Зельды» и Castlevania от авторов Shovel Knight задерживается 3 ч.
Консалтинговый гигант Deloitte вернёт австралийским властям часть средств за аналитику с фейковыми ИИ-цитатами 3 ч.
Gex, Road Rash, Doom и другие хиты: в Telegram появился эмулятор легендарной консоли Panasonic 3DO 4 ч.
Верховный суд США не дал Google отсрочки в споре с Epic Games 4 ч.
OpenAI не исключает появления рекламы в ChatGPT Pulse в будущем 5 ч.
Microsoft снова закрыла возможность установки Windows 11 без подключения к интернету 5 ч.
Слухи: опубликованный по ошибке трейлер раскрыл дату выхода PowerWash Simulator 2 раньше времени 7 ч.
Новым финансовым директором xAI и X станет выходец из Morgan Stanley 8 ч.
Лучшая роль второго плана: чипы AMD недостаточно хороши, чтобы стать ядром инфраструктуры OpenAI 50 мин.
xAI потратит $18 млрд на ускорители NVIDIA для ИИ-кластера Colossus 2 2 ч.
В России начались продажи смартфона iQOO Z10R 5G с Dimensity 7360-Turbo, ёмкой батарей и быстрым AMOLED 2 ч.
Джони Айв признался, что уже придумал для OpenAI от 15 до 20 разных ИИ-гаджетов 2 ч.
«Нужно верить в то же, что и мы», — OpenAI объяснила, зачем она закупает столько ИИ-ускорителей 3 ч.
Ветер и солнце стали давать больше электричества, чем сжигание угля 3 ч.
Fermi America бывшего министра энергетики США успешно дебютировала на бирже, хотя пока не построила ни одного ИИ ЦОД 3 ч.
TSMC произвела первую пробную партию 2-нм чипов — с опережением графика 3 ч.
OpenAI запланировала проекты на общую сумму $1 трлн, но не подумала, где взять на них деньги 4 ч.
В облаке Astra Cloud появился квантовый генератор случайных чисел 5 ч.