Сегодня 29 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple выпустила первую публичную бета-версию iOS 26.6 60 мин.
Первое за 11 лет дополнение к The Witcher 3: Wild Hunt будет не меньше, чем «Кровь и вино» — подробности «Баллад прошлого» 2 ч.
Миллион героев: продажи Heroes of Might & Magic: Olden Era за месяц в раннем доступе достигли впечатляющей величины 4 ч.
Пиратская градостроительная стратегия Corsair Cove получила новый трейлер, дату выхода и демоверсию в Steam 4 ч.
Activision наконец анонсировала Call of Duty: Modern Warfare 4 — первый трейлер, дата выхода и релиз на Switch 2 6 ч.
Кооператив, гильдия воров и многое другое: разработчики Heroes of Might & Magic: Olden Era раскрыли план улучшения игры в раннем доступе 7 ч.
Собственный мир дикой природы: разработчики Elite: Dangerous анонсировали амбициозный симулятор зоопарков Planet Zoo 2 8 ч.
Хакеры теперь требуют с российских компаний по 50 млн рублей за данные и молчание — а потом охотно торгуются 9 ч.
«Это просто нечто»: геймплейный трейлер метроидвании Silent Planet: Elegy of a Dying World заворожил фанатов Castlevania: Symphony of the Night 11 ч.
«Яндекс» представил Alice AI LLM Flash — быструю ИИ-модель для бизнеса 13 ч.