Сегодня 19 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Cast n Chill — вы, сэр, рыба. Рецензия 4 ч.
Кооперативный боевик Contraband от создателей Just Cause всё ещё жив, но оказался игрой-сервисом 6 ч.
Meta отказалась соблюдать «чрезмерные» правила разработки ИИ, предложенные ЕС 7 ч.
Microsoft уличили в допуске китайцев к секретным облачными системами Пентагона 8 ч.
Legacy of the Forge «уже не за горами» — Warhorse раскрыла, когда ждать новостей о втором дополнении к Kingdom Come: Deliverance 2 8 ч.
Перевод на русский, Denuvo и первые детали геймплея: Persona 4 Revival получила страницу в Steam 9 ч.
Netflix призналась, что начала использовать ИИ при создании сериалов 10 ч.
Фэнтезийная 4X-стратегия Endless Legend 2 от создателей Humankind не выйдет 7 августа в раннем доступе Steam, но есть и хорошая новость 11 ч.
iOS 26 защитит пользователей iPhone от телефонных спамеров 11 ч.
ЕС рассказал разработчикам ИИ с системными рисками, как не нарваться на огромные штрафы 11 ч.
Углеродные выбросы Amazon выросли в 2024 году на 6 % из-за ИИ ЦОД и любителей шопинга 4 ч.
Австрийцы упаковали электромобильный аккумулятор в корпус из дерева и стали 7 ч.
В Роттердаме запустят беспилотные рейсовые автобусы между городом и аэропортом 8 ч.
Asus представила материнскую плату ROG Strix X870-H Gaming WiFi7 S с ярким аниме-дизайном 8 ч.
ASRock представила плату X870E Taichi OCF для экстремального разгона Ryzen 9000 и другие новинки с AM5 10 ч.
США намерены ослабить влияние Китая на подводную интернет-инфраструктуру, но у них это вряд ли получится 11 ч.
Российские учёные создали фотонный детектор с «обонянием» — он учует опасные газы в воздухе, диабет и алкогольную вечеринку 13 ч.
Передовые твердотельные батареи в электромобилях появятся в лучшем случае через пять лет 13 ч.
В России впервые запущено производство особо чистого тетрахлорида германия для выпуска оптоволокна 14 ч.
Китайский охотник за астероидами испытал камеры на Земле и Луне — и поделился впечатляющими снимками 15 ч.