Сегодня 06 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Game Science подтвердила дату выхода Black Myth: Wukong на Xbox и анонсировала первую скидку на игру 27 мин.
Gearbox устроила в Steam бесплатную раздачу Borderlands 2, но игроки встретили её «крайне отрицательными» отзывами 30 мин.
Акции Microsoft установили новый рекорд стоимости вопреки падающему рынку 2 ч.
Apple представила данные о $1,3 трлн оборота App Store перед WWDC25 11 ч.
В России заработала система блокировки мошеннических сайтов и приложений 16 ч.
AMD выпустила драйвер с поддержкой видеокарт Radeon RX 9060 XT и Radeon AI Pro R9700 17 ч.
Классические Baldur’s Gate, EA Sports FC 25 и четыре новых релиза: Microsoft раскрыла, чем порадует подписчиков Game Pass в начале июня 18 ч.
Живописное приключение Sword of the Sea от создателей Abzu и The Pathless выглядит как наследник Journey — новый трейлер и дата выхода 19 ч.
Американский Институт безопасности ИИ больше не сосредоточен на безопасности ИИ 19 ч.
Perplexity анонсировала заменитель Google Chrome — ИИ-браузер Comet 20 ч.
Huawei и XPeng представили гигантский 87-дюймовый проекционный дисплей для авто 3 мин.
Nvidia захватила 92 % рынка видеокарт, но Intel осталась лидером на рынке GPU 11 мин.
Представлены графеновые термопрокладки для процессоров AMD AM5 с рекордной теплопроводностью и долговечностью 23 мин.
Razer выпустила Phantom Collection — клавиатуру, мышь, гарнитуру и коврик в полупрозрачных корпусах 43 мин.
Endeavour предложила ЦОД натриевые батареи Tiamat 2 ч.
Созданы первые устойчивые к ошибкам фотонные квантовые процессоры — миллионы кубитов уже не за горами 2 ч.
Castrol запустила сервис управления оборотом жидкостей для охлаждения дата-центров 2 ч.
Российская «Аскон» представила инженерный ПАК на китайском процессоре Loongson 3 ч.
Новый глава Intel сосредоточен на повышении прибыльности компании 5 ч.
Внезапный конфликт Трампа и Маска моментально снизил капитализацию Tesla на $152 млрд 6 ч.