Сегодня 18 августа 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Психологический хоррор Bad Cheese с «жутковатым очарованием» мультфильмов 1920-х годов взял курс на релиз — дата выхода и новый трейлер 2 ч.
Дракона не остановить: Team Spirit стала чемпионом BLAST Bounty Season 2, разгромив The MongolZ 12 ч.
Новая статья: Mafia: The Old Country — возвращение привычной «Мафии». Рецензия 17-08 00:09
Мошенники начали заменять контакты на смартфонах жертв при помощи файлов VCF 16-08 18:59
Сэм Альтман рассказал о перспективах OpenAI, ИИ и других технологий 16-08 17:14
Meta проведёт масштабные изменения в структуре ИИ-подразделений — в четвёртый раз за полгода 16-08 15:23
Google Gemini был доступен для россиян всего несколько часов 16-08 15:03
GPT-5 пока не смогла порадовать потребителей, зато корпоративные клиенты пришли в восторг 16-08 13:11
В рамках вторичного размещения персонал OpenAI продаст акций на сумму $6 млрд 16-08 07:17
Волна интереса к ИИ порождает новых миллиардеров с рекордной скоростью 16-08 04:34
Rio AI City: Рио-де-Жанейро станет ИИ-городом при поддержке NVIDIA и Oracle 14 мин.
UGREEN запустила глобальные продажи 145-Вт пауэрбанка с беспроводной зарядкой, 200-Вт адаптера питания и беспроводных наушников 24 мин.
Медный век: глава Nvidia убеждён, что кремниевая фотоника получит распространение ещё очень не скоро 26 мин.
Blackview Active 12 Pro — сверхпрочный планшет с DLP-проектором и батареей на 30 000 мА·ч для работы и отдыха 30 мин.
SonicWall представила новые межсетевые экраны Generation 8 с защитой по подписке 46 мин.
Частичная национализация Intel и другие инициативы Трампа могут похоронить всю полупроводниковую промышленность США 48 мин.
Doogee V Max Play — сверхпрочный смартфон и карманный кинотеатр в одном устройстве 2 ч.
Необычные воздушно-алюминиевые генераторы Phinergy пропишутся в ЦОД США 2 ч.
За полгода SoftBank увеличила свой пакет акций Nvidia в три раза 3 ч.
В Китае государственные центры обработки данных должны использовать не менее половины местных ускорителей в своём составе 4 ч.