Сегодня 23 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Plesk и cPanel уходят из России: «Рег.ру» перенесёт сайты пользователей на отечественный ispmanager 15 мин.
Ролевой боевик The Expanse: Osiris Reborn в духе Mass Effect скоро выйдет из тени — анонсирована новая презентация Xbox Partner Preview 2 ч.
В России разрешат искать экстремистские материалы в интернете, но только учёным и правоохранителям 5 ч.
«Не все изменения окончательны»: разработчики Slay the Spire 2 отреагировали на панику фанатов из-за первого обновления баланса игры 5 ч.
Capcom заинтриговала фанатов Dragon’s Dogma 2 — на иллюстрации ко второй годовщине игры углядели тизер крупного DLC 6 ч.
Марк Цукерберг создаёт ИИ-гендира: агента, который поможет ему руководить Meta 7 ч.
Ошибочка вышла: разработчики Crimson Desert попались на использовании генеративного ИИ, но пообещали всё исправить 8 ч.
«Ждал этого пять лет»: ролевой экшен Minecraft Dungeons в духе Diablo всё же получит продолжение, причём уже скоро 9 ч.
Microsoft пообещала сделать Windows 11 «более расслабленной и спокойной» 18 ч.
Программисты всё больше пользуются ИИ, а в некоторых компаниях это даже превратилось в соревнование 22-03 15:39
Производственные мощности даже ещё не построенных фабрик TSMC в США уже целиком забронированы 29 мин.
Представлены смартфоны Huawei Enjoy 90 Plus и 90 Pro Max с чипами Kirin 8000 и ёмкими кремний-углеродными батареями 29 мин.
NASA пытается «поймать» падающую обсерваторию Swift — до конца года она может сойти с орбиты 33 мин.
В Bloomberg назвали главного кандидата на замену Тиму Куку на посту главы Apple 49 мин.
iPhone Air оказался намного популярнее iPhone 16 Plus, а модем Apple C1X почти догнал аналоги Qualcomm 3 ч.
После волны критики разработчик Crimson Desert пообещал добавить поддержку видеокарт Intel Arc 3 ч.
Intel признала, что её новые настольные Core Ultra Plus почти не быстрее Ryzen в играх 4 ч.
Москвичи вынужденно пересели на Wi-Fi: трафик публичных точек доступа вырос в разы из-за отключений мобильного интернета 4 ч.
Мировой рынок чипов разросся до $831 млрд в прошлом году — сильнее всех выросла не Nvidia 4 ч.
DDoS нового уровня: Curator нейтрализовала длительную атаку в 2 Тбит/с на платформу онлайн-ставок 5 ч.