Сегодня 07 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Балетный экшен «Царевна» отправит игроков в мир славянского тёмного фэнтези — первый геймплейный трейлер 25 мин.
Фанаты смогут подарить свою внешность персонажам игр PlayStation, начиная с Gran Turismo 7 — Sony анонсировала программу The Playerbase 2 ч.
Microsoft уже выпустила больше 80 различных Copilot — вся экосистема может включать более 100 продуктов 3 ч.
«Нет ничего невозможного»: директор ИРИ считает, что на полное импортозамещение компьютерных игр в России уйдет от трёх до пяти лет 3 ч.
THQ Nordic открыла предзаказы ремейка «Готики» — игра доступна и в российском Steam 3 ч.
Adobe представила образовательную ИИ-платформу Acrobat Student Spaces — аналог NotebookLM 3 ч.
DDU пересмотрел очистку драйверов после одного из последних обновлений Nvidia 3 ч.
Google добавит в чат-бот Gemini мониторинг психического здоровья 4 ч.
Китайцы прониклись всенародной любовью к ИИ-агенту OpenClaw 4 ч.
«Яндекс» добавил в поиск ИИ-блендер и диалоговый режим с «Алисой AI» 4 ч.
OnePlus представила смартфон Nord 6 с чипом Snapdragon 8 Gen 4, 50-Мп камерой и батареей на 9000 мА·ч за $420 2 ч.
Экипаж Artemis II показал полное солнечное затмение из-за Луны и прислал другие потрясающие фото 2 ч.
Intel объединилась с SpaceX, xAI и Tesla для создания мощнейшего производства чипов TeraFab 2 ч.
Австралийское неооблако Firmus при поддержке NVIDIA привлекло $505 млн и нарастило капитализацию до $5,5 млрд в преддверии IPO 3 ч.
Астронавт миссии Artemis II сфотографировал Луну на iPhone 3 ч.
Инвесторы требуют от Amazon, Microsoft и Google прозрачности отчётов о расходах воды и электроэнергии в ЦОД США 4 ч.
Anthropic развернёт 3,5 ГВт ИИ-мощностей на базе Google TPU 4 ч.
Лучше синица в руке: операторы ЦОД всё чаще отказывают неооблакам, предпочитая большой выгоде финансовую устойчивость 4 ч.
Ноутбуки на Qualcomm Snapdragon X2 Elite и Windows 11 наконец появились в продаже 5 ч.
Framework попросила не радоваться раньше времени по поводу стабилизации цен на память 6 ч.