Сегодня 19 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Мультиплеерный гончарный боевик Kiln от создателей Psychonauts получил дату выхода и готовится к открытой «бете» в Steam 21 мин.
Facebook начала платить блогерам за переход с TikTok и YouTube 11 ч.
DLSS 5 шокировала даже сотрудников студий-партнёров Nvidia — разработчики узнали обо всём «одновременно с публикой» 12 ч.
«Неприемлемый риск для национальной безопасности»: Минобороны США ответило на иски Anthropic 14 ч.
IO Interactive похвасталась статистикой игроков Hitman: World of Assassination за 10 лет и дала фанатам надежду на продолжение 14 ч.
В Сети всплыла «ничейная» мощная ИИ-модель — в ней заподозрили разработку DeepSeek 14 ч.
Стартап Сэма Альтмана хочет привязать действия ИИ-агентов к скану радужки 14 ч.
Microsoft передумала принудительно добавлять ИИ-помощника Copilot в «Пуск» Windows 11 15 ч.
Дыра в безопасности процессоров MediaTek может оказаться куда шире, чем считалось ранее 15 ч.
Суд решил, что Apple может удалять приложения из App Store в любой момент и без объяснения причин 15 ч.
Илон Маск заверил, что SpaceX AI и Tesla продолжат закупать чипы Nvidia в крупных количествах 22 мин.
Micron призналась, что существенно увеличит капитальные затраты ради борьбы с дефицитом памяти 2 ч.
Сетевые решения за квартал приносят Nvidia столько же выручки, сколько Cisco получает за весь год 2 ч.
Очередной ведущий специалист покинул Apple на фоне сложностей, связанных с Siri 3 ч.
Осуждённый основатель Nikola Motor теперь собирает деньги на создание управляемых ИИ самолётов 4 ч.
Colorful выпустила видеокарту iGame GeForce RTX 5070 Ti Ultra Z Black OC со съёмным разъёмом питания GC-HPWR 9 ч.
Новая статья: Обзор и тест процессорного кулера DeepCool AK620 G2: в поисках идеала 9 ч.
Россияне вспомнили про CD-диски — Wildberries отметил рост продаж на 70 % 14 ч.
В Южной Корее создали технологию 4D-печати микроботов из отходов серы — подвижных и перерабатываемых 14 ч.
Bitcoin переживёт обрыв почти всех морских интернет-кабелей, но уязвим к точечным атакам 14 ч.