Сегодня 28 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Эвакуационный шутер Arc Raiders завтра получит крупный патч Riven Tides с новой картой и множеством активностей 3 ч.
Инсайдер: Ubisoft поставила 50 разработчиков Assassin’s Creed Codename Hexe под угрозу увольнения, чтобы уложиться в бюджет 3 ч.
OpenAI избавилась от зависимости от Microsoft — и теперь сможет использовать облака Google и других провайдеров 5 ч.
Новый трейлер раскрыл дату выхода Battlestar Galactica: Scattered Hopes — беспощадной стратегии по мотивам «Звёздного крейсера "Галактика"» 5 ч.
Следующее дополнение отправит игроков PowerWash Simulator 2 в далёкую-далёкую галактику — анонсирован кроссовер со «Звёздными войнами» 6 ч.
Европа откроет лазейку для массовой слежки за тем, что граждане ищут в Google 7 ч.
«Не терпится поиграть в Returnal 2»: журналисты показали первые 8 минут геймплея Saros 7 ч.
Сценарист Assassin’s Creed Black Flag Resynced заинтриговал фанатов новыми сюжетными сценами 8 ч.
DeepSeek-V4 вышла без «вау-эффекта» — рынок уже привык к дешёвому ИИ 8 ч.
Река Забвения, карма и 18 кругов ада — представлен трейлер восточной метроидвании Karma Exorcist 10 ч.
Новая статья: Больше кадров — больше лага: тестирование латентности с генерацией кадров DLSS и FSR 45 мин.
Складной iPad рискует никогда не выйти из-за повышения Тернуса до гендира Apple 60 мин.
Valve объявила старт продаж Steam Controller — геймпад действительно оценили в $99 3 ч.
Попроще и подешевле: YADRO обновила конфигурации TATLIN.AFA и TATLIN.BACKUP на фоне глобального дефицита компонентов 4 ч.
Vivo выпустила смартфон Y600 Proс батареей на 10 200 мА·ч по цене от $300 4 ч.
Исследование: полупроводники из оксида галлия работают при температуре ниже, чем в открытом космосе 4 ч.
Акции Qualcomm взлетели на слухах о разработке ИИ-смартфона OpenAI 5 ч.
Аналоговый фотоаппарат Leica M-A переиздан ограниченной серией с «молотковой» отделкой 5 ч.
Телеком-отрасли Бангладеш грозит коллапс из-за нехватки топлива 6 ч.
Toyota создала игровое кресло из переднего сиденья седана Crown — с электроприводом, подогревом, вентиляцией и USB Type-C 7 ч.