Сегодня 19 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В российском Epic Games Store стартовала раздача Citizen Sleeper — текстовой RPG на обломках межпланетного капитализма 4 ч.
Для Titan Quest 2 вышло «самое большое и эпичное» обновление — оно добавило в игру перевод на русский язык 6 ч.
Duke Nukem 3D, Blood, Shadow Warrior и не только: российский разработчик портировал в браузер классические шутеры на движке Build Engine 7 ч.
Epic Games пообещала, что ИИ в Unreal Engine 6 «изменит создание игр» и «сократит рутину» у разработчиков 7 ч.
Adobe добавила в Photoshop и Premiere ИИ-помощников 7 ч.
В ОАЭ запретили соцсети для детей до 15 лет и ввели проверку возраста 9 ч.
«Крёстный отец ИИ» назвал xAI провалом и пригрозил взрывом «пузыря ИИ» 9 ч.
Новый вариант CAPTCHA от Google требует от пользователей махать руками перед компьютером 11 ч.
Создатель Deus Ex рассказал, что произошло с многострадальной System Shock 3 12 ч.
Инструмент для дизайнеров Claude Design получил тонкие настройки редактирования и экономию токенов 13 ч.
Акции SanDisk и Micron резко выросли после того, как Apple пообещала поднять цены 2 ч.
Новая статья: Обзор игрового ноутбука MAIBENBEN Typhoon X16C: рабочий класс, версия 2026 2 ч.
Lenovo выпустила доступный игровой QHD-монитор с частотой обновления 275 Гц за $130 2 ч.
Муравейник Шрёдингера: физики нашли квантовую запутанность в сантиметровом кристалле странного металла 2 ч.
Акции Intel выросли на 10 % на фоне публикации Трампа о сделке по производству чипов для Apple 2 ч.
ViewSonic выпустила 23,8-дюймовый 4K-монитор IPS с частотой 160 Гц для геймеров 5 ч.
Amazon решила конкурировать с Nvidia: компания намерена начать продажи собственных ИИ-ускорителей Trainium 6 ч.
США оштрафовали немецкую Bosch на $36 млн за поставки Huawei без разрешения 7 ч.
В США начали строить лишь половину ЦОД, которые должны заработать в 2026 году 8 ч.
Первые устройства с поддержкой HDMI 2.2 выйдут в следующем году 8 ч.