Сегодня 06 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Просто безумие»: разработчики Baldur’s Gate 3 отреагировали на анонс сериала по Baldur’s Gate 3 17 мин.
Windows 11 научится передавать музыку сразу на несколько Bluetooth-наушников, но большинство ПК не будет поддерживать эту функцию 27 мин.
Team Cherry прокачала Hollow Knight для Switch 2, PS5, Xbox Series X и S, а ПК-версию снабдила поддержкой ультрашироких мониторов 2 ч.
Европа обвинила TikTok в том, что его бесконечная лента вызывает привыкание 2 ч.
Биткоин едва не провалился ниже $60 000, но отскочил 2 ч.
Apple заморозила создание ИИ-ассистента по укреплению здоровья 3 ч.
Google Meet получил голосовой перевод в реальном времени, но это не бесплатно и пока без русского 6 ч.
Градостроительная стратегия Timberborn отправит игроков в мир, где бобры пережили людей — сюжетный трейлер и дата выхода из раннего доступа 6 ч.
Nioh 3 стартовала в Steam со «смешанными» отзывами и рекордным пиковым онлайном для серии 7 ч.
Nvidia выпустит динамическую мультикадровую генерацию и режим MFG x6 уже весной 7 ч.
Конец эпохи Intel: TSMC вот-вот может стать крупнейшим работодателем в полупроводниках 33 мин.
Получено прямое доказательство причин неоднородности магнитного поля Земли — виноваты загадочные структуры в мантии 36 мин.
Время — деньги: SiTime отчиталась о росте на рынке ЦОД и объявила о покупке смежных активов Renesas Electronics 41 мин.
ИИ-пирамида: M5Stack представила мини-компьютер AI Pyramid Computing Box в необычном корпусе 2 ч.
ИИ помог палеонтологам распознавать динозавров по окаменевшим следам 2 ч.
Флагманские беспроводные наушники Sony WF-1000XM6 выйдут на следующей неделе 2 ч.
Затраты четырёх американских гиперскейлеров на ИИ ЦОД и оборудование превысят в 2026 году $650 млрд 2 ч.
Грядет подорожание кулеров из-за подскочивших цен на медь и олово 2 ч.
Мировые продажи полупроводников вырастут до $1 трлн уже в этом году — на четыре года раньше, благодаря ИИ 3 ч.
Xbox вернётся к корням с «четырьмя всадниками», а также выпустит новые геймпады, переработает Game Pass и сблизится с Windows 3 ч.