Сегодня 18 мая 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Москве арестовали бывшего главу Binance в СНГ и сооснователя крипто-игры Blum 9 ч.
В правительстве США потребовали остановить глобальное распространение Huawei HarmonyOS 12 ч.
Новая статья: The Precinct: вы имеете право хранить молчание. Рецензия 24 ч.
Android-приложения получат доступ к ИИ-модели Gemini Nano, которая работает прямо на смартфоне 17-05 13:19
Epic Games снова обратилась в суд, чтобы принудить Apple вернуть Fortnite на iPhone 17-05 12:37
Intel выпустила важные исправления безопасности для устранения уязвимостей в Core Ultra, Arc и серверных GPU 17-05 07:32
OpenAI станет одним из основных пользователей крупного ЦОД в ОАЭ 17-05 06:34
Microsoft отделила Teams от Office в попытке увернуться от штрафа в ЕС 17-05 00:41
Новая статья: «Приключения Капитана Блада» — ахой из прошлого. Рецензия 17-05 00:00
Не будут брать подписку — отключим апдейт: Broadcom нарушила обещание поддерживать VMware с «вечными» лицензиями 16-05 23:14
Amazon похвалилась сотнями тысяч пользователей Alexa+, но их никто не видел 6 ч.
Квартальные результаты Cisco и прогноз превысили ожидания Уолл-стрит 8 ч.
Квартальные поставки Nearline-накопителей сократились на 12 % 9 ч.
Квартальная выручка CoreWeave взлетела в пять раз, но компания продолжает нести убытки 10 ч.
Индия потеряла новый спутник по пути на орбите — у ракеты-носителя PSLV-XL отказал двигатель 11 ч.
Xiaomi намеревается сделать свои электромобили самыми безопасными в отрасли 15 ч.
Первые немногочисленные роботакси Tesla будут контролироваться дистанционно 16 ч.
Глава Nvidia утверждает, что свидетельств контрабанды ускорителей этой марки в Китай нет 17 ч.
TSMC запустит девять новых фабрик вместо пяти в этом году из-за невероятного спроса на ИИ-чипы 23 ч.
Apple может полностью потерять китайский рынок смартфонов — Вашингтон против работы в сфере ИИ с Alibaba 17-05 22:22