Сегодня 07 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Поддержка шутера Chernobylite 2: Exclusion Zone сократится из-за провального старта и вороха проблем 6 ч.
TikTok скоро переродится в США в виде нового приложения, чтобы избежать блокировки 6 ч.
Дорого и опасно: европейская ассоциация издателей выступила против инициативы Stop Killing Games, которая защищает права игроков 14 ч.
Анонсирован HellHeart Breaker — гибрид роглайт-экшена и симулятора свиданий 15 ч.
Новая статья: Death Stranding 2: On the Beach — сиквел, который понравится не всем. Рецензия 06-07 00:03
Новая статья: Gamesblender № 733: «умирающая» Xbox, возвращение Red Dead Online и AMD FSR 4 на PlayStation 05-07 23:30
С начала года технологические компании США сократили 94 000 человек — и всё это из-за ИИ 05-07 18:31
Рынок российского ПО за год вырос на четверть и приблизился к 2,5 трлн руб. 05-07 13:27
«Жизнь в Найт-Сити продолжается»: CD Projekt Red и студия Trigger официально анонсировали Cyberpunk: Edgerunners 2 05-07 11:21
Еврокомиссия подтвердила: правила по ИИ вступят в силу без отсрочки 05-07 04:08
Foxconn может использовать убыточное японское предприятие Nissan для сборки электромобилей 33 мин.
Новая статья: Компьютер месяца — июль 2025 года 6 ч.
Giga Computing представила ИИ-серверы на базе NVIDIA HGX B200 с воздушным и жидкостным охлаждением 7 ч.
Let's Encrypt начал выдавать бесплатные сертификаты для IP-адресов, но нужно это немногим 14 ч.
Учёные придумали точное «рентгеновское» зрение для роботов на базе технологии, родственной Wi-Fi 15 ч.
Грузовой космический корабль «Прогресс МС-31» доставил 2,6 т припасов, оборудования и топлива на МКС 21 ч.
Космические похороны пошли не по плану: стартап TEC потерял прах 166 человек в Тихом океане 21 ч.
Глобальные выбросы углекислого газа установили новый рекорд, несмотря на все усилия и потраченные средства 05-07 21:42
Потеряшек не будет: зонд NASA «Новые горизонты» нашёл себя среди звёзд без помощи с Земли 05-07 15:32
Повальный спрос на HBM тормозит внедрение CXL- и PIM-памяти 05-07 15:16