Сегодня 08 июля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Разработчики S.T.A.L.K.E.R. 2: Heart of Chornobyl заинтриговали фанатов тизером хардкорного режима 2 мин.
Heroes of Might & Magic V в Steam спустя 17 лет после релиза получила официальную поддержку русского языка 46 мин.
Amazon намерена запретить сыну Константина Малофеева судиться с Twitch за пределами Калифорнии 59 мин.
МТС взялась за разработку собственных видеоигр 2 ч.
Huawei обвинили в копировании ИИ конкурентов — компания всё отрицает 2 ч.
Google открыла Gemini доступ ко всем приложениям на Android и толком не объяснила, как от этого отказаться 2 ч.
«Яндекс» наконец перешёл в прямое управление к участникам «Консорциум.Первый» 2 ч.
«ЗН Цифра» внедрила решения импортонезависимой экосистемы «Базиса» 2 ч.
OpenAI усилила режим секретности, опасаясь утечки передовых ИИ-разработок 2 ч.
Упор на сюжет, жуткие анимации и физическое ощущение ужаса: новые подробности гротескного хоррора Ill 3 ч.
В России стартовали продажи смартфонов Honor 400 и 400 Pro с 200-Мп камерами и ИИ-технологиями для фото 6 мин.
Китайцы создали самого быстрого в мире робопса — за стометровку он мог бы претендовать на золотой знак ГТО 60 мин.
Изменения климата грозят дефицитом чипов — через 10 лет мир столкнётся с нехваткой меди для полупроводников 2 ч.
Intel запустила новую волну сокращений — работы лишатся тысячи специалистов 3 ч.
Gateway расправила плечи — гигантскую солнечную батарею для лунной станции впервые развернули во всю длину 3 ч.
Администрация Трампа опять надавила на Apple за промедление в переносе производства электроники в США 4 ч.
В гонке за лидерство в сфере ИИ поможет инфраструктура, а не хайп 4 ч.
Прибыль Samsung должна упасть впервые с 2023 года, причём сразу на 56 % 5 ч.
Jsaux представила кулер с клипсой для Nintendo Switch 2 6 ч.
Meta заполучила ещё одного крупного специалиста по ИИ — теперь из Apple 9 ч.