Сегодня 26 апреля 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Уязвимость EntrySign в Ryzen 9000 наконец-то будет закрыта — свежие версии BIOS получили заплатку 2 ч.
«Леста Игры» обжаловала решение суда, остановившее весь её бизнес 3 ч.
Электронную подпись через «Госключ» получили более 20 млн россиян 6 ч.
Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry 7 ч.
Учёные уличили ИИ в неспособности строить математические доказательства в олимпиадных задачах USAMO 2025 года 7 ч.
«Клянусь Азурой!»: за три дня в The Elder Scrolls IV: Oblivion Remastered сыграло более 4 миллионов человек 8 ч.
ИИ-помощник Google Gemini появится в автомобилях, умных часах и наушниках 8 ч.
ФБР объявило награду $10 млн за данные о хакерах Salt Typhoon 9 ч.
Прокуратура США усомнилась в праве «Википедии» на налоговые льготы из-за иностранного вмешательства 9 ч.
Холдинг xAI Илона Маска готовится привлечь $20 млрд в свой капитал 13 ч.
Nintendo Switch 2 предрекли крупнейший консольный запуск в истории 55 мин.
Представлен смартфон Realme 14T с процессором Dimensity 6300 и ёмкой батареей 2 ч.
На МКС подселили искусственный интеллект — он будет помогать космонавтам советами 2 ч.
Европейцы успешно испытали новый ракетный двигатель для ракет-носителей Ariane 6 и Vega 3 ч.
Портативная консоль Figment объединила книги и генерацию сюжетов с помощью ИИ 3 ч.
Alphabet в полтора раза нарастил квартальную прибыль и подтвердил планы потратить $75 млрд на ИИ-инфраструктуру 6 ч.
Марсоход Curiosity впервые сфотографировали с орбиты во время передвижения по Красной планете 7 ч.
Общественники уличили xAI Илона Маска во лжи — её мощнейший ИИ-суперкомпьютер тайно вредит экологии 8 ч.
В процессорах Nova Lake будет больше кристаллов Intel, чем в Panther Lake 12 ч.
В этом году Intel выпустит самые мощные процессоры Panther Lake, а версии подешевле появятся в следующем 14 ч.