Сегодня 26 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Россияне снова пожаловались на массовую заморозку аккаунтов в «Госуслугах» 6 мин.
AMD выпустила драйвер с поддержкой Resident Evil Requiem и Marathon 12 мин.
Новый драйвер Nvidia сломал вентиляторы у RTX 5000 — релиз продержался всего несколько часов 18 мин.
Nvidia выпустила драйвер с поддержкой Resident Evil Requiem 2 ч.
Жертвы перестали платить хакерам: уровень выплат упал до исторического минимума, хотя атак стало намного больше 2 ч.
Хорошего понемногу: надёжный инсайдер заявил, что Sony перестанет портировать эксклюзивы PlayStation на ПК 2 ч.
Google представила Nano Banana 2 — обновлённый генератор изображений работает быстрее и качественнее, и доступен бесплатно 2 ч.
Новый трейлер амбициозного пиратского выживания Windrose разочаровал фанатов отсутствием даты выхода — разработчики отреагировали 3 ч.
Instagram будет оповещать родителей, если подросток ищет контент о суициде и членовредительстве 4 ч.
Технодесантник, новая операция и платные голоса: разработчики Warhammer 40,000: Space Marine 2 выпустили крупное обновление 12.0 4 ч.
Первый в мире трансатлантический оптоволоконный кабель TAT-8 демонтируют через 37 лет после прокладки 3 ч.
«Большая неделя впереди»: Apple пообещала порадовать фанатов чередой анонсов 4 ч.
Энтузиаст приспособил льдогенератор для охлаждения процессора — и добился 40 °C под нагрузкой 4 ч.
Разворот научных потоков: открывший графен Андрей Гейм продолжит научную карьеру в Гонконге после 20 лет в Манчестере 4 ч.
Иттрий подорожал в 69 раз за год — дефицит редкоземов в США усиливается даже после перемирия с Китаем 4 ч.
Мировые продажи DRAM взлетели на 29 % за прошлый квартал: цены подскочили на 50 %, а Samsung снова на первом месте 5 ч.
Positive Technologies выпустила межсетевой экран PT NGFW 3050 с производительностью до 400 Гбит/с 5 ч.
Huawei представила умные часы Watch GT Runner 2 и другие новинки 5 ч.
Uber поднимается в небо: аэротакси Joby станут доступны через обычное приложение в Дубае 5 ч.
SK hynix и SanDisk запустили стандартизацию High Bandwidth Flash — новой памяти между HBM и SSD 6 ч.