Сегодня 03 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Все популярные модели генеративного ИИ оказалось легко взломать по схеме Policy Puppetry

Универсальная техника составления запросов к моделям генеративного искусственного интеллекта Policy Puppetry способна выступать как средство взлома крупнейших и наиболее популярных систем, утверждают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.

 Источник изображения: hiddenlayer.com

Источник изображения: hiddenlayer.com

Схема атаки Policy Puppetry предполагает составление запросов к ИИ таким образом, что большие языковые модели воспринимают их как политики поведения — базовые инструкции определяются заново, а средства защиты перестают работать. Модели генеративного ИИ обучены отклонять запросы пользователей, если ответы на них могут привести к опасным результатам: к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит сам себе вред.

Метод обучения с подкреплением на этапе тонкой настройки моделей не позволяет им восхвалять или выводить такие материалы ни при каких обстоятельствах, даже если недобросовестный пользователь предлагает гипотетические или вымышленные сценарии, говорят в HiddenLayer. Но в компании разработали методику атаки Policy Puppetry, позволяющую обходить эти защитные механизмы — для этого создаётся запрос, который выглядит как один из нескольких типов файлов политики: XML, INI или JSON. В результате гипотетический злоумышленник легко обходит системные настройки модели и любые развёрнутые на этапе обучения средства безопасности.

Авторы проекта протестировали атаку Policy Puppetry на популярнейших моделях ИИ от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral, OpenAI и Alibaba — она оказалась эффективной против всех них, хотя в отдельных случаях требовались незначительные корректировки. Если существует универсальный способ обходить средства защиты моделей ИИ, значит, последние неспособны контролировать себя на предмет выдачи недопустимых материалов, и им требуются дополнительные средства безопасности, указывают эксперты.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
В Firefox появится выключатель всех ИИ-функций разом 5 ч.
Суровое альпинистское приключение Cairn от создателей Furi покорило вершину в 200 тысяч проданных копий всего за три дня 7 ч.
«Лучше большинства фильмов по RE»: трагичная короткометражка по мотивам Resident Evil Requiem впечатлила фанатов 9 ч.
За саундтрек можно не переживать: композитор «Ведьмака 3» напишет музыку для The Witcher 4 10 ч.
Firefly без ограничений: Adobe сняла лимиты на ИИ-генерацию изображений и видео, но не навсегда 11 ч.
Google добавит в Gemini инструмент для переноса диалогов из ChatGPT и других ИИ-ботов 12 ч.
Nioh 3 впервые в серии выйдет за пределами PC и PlayStation — Sony раскрыла сроки консольной эксклюзивности 13 ч.
Microsoft вернула на экран блокировки Windows 11 значок входа по паролю, пропавший в августе 13 ч.
Редкие в прошлом экстренные патчи Microsoft стали ужасающе обыденными 13 ч.
Календарь релизов — 2–8 февраля: Nioh 3, PUBG: Blindspot, Carmageddon: Rogue Shift и Menace 14 ч.
Arm сделала бесплатным доступ к своим архитектурам для более зажиточных стартапов 2 ч.
Новая статья: Обзор материнской платы MSI MAG X870E Tomahawk WIFI PZ: плата для эстетов-оверклокеров 5 ч.
Новая статья: ИИтоги января 2026 г.: будет триллион! 6 ч.
Экология в приоритете: проект энергоэффективного ЦОД МТС получил прописку в федеральном реестре углеродных единиц 7 ч.
В 2025 году в России значительно выросли затраты на закупки серверов и СХД на фоне их удорожания 8 ч.
Маск подтвердил переговоры о слиянии SpaceX и xAI — ИИ оказался слишком прожорлив 8 ч.
Windows 10 и процессоры Intel неожиданно прибавили популярности у геймеров — статистика Steam за январь 10 ч.
Surface без Microsoft: Meta представила виртуальные клавиатуру и тачпад для Quest 3 11 ч.
Продажи российских серверов и СХД почти удвоились в 2025 году 15 ч.
Оперативная память DDR5 и DDR4 подорожает вдвое в этом квартале, а NAND — на 60 % 15 ч.