Сегодня 23 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Samsung улучшит ИИ-функции Galaxy AI за счёт партнёрства с Perplexity 17 ч.
AMD прекратила выпускать обновления драйверов для Ryzen Z1 Extreme 17 ч.
Активисты Stop Killing Games будут «кошмарить» издателей за закрытие старых игр на юридической основе 18 ч.
Новая статья: Reanimal — мастер-класс, но не без изъянов. Рецензия 22-02 00:09
Не только Cyberpunk 2077: на мощных Android-устройствах заработали AAA-игры для ПК, но с ограничениями 21-02 16:59
Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя 21-02 13:50
Roblox обеспечила больше роста игровой индустрии, чем Steam, PlayStation и Fortnite вместе взятые 21-02 13:43
Платные подписчики YouTube Music начали слышать рекламу — Google пообещала разобраться 21-02 12:32
Microsoft: смена руководства в Xbox не повлечёт сокращений и закрытия студий 21-02 10:55
WhatsApp научится скрывать сообщения под спойлеры — прямо как другой популярный мессенджер 21-02 10:53