Сегодня 23 февраля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Samsung улучшит ИИ-функции Galaxy AI за счёт партнёрства с Perplexity 19 ч.
Активисты Stop Killing Games будут «кошмарить» издателей за закрытие старых игр на юридической основе 21 ч.
Новая статья: Reanimal — мастер-класс, но не без изъянов. Рецензия 22-02 00:09
Не только Cyberpunk 2077: на мощных Android-устройствах заработали AAA-игры для ПК, но с ограничениями 21-02 16:59
Apple создаёт локального ИИ-агента для iPhone, который сможет управлять приложениями за пользователя 21-02 13:50
Roblox обеспечила больше роста игровой индустрии, чем Steam, PlayStation и Fortnite вместе взятые 21-02 13:43
Платные подписчики YouTube Music начали слышать рекламу — Google пообещала разобраться 21-02 12:32
Microsoft: смена руководства в Xbox не повлечёт сокращений и закрытия студий 21-02 10:55
WhatsApp научится скрывать сообщения под спойлеры — прямо как другой популярный мессенджер 21-02 10:53
Фил Спенсер и президент Xbox Сара Бонд ушли из Microsoft — Microsoft Gaming возглавила специалист по ИИ 21-02 01:39
Dell решила намертво прикрутить скандально известный 16-контактный разъём питания видеокарты, чтобы тот не расплавился 14 мин.
Глава SK Group заявил, что из-за дефицита памяти некоторые производители ПК и смартфонов могут не выжить 59 мин.
Новая статья: AGI: и хочется, и колется 7 ч.
Apple представит «как минимум пять продуктов» на презентации 4 марта 12 ч.
19 ГВт уже есть, ещё 21 ГВт на подходе: Microsoft на 100 % компенсировала свои энергозатраты «зелёными» контрактами 15 ч.
Johnson Controls купила разработчика СЖО Alloy Enterprises 16 ч.
Samsung вернула себе лидерство на глобальном рынке DRAM в четвертом квартале 2025 года 16 ч.
Российский бизнес распробовал ИИ: рынок ИИ-серверов достиг 60 млрд рублей 16 ч.
Phison E28 добрался до MSI: компания представила SSD с защитой от потери данных 24 ч.
Google готова помогать деньгами тем облачным провайдерам, которые используют её ускорители 24 ч.