Сегодня 18 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft утверждает, что движок WebKit замедляет браузеры на iOS почти на 30 % 37 мин.
Piper Sandler предсказал 46 миллионов проданных копий GTA VI за первый день, и это «консервативный» прогноз 2 ч.
Курировавшая реорганизацию Meta руководитель уйдёт из компании 3 ч.
Требования властей США к Anthropic для разблокировки ИИ-моделей практически труднореализуемы 3 ч.
Игроки Crusader Kings 3 смогут почувствовать себя Папой Римским — трейлер и дата выхода дополнения By God Alone 3 ч.
ИИ уже превосходит обычных медиков в точности определения диагноза 4 ч.
Mozilla представила дорожную карту Firefox на фоне падения аудитории, исчисляемого миллионами человек в месяц 4 ч.
Великобритания потребовала от Google повысить прозрачность поисковой выдачи 4 ч.
NVIDIA стала лидером во всех тестах MLPerf Training 6.0 9 ч.
Новая статья: Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная 11 ч.
NASA впервые выбрало частника для доставки приборов к Марсу — компанию экс-гендира Google Эрика Шмидта 13 мин.
AMD лишила потребительские процессоры шифрования памяти и отказывается это признать 17 мин.
Google представила Brazos — СЖО для ИИ-стоек в ЦОД с воздушным охлаждением 21 мин.
Глава NVIDIA лично поучаствовал в закладке нового производства оптических компонентов Coherent 2 ч.
AST SpaceMobile начала запускать гигантские интернет-спутники пачками — в космос отправлены BlueBird 8, 9 и 10 2 ч.
Обновлённая колонка Google Home получила интеграцию с Gemini и поступит в продажу 25 июня 3 ч.
SK hynix объявила о начале поставок образцов памяти HBM4E 3 ч.
Второе поколение Apple iPhone Air весной 2027 года предложит вторую камеру и увеличит время работы от батареи 6 ч.
Тим Кук признался, что дефицит памяти вынудит Apple поднять цены на свои устройства 6 ч.
В США заработал суперкомпьютер Lynx с интерконнектом Cornelis Omni-Path CN5000 9 ч.