Сегодня 28 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Превед, медвед!» — и прощай: сайт Udaff.com закрылся спустя четверть века 55 мин.
Более 600 сотрудников Google выступили против использования фирменного ИИ Пентагоном 2 ч.
Конкуренция в сфере ИИ на Android станет предметом контроля ЕС 3 ч.
Microsoft и OpenAI пересмотрели «брачный договор»: эксклюзивных прав больше нет, но и выручкой делиться не надо 7 ч.
Эвакуационный шутер Arc Raiders завтра получит крупный патч Riven Tides с новой картой и множеством активностей 9 ч.
Инсайдер: Ubisoft поставила 50 разработчиков Assassin’s Creed Codename Hexe под угрозу увольнения, чтобы уложиться в бюджет 10 ч.
OpenAI избавилась от зависимости от Microsoft — и теперь сможет использовать облака Google и других провайдеров 11 ч.
Новый трейлер раскрыл дату выхода Battlestar Galactica: Scattered Hopes — беспощадной стратегии по мотивам «Звёздного крейсера "Галактика"» 11 ч.
Следующее дополнение отправит игроков PowerWash Simulator 2 в далёкую-далёкую галактику — анонсирован кроссовер со «Звёздными войнами» 12 ч.
Европа откроет лазейку для массовой слежки за тем, что граждане ищут в Google 13 ч.
OpenAI не выходит на целевые показатели по выручке и количеству новых пользователей 7 мин.
50 пусков за 4 месяца: ракета Falcon 9 со ступенью-ветераном доставила на орбиту 25 спутников Starlink 58 мин.
Спрос на память останется высоким до конца десятилетия, как ожидают аналитики Melius Research 3 ч.
Новая статья: Больше кадров — больше лага: тестирование латентности с генерацией кадров DLSS и FSR 8 ч.
Складной iPad рискует никогда не выйти из-за повышения Тернуса до гендира Apple 8 ч.
Valve объявила старт продаж Steam Controller — геймпад действительно оценили в $99 10 ч.
Попроще и подешевле: YADRO обновила конфигурации TATLIN.AFA и TATLIN.BACKUP на фоне глобального дефицита компонентов 10 ч.
Vivo выпустила смартфон Y600 Proс батареей на 10 200 мА·ч по цене от $300 11 ч.
Акции Qualcomm взлетели на слухах о разработке ИИ-смартфона OpenAI 12 ч.
Аналоговый фотоаппарат Leica M-A переиздан ограниченной серией с «молотковой» отделкой 12 ч.