Сегодня 15 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
ByteDance отложила глобальный запуск ИИ-генератора видео Seedance 2.0 из-за проблем с авторскими правами 4 ч.
Пятая часть австралийских подростков сохранила доступ к социальным сетям после их официального запрета 5 ч.
Новая статья: Docked — классический немецкий симулятор, только не от немцев. Рецензия 12 ч.
Новая статья: Gamesblender № 767: следующая Xbox, новые процессоры Intel, суд Nintendo и США, инфляция в Fortnite 12 ч.
Карточный роглайк Slay of the Spire 2 разошёлся тиражом в 3 млн копий — разработчики спешно готовят для него новый контент 15 ч.
Хакеры начали заполонять GitHub проектами с «невидимым» вредоносным кодом 22 ч.
Игры для ПК избавятся от компиляции шейдеров — Microsoft повсеместно распространит ASD на Windows 23 ч.
Группа ИИ-агентов взломала базу данных несуществующей компании, хотя их об этом не просили 23 ч.
Adobe заплатит $150 млн по иску о платной отмене подписок на Photoshop и другие приложения 14-03 10:36
Meta скоро отключит сквозное шифрование для личных сообщений в Instagram 14-03 10:18
Poco вскоре представит мощные смартфоны Poco X8 Pro и X8 Pro Max 2 ч.
Valve обратилась за помощью в покупке памяти для своих игровых консолей к партнёрам 3 ч.
Бактерии научили вырабатывать электричество при обнаружении опасных веществ — для этого их «заключили под стражу» 13 ч.
Noctua готовит корпус для ПК с фирменными вентиляторами и деревянной панелью 17 ч.
Synopsys показала в деле интерфейс класса PCIe 8.0 со скоростью 256 ГТ/с 17 ч.
AWS и Cerebras готовят решение для пятикратного ускорения инференса ИИ 17 ч.
Ключевые металлы для производства чипов подорожали вдвое и даже больше — отрасль готовится к дефициту 17 ч.
В Meta назревает новая волна увольнений: из-за ИИ могут уволить каждого пятого 22 ч.
Chuwi снова поймали на подмене процессоров: внутри ноутбука оказался менее мощный Ryzen, чем в характеристиках 23 ч.
Apple отпразднует 50-летие мероприятиями «по всему миру» — на первом спела Алиша Киз 23 ч.