Сегодня 18 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрешит переназначать клавишу Copilot после жалоб пользователей 8 мин.
Надёжный инсайдер поделился первыми подробностями Empulse — духовного наследника Titanfall от создателей Splitgate 49 мин.
Журналисты показали незаконченный заставочный ролик из отменённой версии ремейка Star Wars: Knights of the Old Republic 3 ч.
Глава Take-Two раскрыл изначальные планы Rockstar на GTA VI — игра должна была выйти ещё весной 2025 года 4 ч.
Apple научит Siri автоматически удалять переписку ради приватности пользователей 6 ч.
В Forza Horizon 6 уже сыграли миллион человек, хотя игра ещё даже официально не вышла 6 ч.
Genmoji в iOS 27 будет предлагать сгенерировать эмодзи на основе пользовательских фото и истории ввода на клавиатуре 8 ч.
Китайские компании превзошли американских конкурентов в сфере генерации видео при помощи ИИ 9 ч.
ИИ-функции Google Gemini Intelligence появятся лишь на нескольких производительных Android-смартфонах 18 ч.
Мейнфреймы тоже «поржавеют»: для IBM z готовится поддержка Rust в ядре Linux 23 ч.
Kaytus представила All-Flash СХД вместимостью до 7 Пбайт 3 мин.
Китайские машины научились ездить на трёх колёсах и обходиться без домкрата 5 мин.
В России поступил в продажу флагманский камерофон Vivo X300 Ultra с оптикой Zeiss — от 159 999 рублей 21 мин.
Honor представила Notebook X14 2026 — конкурент MacBook Neo на ангстремном чипе Intel Wildcat Lake 3 ч.
Смартфоны и соцсети отняли у людей живое общение и обвалили рождаемость в большинстве стран мира 3 ч.
«Ростелеком» запустит выпуск умных телевизоров на российской ОС «Аврора ТВ» с ИИ 3 ч.
Британский ИИ-стартап Fractile привлёк $220 млн на ускорение разработки ИИ-ускорителей 5 ч.
VoltaGrid привлекла $1 млрд от Blackstone и Halliburton на развитие систем электрогенерации для ЦОД и купила Propell 6 ч.
10 Пбайт в 2U-шасси: Dell и Kixoa анонсировали сервер хранения PowerEdge R7725xd на платформе AMD 7 ч.
SpaceX Dragon доставил на МКС очередную партию грузов и оборудования 7 ч.