Сегодня 04 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Энтузиаст установил Windows 3.1x на компьютер 2025 года — и она заработала c Ryzen 9 9900X и RTX 5060 Ti 2 ч.
Microsoft принудительно обновит до Windows 11 25H2 компьютеры с более старыми версиями ОС 6 ч.
В руководстве OpenAI провели очередные кадровые перестановки — частично вынужденные 7 ч.
Nvidia показала нейронное сжатие текстур: потребление видеопамяти упало почти в 7 раз 7 ч.
Суд обязал Netflix вернуть деньги за необоснованное повышение стоимости подписок, но только в одной стране 9 ч.
Anthropic ввела дополнительную плату за подключение OpenClaw к Claude 9 ч.
На Perplexity подали в суд за тайную передачу личных данных и переписок пользователей рекламщикам 9 ч.
Техподдержка NASA удалённо починила Microsoft Outlook на планшете командира лунной миссии Artemis II 9 ч.
Anthropic связала склонность Claude к шантажу и жульничеству с давлением и невыполнимыми задачами 15 ч.
Поддержка ИИ-моделью DeepSeek V4 ускорителей Huawei вызвала рост спроса на них в Китае 15 ч.
Обновлённый RedMagic 11 Pro показал достойный FPS в играх для ПК класса AAA 4 ч.
ИИ на селе: NetApp и NTT протестировали геораспределённое обучение LLM 5 ч.
Учёные впервые наблюдали, как нечто внутри потока света двигалось быстрее него 5 ч.
Стартап CavilinQ получил $8,8 млн на разработку квантового интерконнекта для объединения квантовых компьютеров 6 ч.
Специалисты iFixit разобрали наушники Apple AirPods Max 2 — внутренняя компоновка не изменилась 7 ч.
Беспроводная оптическая связь внутри помещений показала новые рекорды скорости и эффективности 8 ч.
Apple распродала все Mac Studio с 256 Гбайт оперативки — сроки доставки растянулись до 4–5 месяцев 11 ч.
Удачно прилунившийся модуль Firefly Aerospace Blue Ghost рассказал о Луне нечто неожиданное 11 ч.
Китайские производители чипов завершили прошлый год рекордными объёмами выручки 13 ч.
Тестовый полёт космического корабля SpaceX Starship V3 в очередной раз перенесён на месяц 16 ч.