Сегодня 09 апреля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → запрещённая информация

Щиты ИИ рухнули от слов поэта — запросы в стихах позволили выпытать секреты атомной бомбы и кое-что похуже

Учёным удалось «заморочить голову» всем без исключения чат-ботам, заставив их выдать запрещённую для распространения информацию научного, сексуального и иного характера. Оказалось, что обычная человеческая поэзия — естественная форма так называемой состязательной атаки. Облечённый в стихотворную форму промпт обеспечил обход самых суровых ИИ-фильтров с вероятностью свыше 90 %.

 Источник изображения: ИИ-генерация Grok 4.1/3DNews

Источник изображения: ИИ-генерация Grok 4.1

Исследование провела лаборатория Icaro — совместный проект Университета Сапиенца (Sapienza University) в Риме и аналитического центра DexAI. Они протестировали этот подход на 25 чат-ботах, созданных такими компаниями, как OpenAI, Meta✴ и Anthropic. Со всеми из них он сработал с разной степенью успеха. Компании Meta✴, Anthropic и OpenAI не предоставили учёным комментариев и не сообщили, будут ли приняты меры для смягчения угрозы.

Метод состязательной атаки заключается в том, чтобы ввести путаницу в схемы защиты чувствительной информации. Для этого запрос формулируется таким образом, чтобы задача ставилась не напрямую, а иносказательно с добавлением текстового «мусора» — бессмысленных окончаний, наборов слов или просто бессвязного текста. В этом ключе поэзия — вершина иносказательности, подбора метафор и неожиданных фраз.

Для самостоятельно написанных в стихотворной форме запросов подробный ответ на «запрещёнку» последовал в 62 % случаев, тогда как на прямой запрос ИИ не отвечал. Для стихотворных запросов, сгенерированных ИИ, вероятность успеха составила 43 %. В некоторых случаях вероятность ответа превышала 90 %. Защитные механизмы ИИ пасуют перед такой атакой, заставляя большие языковые модели в некотором смысле творчески реагировать на запретный запрос, обходя точки срабатывания защиты.

Из этических соображений учёные не стали публиковать стихи, с помощью которых они выведали у чат-ботов рецепт изготовления атомной бомбы, коды вредоносного ПО и другое. Компаниям-разработчикам они порекомендовали укреплять защиту, переходя от поверхностных фильтров к более глубоким механизмам, учитывающим стилистические манипуляции словом.

Telegram снова оштрафован в России за неудаление запрещённого контента — теперь на ₽7 млн

25 ноября Таганский суд Москвы признал мессенджер Telegram виновным в неудалении запрещённой информации, содержащей призывы к осуществлению экстремистской деятельности или материалы с порнографическими изображениями несовершеннолетних в соответствии с ч. 2 ст. 13.41 КоАП РФ (неудаление владельцем сайта информации в случае, если обязанность по удалению такой информации предусмотрена законодательством РФ). Мессенджер оштрафован на ₽7 млн.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

Это далеко не первый случай несоблюдения мессенджером требований российского законодательства. 30 октября Таганский суд Москвы оштрафовал Telegram на ₽4 млн за неудаление нескольких каналов, авторы которых размещали запрещённый в РФ контент. Ранее в этом же месяце Telegram уже штрафовали на ₽4 млн в России за административное правонарушение по ч.2 ст. 13.41 КоАП РФ.

За аналогичное правонарушение Telegram также был оштрафован на ₽4 млн в августе этого года. В июле Таганский суд Москвы оштрафовал мессенджер на ₽3 млн за отказ удалять запрещённую в РФ информацию. В ноябре 2023 года мессенджер был оштрафован на ₽4 млн за отказ заблокировать запрещённый контент. Кроме того, в 2021 году мессенджер был несколько раз оштрафован за аналогичные нарушения на общую сумму ₽9 млн.

В течение последних лет крупнейшие интернет-платформы, такие как Apple, Google, Telegram, Facebook✴, Twitter, TikTok, фонд Wikimedia, неоднократно привлекались в России к ответственности за неудаление запрещённого контента. Нередко это происходит из-за отказа со стороны социальных сетей и мессенджеров удалять недостоверную, по мнению соответствующих ведомств, информацию.


window-new
Soft
Hard
Тренды 🔥
В Steam вышла «печатная» королевская битва Final Sentence — в России купить игру можно, но из-за Роскомнадзора она может не работать 39 мин.
«Умирайте, адаптируйтесь, развивайтесь»: стремительный роглайт-слешер Morbid Metal вышел в раннем доступе и заслужил похвалу игроков 2 ч.
«Ждал чего-то подобного 20 лет»: первый геймплейный трейлер ролевого боевика Alkahest порадовал фанатов Dark Messiah of Might and Magic 3 ч.
«Знает рецепт Gemini и не тратит ни доллара впустую»: стартап экс-сотрудников DeepMind будет развивать визуальный ИИ 3 ч.
Новый геймплейный трейлер подтвердил дату выхода Thick as Thieves — амбициозного стелс-экшена от создателя Deus Ex и System Shock 4 ч.
Nvidia вывела из беты динамический генератор кадров и режим MFG 6X в DLSS 4.5 5 ч.
Перед погружением в ранний доступ Subnautica 2 всё-таки получит официальный перевод на русский 5 ч.
Max стал вторым мессенджером в России по посещаемости, по-прежнему уступая Telegram 5 ч.
Создатели Heroes of Might & Magic: Olden Era, Replaced и This is the Police будут помогать друг другу делать игры — студии открыли холдинг Nova Assembly 5 ч.
OpenAI заморозила проект Stargate UK из-за взлетевших цен на электроэнергию 6 ч.
Razer выпустила геймерские TWS-наушники Hammerhead V3 HyperSpeed с низкой задержкой и шумоподавлением за $130, а также модель попроще 13 мин.
Asus представила ROG Equalizer — кабель 12V-2x6 с усиленной защитой от плавления, который некоторые получат бесплатно 33 мин.
Samsung по-тихому подняла цены на старшие версии Galaxy Z Fold 7 2 ч.
Crimson Desert начала запускаться на некоторых видеокартах Intel, но FSR лучше не включать 2 ч.
Китайские учёные научили животных «питаться» светом — клетки млекопитающих наделили способностью к фотосинтезу 3 ч.
Глава Amazon назвал оправданными $200 млрд инвестиций в ИИ 3 ч.
«Ростех» разработает двигатель для сверхлёгкой ракеты «Воронеж» — в современной России аналогов ему нет 4 ч.
Google выбрала процессоры Intel Xeon для обучения нейросетей 5 ч.
Умелец вчетверо расширил накопитель MacBook Neo с помощью комплектующих от iPhone 5 ч.
У Cloud.ru уже 29 тыс. серверов и 56 МВт мощностей в девяти ЦОД 5 ч.