Сегодня 07 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Mozilla готовит масштабный редизайн Firefox с кодовым именем Nova — вот как это будет выглядеть 21 мин.
Энтузиаст превратил Sony PlayStation 5 в игровой ПК под Linux и запустил на ней GTA V 4 ч.
X начала тестировать «рекламу без рекламы» — рекомендации брендов прямо под постами 4 ч.
Anthropic запустила  маркетплейс приложений, построенных на её ИИ-моделях — по примеру Amazon 11 ч.
OpenAI представила ИИ-агента Codex Security, который сам находит и закрывает «дыры» в ПО 11 ч.
Новая статья: Resident Evil Requiem — два шага вперёд, три назад. Рецензия 17 ч.
Nintendo подала в суд на правительство США и потребовала возместить ущерб от пошлин Трампа — «с процентами» 19 ч.
Брутфорс уходит в прошлое: Cloudflare назвала ИИ и дипфейки главной проблемой года 19 ч.
Спецслужбы США и Европола накрыли LeakBase — один из крупнейших хакерских форумов в мире с 142 000 участников 20 ч.
Аналитики объяснили, почему эксклюзивы PlayStation продаются на ПК всё хуже и хуже 20 ч.
У OpenAI и Oracle закончились деньги на расширение гигантского ИИ-дата-центра в Техасе 2 ч.
В России создали прототип квантовой оперативной памяти — для компьютеров, радаров и телескопов невероятной чувствительности 2 ч.
DJI заплатила $30 000 пользователю, случайно взломавшему 7000 роботов-пылесосов Romo 4 ч.
Valve отложила Steam Machine: вместо запуска в «начале 2026 года» теперь расплывчатое «надеемся начать поставки в 2026-м» 5 ч.
Китайские производители чипов призвали власти создать «китайскую ASML» 5 ч.
Анонсирован смартфон Realme C83 5G с батареей на 7000 мА·ч, прочным корпусом и ценой от $145 5 ч.
BYD представила электромобиль Denza Z9 GT с рекордным запасом хода в 1036 км 9 ч.
Власти США запретят закупку отдельных китайских полупроводниковых изделий для государственных нужд 10 ч.
Глава Google может получить до $692 млн, но лишь в случае успеха беспилотных такси Waymo 10 ч.
Термодинамику научили вычислять — энергоэффективность улетела в космос 17 ч.