Сегодня 28 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Обзор нового сезона Warface «Стальные кварталы»: брутальность в каждой катке! 10 мин.
В Telegram обнаружена крайне опасная уязвимость нулевого дня, но детали держат в секрете 2 ч.
«Отправьте меня в будущее, чтобы я смог поиграть в эту игру»: новый геймплей ролевого боевика Exodus в духе Mass Effect взбудоражил фанатов 2 ч.
Инсайдеры: легендарная The Legend of Zelda: Ocarina of Time получит ремейк для Nintendo Switch 2, причём уже скоро 4 ч.
Nacon выставила на продажу две внутренние студии, включая разработчиков Greedfall и Steelrising 5 ч.
Windows сбоит в три раза чаще macOS — по зависаниям разрыв в 7,5 раза 6 ч.
Слухи: экономия Ubisoft может поставить под угрозу крупнейшие игры компании, включая новую Ghost Recon 7 ч.
Ветеран Microsoft рассказал, как Windows 95 легко и незаметно боролась с нерадивыми разработчиками 8 ч.
Google представила ИИ для создания приложений для XR-гарнитур менее чем за минуту 8 ч.
В Telegram появился ИИ-переписчик сообщений 9 ч.
Meta построит ещё семь газовых электростанций для своего гигантского ИИ ЦОД Hyperion 18 мин.
Meta построит сразу семь газовых ТЭС на 5,2 ГВт, чтобы не отстать в гонке ИИ 2 ч.
SoftBank одолжила $40 млрд на год, чтобы инвестировать их в OpenAI 2 ч.
«Не хотите ускорители? Возьмите хотя бы сеть!» — NVIDIA открыла свои ИИ-стойки для чужих чипов 4 ч.
Вебинар T1 Облако и Curator. Выбор без выбора: почему защита от DDoS-атак — не опция, а необходимость 5 ч.
Глава Nvidia выступит на Computex 2026 — ожидается анонс ноутбучного процессора Nvidia N1 6 ч.
Xiaomi представила смартфон Redmi 15A 5G за $137 и пообещала ему обновления Android до 2032 года 6 ч.
Опубликован свежий «портрет» самой старой из известных сверхновых — она взорвалась в 185 году нашей эры 6 ч.
Представлен смартфон Tecno Spark 50 5G с чипом Dimensity 6400 и батареей на 6500 мА·ч за $179 7 ч.
Первый полёт российского корабля нового поколения «Орёл» перенесли на 2028 год 7 ч.