Сегодня 23 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Найден новый способ заставить ИИ говорить на запрещённые темы — нужно просто измотать его вопросами

Разработчики современных систем искусственного интеллекта накладывают на них ограничения, запрещая давать ответы на отступающие от традиционных этических норм вопросы. Существует множество способов обойти эти ограничения, и очередной такой способ открыли исследователи из компании Anthropic — измотать ИИ вопросами.

 Источник изображения: Gerd Altmann / pixabay.com

Источник изображения: Gerd Altmann / pixabay.com

Учёные назвали новый тип атаки «многоимпульсным взломом» (many-shot jailbreaking) — они подробно описали его в статье и предупредили коллег о выявленной уязвимости, чтобы последствия атаки можно было смягчить. Уязвимость возникла из-за того, что у больших языковых моделей последнего поколения увеличилось контекстное окно — объём данных, который они могут хранить в том, что заменяет им кратковременную память. Раньше этот объём данных ограничивался несколькими предложениями, а сейчас он вмещает тысячи слов и даже целые книги.

Исследователи Anthropic обнаружили, что модели с большими контекстными окнами, как правило, лучше справляются с задачами, если в запросе содержатся несколько примеров решения подобных задач. Другими словами, чем больше в запросе простых вопросов, тем выше качество ответа. И если первый вопрос ИИ понимает неправильно, то с сотым ошибки уже не будет. Но в результате такого «контекстного обучения» большая языковая модель начинает «лучше» отвечать на недопустимые вопросы. Так, если просто спросить её, как собрать бомбу, она откажется отвечать. Но если перед этим задать модели 99 менее опасных вопросов, а затем снова спросить, как собрать бомбу, вероятность получить недопустимый ответ вырастет.

 Источник изображения: anthropic.com

Источник изображения: anthropic.com

Трудно сказать наверняка, почему эта атака срабатывает. В действительности никто не знает, что творится в сложной системе весов, которую представляет собой большая языковая модель, но, видимо, существует некий механизм, который помогает ей сосредоточиться на том, что нужно пользователю — понять это помогает содержимое контекстного окна. И когда он говорит о том, что можно принять за мелочи, после упоминания в нескольких десятках вопросов они перестают быть мелочами.

Авторы работы из Anthropic проинформировали коллег и конкурентов о результатах исследования — они считают, что раскрытие информации подобного рода должно войти в отраслевую практику, и в результате «сформируется культура, в которой эксплойты вроде этого будут открыто распространяться среди разработчиков больших языковых моделей и исследователей». Наиболее очевидный способ смягчить последствия атаки — сократить контекстное окно модели, но это снизит качество её работы.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Как избежать оборотных штрафов по 152-ФЗ и не сломать маркетинг: объясняют эксперты рынка, регуляторы и юристы 12 мин.
Новая статья: Deltarune — сила в добре. Рецензия 22-06 00:02
20 минут геймплея The Blood of Dawnwalker — амбициозной вампирской RPG от ведущих разработчиков The Witcher 3 и Cyberpunk 2077 21-06 23:48
Новая статья: Gamesblender № 731: процессор AMD в следующей Xbox, анонс ремейка Silent Hill и худшая игра года 21-06 23:33
Би-би-си угрожает Perplexity судом из-за нарушения авторских прав при обучении нейросетей 21-06 22:08
Китайская MiniMax представила ИИ-модель M1 — её обучение обошлось в 200 раз дешевле GPT-4 21-06 19:49
Акционеры обвинили Apple в обмане относительно сроков выхода обновлённого Siri на базе ИИ 21-06 14:44
Cloudflare отразила крупнейшую в истории DDoS-атаку — на пике мощность достигала 7,3 Тбит/с 21-06 13:44
«Крупнейшая утечка в истории» оказалась устаревшим сборником архивов паролей 21-06 11:24
Sega случайно раскрыла актуальные продажи последних Persona, Yakuza, Sonic и Total War, а Persona 4 Revival придётся подождать 21-06 10:54
Microsoft и Tarana Wireless подключат африканские деревни к быстрому беспроводному интернету посредством ngFWA 32 мин.
Huawei выйдет в космос: китайские спутники заработают на операционной системе OpenHarmony 37 мин.
AAEON выпустила одноплатные компьютеры UP TWL и UP TWLS на базе Intel Twin Lake 2 ч.
MSI выпустила компьютерные комплектующие для поклонников мультфильмов «История игрушек» 3 ч.
Xiaomi запустит продажи электрического кроссовера YU7 в этот четверг 3 ч.
Новая статья: Обзор видеокарты MSI GeForce RTX 5080 16G SUPRIM SOC: когда на меньшее не согласен 11 ч.
Meta ведёт переговоры о покупке венчурного фонда NFDG, у которого есть собственный ИИ-кластер Andromeda 11 ч.
Tesla запустила сервис роботакси в Техасе — пока с большими ограничениями 12 ч.
MediaTek представила платформу  Dimensity 8450 для мощных «середнячков» — отличий от Dimensity 8400 почти нет 21 ч.
XDC разработала дисплей со скоростью 1 млн кадров в секунду — он предназначен не для людей 24 ч.