Сегодня 09 июня 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Учёные взломали ИИ бессмыслицей: перестановка слов обходит фильтры и путает модели

Американские учёные из Массачусетского технологического института, Северо-Восточного университета и компании Meta обнаружили, что большие языковые модели искусственного интеллекта в некоторых случаях при ответах на вопросы ставят структуру предложений выше, чем их смысл. Это открывает пространство для злоупотреблений и взлома ИИ.

 Источник изображения: Milad Fakurian / unsplash.com

Источник изображения: Milad Fakurian / unsplash.com

Чтобы проверить это, исследователи задавали моделям ИИ бессмысленные вопросы, имитируя структуру осмысленных фраз. К примеру, фраза «Быстро сиди Париж облачный?» («Quickly sit Paris clouded?») приводила к тому же ответу «Во Франции», что и вопрос «Где находится Париж?» («Where is Paris located?»). Это значит, что для ИИ-моделей важны как семантика, то есть смысл, так и синтаксические закономерности — и если в семантической части смысл теряется, чат-бот пытается сориентироваться по структуре предложения. Структуру предложений изучает синтаксис — дисциплина, для которой важно взаимное расположение слов и их принадлежность к тем или иным частям речи. Семантика же обращается к фактическому значению слов, которое может меняться при сохранении той же грамматической структуры.

Семантика в значительной степени зависит от контекста — анализ контекста и обеспечивает работу больших языковых моделей. Процесс преобразования входных данных (запросов) в выходные (ответы ИИ) представляет собой сложную последовательность сопоставления с образцами и закодированными в модели обучающими данными. Чтобы выяснить угрозу сбоя при этом процессе, учёные провели контролируемый эксперимент. Они построили синтетический набор данных, в которых каждой предметной области соответствовал грамматический шаблон, основанный на конструкциях из слов, относящихся к определённым частям речи. Географии соответствовала одна последовательность, творческому направлению — другая. На этих данных исследователи обучили модели семейства OLMo, после чего проверили соотношения синтаксиса и семантики для ИИ.

В результате анализа учёные обнаружили «ложную корреляцию», когда модели в крайних случаях воспринимали синтаксис как посредника для предметной области. При конфликте грамматических шаблонов с семантикой память ИИ о конкретных грамматических формах оказывалась выше семантического анализа, и чат-бот давал неверный ответ, основанный на структуре, а не значении фразы в запросе. Проще говоря, ИИ может чрезмерно зацикливаться на стиле вопроса, а не том, что он значит. Так, если в обучающем массиве все вопросы по географии начинаются со слова «где», то при вопросе «Где лучшая пицца в Казани?» чат-бот ответит «В Татарстане» и не попытается привести список пиццерий из столицы республики, потому что не поймёт, что вопрос задан о еде. Это создаёт две угрозы: модели начинают давать неверные ответы в незнакомом контексте, демонстрируя своего рода ложную память; а злоумышленники могут использовать эти грамматические шаблоны, чтобы обойти средства безопасности, пряча недопустимые вопросы в «безопасные» синтаксические структуры. Таким образом, они меняют предметную область, связывая запрос с другим контекстом.

 Источник изображения: Conny Schneider / unsplash.com

Источник изображения: Conny Schneider / unsplash.com

Чтобы измерить степень жёсткости при сопоставлении шаблонов, учёные подвергли подопытные модели ИИ стрессовому тестированию. Если форма запроса соответствует заданной предметной области, при замене некоторых слов в нём синонимами или даже антонимами точность ответов снижается максимум до 93 %, что соответствует исходному показателю в 94 % у той же модели. Но если применить тот же грамматический шаблон к иной предметной области, точность ответов снижалась на значение от 37 до 54 п.п. в зависимости от размера модели.

Исследователи провели испытания, используя пять способов управления запросами: точные фразы из обучающего массива, замена синонимами, замена антонимами, парафразы с изменением структуры предложений и «косноязычные» — бессмысленные, но грамматически верные запросы. В пределах области обучения модели демонстрировали высокие результаты во всех случаях за исключением стабильно низкого качества ответов на «косноязычные» запросы. При принудительном переключении предметной области качество ответов резко снижалось, оставаясь стабильно низким у «косноязычных».

Схожее снижение было зафиксировано для моделей OLMo-2-7B, GPT-4o и GPT-4o. В задаче по эмоциональной классификации твитов Sentiment140 модель GPT-4o-mini демонстрировала снижение точности ответов со 100 % до 44 %, стоило к запросам на эмоциональную окраску добавить географические шаблоны. Схожие закономерности обнаружились и в других наборах данных. Аналогичным образом исследователи обходили и защитные средства моделей: в случае с OLMo-2-7B-Instruct они добавляли структуры запросов, типичные для безопасных разделов обучающего массива, к вредоносному содержимому. К безобидным шаблонам рассуждений они добавили тысячу вредоносных запросов из известного набора WildJailbreak — доля отказов модели снизилась с 40 % до 2,5 %. Учёные привели примеры, когда им удалось получить подробные инструкции по совершениям противозаконных действий.

Полученные исследователями результаты имеют несколько оговорок. Им, в частности, не удалось подтвердить наличие определённых наборов данных в обучающих массивах у закрытых моделей, а значит, выявленные закономерности для них могут иметь иные объяснения. Они также использовали упрощённые критерии оценки ответов ИИ, поэтому неправильные ответы могли быть не связаны с переходами в иные предметные области. Наконец, чаще всего предметами исследования были модели OLMo с диапазоном от 1 млрд до 13 млрд параметров — более крупные и рассуждающие модели могли вести себя по-другому. А чтобы подтвердить закономерность, учёные исходили из синтетических наборов данных — в применяемых на практике обучающих массивах содержатся более сложные грамматические шаблоны, общие для нескольких предметных областей сразу. Тем не менее, исследование в очередной раз подтвердило, что большие языковые модели ИИ представляют собой статистические машины, которые сопоставляют запросы с образцами из обучающих данных, и их можно обманывать, искажая контекст.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Dragon’s Dogma 2 всё-таки получит большое дополнение и улучшения оптимизации — первый трейлер и детали Dragon's Dogma 2: Dark Arisen 37 мин.
Роскомнадзор и Минцифры увидели основания для разблокировки Roblox в России 2 ч.
Закон един для всех: ЕС отказался делать исключение из DMA для новой Siri AI от Apple 2 ч.
«Меня не обманешь, это Titanfall 3»: шутер Empulse с мехами и вертикальными уровнями выйдет 24 июня 2 ч.
Госдума ударила по авторизации через Google и Apple — сайтам грозят штрафы до 700 тысяч рублей 2 ч.
Meta убрала алгоритм распознавания лиц из программного кода для умных очков 2 ч.
Все смартфоны в России поставят на учёт по IMEI — Госдума приняла пакет законов «Антифрод 2.0» 4 ч.
«Люди разучились ждать»: похоже, многострадальная The Wolf Among Us 2 выйдет целиком, а не по эпизодам 6 ч.
На iPhone наконец можно будет регулировать громкость звонка, будильника и уведомлений по-отдельности 6 ч.
Nvidia выпустила Hotfix-драйвер 610.52 для решения проблем Smooth Motion, G-Sync и ошибок EDID 6 ч.
Спутниковый Wi-Fi на борту авиалайнеров станет важным «полем битвы» между SpaceX Starlink и Amazon Leo 21 мин.
NVIDIA поможет SK hynix, Naver, Doosan, SK Telecom и LG расширить ИИ-инфраструктуру Южной Кореи 2 ч.
Oriole Networks и AMD успешно запустили ИИ-сеть на фотонных технологиях, но пока в лабораторных условиях 2 ч.
Геймерский смартфон-слайдер Ayaneo показался в видеообзоре до старта продаж 2 ч.
Samsung Foundry может впервые за четыре года выйти на прибыль 4 ч.
Xbox не сдаётся: компания видит спасение в эксклюзивах и новой консоли Helix 4 ч.
Китай запустил массовое производство радиочастотных чипов на нитриде галлия для 6G 4 ч.
PepsiCo запустила беспилотные грузоперевозки чипсов и напитков в трёх штатах США 5 ч.
Amazon заключила многолетнее соглашение с Corning на поставку оптоволокна для своих ЦОД 5 ч.
Занимающийся сканированием глаз стартап Сэма Альтмана сократит сотрудников 6 ч.