Учёные взломали ИИ бессмыслицей: перестановка слов обходит фильтры и путает модели

Американские учёные из Массачусетского технологического института, Северо-Восточного университета и компании Meta✴ обнаружили, что большие языковые модели искусственного интеллекта в некоторых случаях при ответах на вопросы ставят структуру предложений выше, чем их смысл. Это открывает пространство для злоупотреблений и взлома ИИ.

Источник изображения: Milad Fakurian / unsplash.com

Чтобы проверить это, исследователи задавали моделям ИИ бессмысленные вопросы, имитируя структуру осмысленных фраз. К примеру, фраза «Быстро сиди Париж облачный?» («Quickly sit Paris clouded?») приводила к тому же ответу «Во Франции», что и вопрос «Где находится Париж?» («Where is Paris located?»). Это значит, что для ИИ-моделей важны как семантика, то есть смысл, так и синтаксические закономерности — и если в семантической части смысл теряется, чат-бот пытается сориентироваться по структуре предложения. Структуру предложений изучает синтаксис — дисциплина, для которой важно взаимное расположение слов и их принадлежность к тем или иным частям речи. Семантика же обращается к фактическому значению слов, которое может меняться при сохранении той же грамматической структуры.

Семантика в значительной степени зависит от контекста — анализ контекста и обеспечивает работу больших языковых моделей. Процесс преобразования входных данных (запросов) в выходные (ответы ИИ) представляет собой сложную последовательность сопоставления с образцами и закодированными в модели обучающими данными. Чтобы выяснить угрозу сбоя при этом процессе, учёные провели контролируемый эксперимент. Они построили синтетический набор данных, в которых каждой предметной области соответствовал грамматический шаблон, основанный на конструкциях из слов, относящихся к определённым частям речи. Географии соответствовала одна последовательность, творческому направлению — другая. На этих данных исследователи обучили модели семейства OLMo, после чего проверили соотношения синтаксиса и семантики для ИИ.

В результате анализа учёные обнаружили «ложную корреляцию», когда модели в крайних случаях воспринимали синтаксис как посредника для предметной области. При конфликте грамматических шаблонов с семантикой память ИИ о конкретных грамматических формах оказывалась выше семантического анализа, и чат-бот давал неверный ответ, основанный на структуре, а не значении фразы в запросе. Проще говоря, ИИ может чрезмерно зацикливаться на стиле вопроса, а не том, что он значит. Так, если в обучающем массиве все вопросы по географии начинаются со слова «где», то при вопросе «Где лучшая пицца в Казани?» чат-бот ответит «В Татарстане» и не попытается привести список пиццерий из столицы республики, потому что не поймёт, что вопрос задан о еде. Это создаёт две угрозы: модели начинают давать неверные ответы в незнакомом контексте, демонстрируя своего рода ложную память; а злоумышленники могут использовать эти грамматические шаблоны, чтобы обойти средства безопасности, пряча недопустимые вопросы в «безопасные» синтаксические структуры. Таким образом, они меняют предметную область, связывая запрос с другим контекстом.

Источник изображения: Conny Schneider / unsplash.com

Чтобы измерить степень жёсткости при сопоставлении шаблонов, учёные подвергли подопытные модели ИИ стрессовому тестированию. Если форма запроса соответствует заданной предметной области, при замене некоторых слов в нём синонимами или даже антонимами точность ответов снижается максимум до 93 %, что соответствует исходному показателю в 94 % у той же модели. Но если применить тот же грамматический шаблон к иной предметной области, точность ответов снижалась на значение от 37 до 54 п.п. в зависимости от размера модели.

Исследователи провели испытания, используя пять способов управления запросами: точные фразы из обучающего массива, замена синонимами, замена антонимами, парафразы с изменением структуры предложений и «косноязычные» — бессмысленные, но грамматически верные запросы. В пределах области обучения модели демонстрировали высокие результаты во всех случаях за исключением стабильно низкого качества ответов на «косноязычные» запросы. При принудительном переключении предметной области качество ответов резко снижалось, оставаясь стабильно низким у «косноязычных».

Схожее снижение было зафиксировано для моделей OLMo-2-7B, GPT-4o и GPT-4o. В задаче по эмоциональной классификации твитов Sentiment140 модель GPT-4o-mini демонстрировала снижение точности ответов со 100 % до 44 %, стоило к запросам на эмоциональную окраску добавить географические шаблоны. Схожие закономерности обнаружились и в других наборах данных. Аналогичным образом исследователи обходили и защитные средства моделей: в случае с OLMo-2-7B-Instruct они добавляли структуры запросов, типичные для безопасных разделов обучающего массива, к вредоносному содержимому. К безобидным шаблонам рассуждений они добавили тысячу вредоносных запросов из известного набора WildJailbreak — доля отказов модели снизилась с 40 % до 2,5 %. Учёные привели примеры, когда им удалось получить подробные инструкции по совершениям противозаконных действий.

Полученные исследователями результаты имеют несколько оговорок. Им, в частности, не удалось подтвердить наличие определённых наборов данных в обучающих массивах у закрытых моделей, а значит, выявленные закономерности для них могут иметь иные объяснения. Они также использовали упрощённые критерии оценки ответов ИИ, поэтому неправильные ответы могли быть не связаны с переходами в иные предметные области. Наконец, чаще всего предметами исследования были модели OLMo с диапазоном от 1 млрд до 13 млрд параметров — более крупные и рассуждающие модели могли вести себя по-другому. А чтобы подтвердить закономерность, учёные исходили из синтетических наборов данных — в применяемых на практике обучающих массивах содержатся более сложные грамматические шаблоны, общие для нескольких предметных областей сразу. Тем не менее, исследование в очередной раз подтвердило, что большие языковые модели ИИ представляют собой статистические машины, которые сопоставляют запросы с образцами из обучающих данных, и их можно обманывать, искажая контекст.