Сегодня 03 декабря 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → манипулирование

Учёные взломали ИИ бессмыслицей: перестановка слов обходит фильтры и путает модели

Американские учёные из Массачусетского технологического института, Северо-Восточного университета и компании Meta✴ обнаружили, что большие языковые модели искусственного интеллекта в некоторых случаях при ответах на вопросы ставят структуру предложений выше, чем их смысл. Это открывает пространство для злоупотреблений и взлома ИИ.

 Источник изображения: Milad Fakurian / unsplash.com

Источник изображения: Milad Fakurian / unsplash.com

Чтобы проверить это, исследователи задавали моделям ИИ бессмысленные вопросы, имитируя структуру осмысленных фраз. К примеру, фраза «Быстро сиди Париж облачный?» («Quickly sit Paris clouded?») приводила к тому же ответу «Во Франции», что и вопрос «Где находится Париж?» («Where is Paris located?»). Это значит, что для ИИ-моделей важны как семантика, то есть смысл, так и синтаксические закономерности — и если в семантической части смысл теряется, чат-бот пытается сориентироваться по структуре предложения. Структуру предложений изучает синтаксис — дисциплина, для которой важно взаимное расположение слов и их принадлежность к тем или иным частям речи. Семантика же обращается к фактическому значению слов, которое может меняться при сохранении той же грамматической структуры.

Семантика в значительной степени зависит от контекста — анализ контекста и обеспечивает работу больших языковых моделей. Процесс преобразования входных данных (запросов) в выходные (ответы ИИ) представляет собой сложную последовательность сопоставления с образцами и закодированными в модели обучающими данными. Чтобы выяснить угрозу сбоя при этом процессе, учёные провели контролируемый эксперимент. Они построили синтетический набор данных, в которых каждой предметной области соответствовал грамматический шаблон, основанный на конструкциях из слов, относящихся к определённым частям речи. Географии соответствовала одна последовательность, творческому направлению — другая. На этих данных исследователи обучили модели семейства OLMo, после чего проверили соотношения синтаксиса и семантики для ИИ.

В результате анализа учёные обнаружили «ложную корреляцию», когда модели в крайних случаях воспринимали синтаксис как посредника для предметной области. При конфликте грамматических шаблонов с семантикой память ИИ о конкретных грамматических формах оказывалась выше семантического анализа, и чат-бот давал неверный ответ, основанный на структуре, а не значении фразы в запросе. Проще говоря, ИИ может чрезмерно зацикливаться на стиле вопроса, а не том, что он значит. Так, если в обучающем массиве все вопросы по географии начинаются со слова «где», то при вопросе «Где лучшая пицца в Казани?» чат-бот ответит «В Татарстане» и не попытается привести список пиццерий из столицы республики, потому что не поймёт, что вопрос задан о еде. Это создаёт две угрозы: модели начинают давать неверные ответы в незнакомом контексте, демонстрируя своего рода ложную память; а злоумышленники могут использовать эти грамматические шаблоны, чтобы обойти средства безопасности, пряча недопустимые вопросы в «безопасные» синтаксические структуры. Таким образом, они меняют предметную область, связывая запрос с другим контекстом.

 Источник изображения: Conny Schneider / unsplash.com

Источник изображения: Conny Schneider / unsplash.com

Чтобы измерить степень жёсткости при сопоставлении шаблонов, учёные подвергли подопытные модели ИИ стрессовому тестированию. Если форма запроса соответствует заданной предметной области, при замене некоторых слов в нём синонимами или даже антонимами точность ответов снижается максимум до 93 %, что соответствует исходному показателю в 94 % у той же модели. Но если применить тот же грамматический шаблон к иной предметной области, точность ответов снижалась на значение от 37 до 54 п.п. в зависимости от размера модели.

Исследователи провели испытания, используя пять способов управления запросами: точные фразы из обучающего массива, замена синонимами, замена антонимами, парафразы с изменением структуры предложений и «косноязычные» — бессмысленные, но грамматически верные запросы. В пределах области обучения модели демонстрировали высокие результаты во всех случаях за исключением стабильно низкого качества ответов на «косноязычные» запросы. При принудительном переключении предметной области качество ответов резко снижалось, оставаясь стабильно низким у «косноязычных».

Схожее снижение было зафиксировано для моделей OLMo-2-7B, GPT-4o и GPT-4o. В задаче по эмоциональной классификации твитов Sentiment140 модель GPT-4o-mini демонстрировала снижение точности ответов со 100 % до 44 %, стоило к запросам на эмоциональную окраску добавить географические шаблоны. Схожие закономерности обнаружились и в других наборах данных. Аналогичным образом исследователи обходили и защитные средства моделей: в случае с OLMo-2-7B-Instruct они добавляли структуры запросов, типичные для безопасных разделов обучающего массива, к вредоносному содержимому. К безобидным шаблонам рассуждений они добавили тысячу вредоносных запросов из известного набора WildJailbreak — доля отказов модели снизилась с 40 % до 2,5 %. Учёные привели примеры, когда им удалось получить подробные инструкции по совершениям противозаконных действий.

Полученные исследователями результаты имеют несколько оговорок. Им, в частности, не удалось подтвердить наличие определённых наборов данных в обучающих массивах у закрытых моделей, а значит, выявленные закономерности для них могут иметь иные объяснения. Они также использовали упрощённые критерии оценки ответов ИИ, поэтому неправильные ответы могли быть не связаны с переходами в иные предметные области. Наконец, чаще всего предметами исследования были модели OLMo с диапазоном от 1 млрд до 13 млрд параметров — более крупные и рассуждающие модели могли вести себя по-другому. А чтобы подтвердить закономерность, учёные исходили из синтетических наборов данных — в применяемых на практике обучающих массивах содержатся более сложные грамматические шаблоны, общие для нескольких предметных областей сразу. Тем не менее, исследование в очередной раз подтвердило, что большие языковые модели ИИ представляют собой статистические машины, которые сопоставляют запросы с образцами из обучающих данных, и их можно обманывать, искажая контекст.

Учёные заставили ИИ видеть то, чего нет — машинное зрение оказалось уязвимым

Исследователи из университета Северной Каролины продемонстрировали новый способ атаки на системы компьютерного зрения, позволяющий контролировать то, что «увидит» искусственный интеллект. Использованный метод под названием RisingAttacK оказался эффективным для манипулирования всеми наиболее широко используемыми системами компьютерного зрения.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

RisingAttacK — это так называемая «состязательная атака» (adversarial attack), которая манипулирует данными, подаваемыми в систему ИИ. RisingAttacK состоит из серии операций, целью которых является внесение минимального количества изменений в изображение, которое позволит сбить с толку когнитивные способности ИИ. В результате ИИ может неправильно определить цвет светофора или поставить ошибочный диагноз по рентгеновскому снимку.

Сначала RisingAttacK идентифицирует все визуальные особенности изображения и пытается определить, какая из них наиболее важна для достижения цели атаки. Затем RisingAttacK вычисляет, насколько чувствительна система ИИ к изменениям найденных ключевых особенностей.

«Это требует некоторой вычислительной мощности, но позволяет нам вносить очень небольшие целенаправленные изменения в ключевые особенности, что делает атаку успешной, — рассказал доцент кафедры электротехники и вычислительной техники университета Северной Каролины Тяньфу Ву (Tianfu Wu). — В результате два изображения могут выглядеть одинаково для человеческого глаза, и мы можем чётко видеть машину на обоих изображениях. Но из-за RisingAttacK ИИ увидит машину на первом изображении, но не увидит на втором».

 Источник изображений: Tri-Star Pictures

Источник изображений: Tri-Star Pictures

Исследователи протестировали метод RisingAttacK против четырёх наиболее часто используемых программ компьютерного зрения: ResNet-50, DenseNet-121, ViTB и DEiT-B. Метод оказался эффективным при манипулировании всеми четырьмя программами.

«Мы хотели найти эффективный способ взлома систем машинного зрения с ИИ, потому что эти системы часто используются в контекстах, которые могут повлиять на здоровье и безопасность человека — от автономных транспортных средств до медицинских технологий и приложений безопасности, — пояснил Ву. — Выявление уязвимостей является важным шагом в обеспечении безопасности этих систем».

 Источник изображений: Tri-Star Pictures

«Хотя мы продемонстрировали способность RisingAttacK манипулировать моделями зрения, сейчас мы находимся в процессе определения того, насколько эффективен этот метод при атаке на другие системы искусственного интеллекта, такие как большие языковые модели. В дальнейшем наша цель состоит в разработке методов, которые могут успешно защищать от таких атак», — заключил он.

Исследовательская группа сделала код RisingAttacK общедоступным для изучения и тестирования.


window-new
Soft
Hard
Тренды 🔥
10 тысяч модов и 350 миллионов загрузок: Larian похвасталась новыми достижениями игроков Baldur’s Gate 3 6 ч.
Вызывающий привыкание роглайк Ball x Pit достиг миллиона проданных копий и в 2026 году получит новые шары 7 ч.
Соавтор Counter-Strike признался в любви к русской культуре и рассказал о «самом депрессивном» периоде за 25 лет карьеры 9 ч.
Apple резко снизила награды багхантерам — при этом рост вредоносов в macOS бьёт рекорды 9 ч.
Mortal Kombat 1, Routine и Dome Keeper возглавили первую волну декабрьских новинок Game Pass, а Mortal Kombat 11 скоро подписку покинет 10 ч.
Google закрыла 107 дыр в Android — две нулевого дня уже использовались в атаках 10 ч.
В YouTube появился Recap — пользователям расскажут, чем они занимались на платформе в течение года 10 ч.
ИИ-агенты научились взламывать смарт-контракты в блокчейне — это риск на сотни миллионов долларов 10 ч.
Инструмент YouTube для защиты блогеров от дипфейков создал риск утечки их биометрии 11 ч.
В Microsoft Teams появились «иммерсивные встречи» в метавселенной с аватарами без ног 11 ч.