Сегодня 15 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → манипулирование

Учёные взломали ИИ бессмыслицей: перестановка слов обходит фильтры и путает модели

Американские учёные из Массачусетского технологического института, Северо-Восточного университета и компании Meta✴ обнаружили, что большие языковые модели искусственного интеллекта в некоторых случаях при ответах на вопросы ставят структуру предложений выше, чем их смысл. Это открывает пространство для злоупотреблений и взлома ИИ.

 Источник изображения: Milad Fakurian / unsplash.com

Источник изображения: Milad Fakurian / unsplash.com

Чтобы проверить это, исследователи задавали моделям ИИ бессмысленные вопросы, имитируя структуру осмысленных фраз. К примеру, фраза «Быстро сиди Париж облачный?» («Quickly sit Paris clouded?») приводила к тому же ответу «Во Франции», что и вопрос «Где находится Париж?» («Where is Paris located?»). Это значит, что для ИИ-моделей важны как семантика, то есть смысл, так и синтаксические закономерности — и если в семантической части смысл теряется, чат-бот пытается сориентироваться по структуре предложения. Структуру предложений изучает синтаксис — дисциплина, для которой важно взаимное расположение слов и их принадлежность к тем или иным частям речи. Семантика же обращается к фактическому значению слов, которое может меняться при сохранении той же грамматической структуры.

Семантика в значительной степени зависит от контекста — анализ контекста и обеспечивает работу больших языковых моделей. Процесс преобразования входных данных (запросов) в выходные (ответы ИИ) представляет собой сложную последовательность сопоставления с образцами и закодированными в модели обучающими данными. Чтобы выяснить угрозу сбоя при этом процессе, учёные провели контролируемый эксперимент. Они построили синтетический набор данных, в которых каждой предметной области соответствовал грамматический шаблон, основанный на конструкциях из слов, относящихся к определённым частям речи. Географии соответствовала одна последовательность, творческому направлению — другая. На этих данных исследователи обучили модели семейства OLMo, после чего проверили соотношения синтаксиса и семантики для ИИ.

В результате анализа учёные обнаружили «ложную корреляцию», когда модели в крайних случаях воспринимали синтаксис как посредника для предметной области. При конфликте грамматических шаблонов с семантикой память ИИ о конкретных грамматических формах оказывалась выше семантического анализа, и чат-бот давал неверный ответ, основанный на структуре, а не значении фразы в запросе. Проще говоря, ИИ может чрезмерно зацикливаться на стиле вопроса, а не том, что он значит. Так, если в обучающем массиве все вопросы по географии начинаются со слова «где», то при вопросе «Где лучшая пицца в Казани?» чат-бот ответит «В Татарстане» и не попытается привести список пиццерий из столицы республики, потому что не поймёт, что вопрос задан о еде. Это создаёт две угрозы: модели начинают давать неверные ответы в незнакомом контексте, демонстрируя своего рода ложную память; а злоумышленники могут использовать эти грамматические шаблоны, чтобы обойти средства безопасности, пряча недопустимые вопросы в «безопасные» синтаксические структуры. Таким образом, они меняют предметную область, связывая запрос с другим контекстом.

 Источник изображения: Conny Schneider / unsplash.com

Источник изображения: Conny Schneider / unsplash.com

Чтобы измерить степень жёсткости при сопоставлении шаблонов, учёные подвергли подопытные модели ИИ стрессовому тестированию. Если форма запроса соответствует заданной предметной области, при замене некоторых слов в нём синонимами или даже антонимами точность ответов снижается максимум до 93 %, что соответствует исходному показателю в 94 % у той же модели. Но если применить тот же грамматический шаблон к иной предметной области, точность ответов снижалась на значение от 37 до 54 п.п. в зависимости от размера модели.

Исследователи провели испытания, используя пять способов управления запросами: точные фразы из обучающего массива, замена синонимами, замена антонимами, парафразы с изменением структуры предложений и «косноязычные» — бессмысленные, но грамматически верные запросы. В пределах области обучения модели демонстрировали высокие результаты во всех случаях за исключением стабильно низкого качества ответов на «косноязычные» запросы. При принудительном переключении предметной области качество ответов резко снижалось, оставаясь стабильно низким у «косноязычных».

Схожее снижение было зафиксировано для моделей OLMo-2-7B, GPT-4o и GPT-4o. В задаче по эмоциональной классификации твитов Sentiment140 модель GPT-4o-mini демонстрировала снижение точности ответов со 100 % до 44 %, стоило к запросам на эмоциональную окраску добавить географические шаблоны. Схожие закономерности обнаружились и в других наборах данных. Аналогичным образом исследователи обходили и защитные средства моделей: в случае с OLMo-2-7B-Instruct они добавляли структуры запросов, типичные для безопасных разделов обучающего массива, к вредоносному содержимому. К безобидным шаблонам рассуждений они добавили тысячу вредоносных запросов из известного набора WildJailbreak — доля отказов модели снизилась с 40 % до 2,5 %. Учёные привели примеры, когда им удалось получить подробные инструкции по совершениям противозаконных действий.

Полученные исследователями результаты имеют несколько оговорок. Им, в частности, не удалось подтвердить наличие определённых наборов данных в обучающих массивах у закрытых моделей, а значит, выявленные закономерности для них могут иметь иные объяснения. Они также использовали упрощённые критерии оценки ответов ИИ, поэтому неправильные ответы могли быть не связаны с переходами в иные предметные области. Наконец, чаще всего предметами исследования были модели OLMo с диапазоном от 1 млрд до 13 млрд параметров — более крупные и рассуждающие модели могли вести себя по-другому. А чтобы подтвердить закономерность, учёные исходили из синтетических наборов данных — в применяемых на практике обучающих массивах содержатся более сложные грамматические шаблоны, общие для нескольких предметных областей сразу. Тем не менее, исследование в очередной раз подтвердило, что большие языковые модели ИИ представляют собой статистические машины, которые сопоставляют запросы с образцами из обучающих данных, и их можно обманывать, искажая контекст.

Учёные заставили ИИ видеть то, чего нет — машинное зрение оказалось уязвимым

Исследователи из университета Северной Каролины продемонстрировали новый способ атаки на системы компьютерного зрения, позволяющий контролировать то, что «увидит» искусственный интеллект. Использованный метод под названием RisingAttacK оказался эффективным для манипулирования всеми наиболее широко используемыми системами компьютерного зрения.

 Источник изображения: unsplash.com

Источник изображения: unsplash.com

RisingAttacK — это так называемая «состязательная атака» (adversarial attack), которая манипулирует данными, подаваемыми в систему ИИ. RisingAttacK состоит из серии операций, целью которых является внесение минимального количества изменений в изображение, которое позволит сбить с толку когнитивные способности ИИ. В результате ИИ может неправильно определить цвет светофора или поставить ошибочный диагноз по рентгеновскому снимку.

Сначала RisingAttacK идентифицирует все визуальные особенности изображения и пытается определить, какая из них наиболее важна для достижения цели атаки. Затем RisingAttacK вычисляет, насколько чувствительна система ИИ к изменениям найденных ключевых особенностей.

«Это требует некоторой вычислительной мощности, но позволяет нам вносить очень небольшие целенаправленные изменения в ключевые особенности, что делает атаку успешной, — рассказал доцент кафедры электротехники и вычислительной техники университета Северной Каролины Тяньфу Ву (Tianfu Wu). — В результате два изображения могут выглядеть одинаково для человеческого глаза, и мы можем чётко видеть машину на обоих изображениях. Но из-за RisingAttacK ИИ увидит машину на первом изображении, но не увидит на втором».

 Источник изображений: Tri-Star Pictures

Источник изображений: Tri-Star Pictures

Исследователи протестировали метод RisingAttacK против четырёх наиболее часто используемых программ компьютерного зрения: ResNet-50, DenseNet-121, ViTB и DEiT-B. Метод оказался эффективным при манипулировании всеми четырьмя программами.

«Мы хотели найти эффективный способ взлома систем машинного зрения с ИИ, потому что эти системы часто используются в контекстах, которые могут повлиять на здоровье и безопасность человека — от автономных транспортных средств до медицинских технологий и приложений безопасности, — пояснил Ву. — Выявление уязвимостей является важным шагом в обеспечении безопасности этих систем».

 Источник изображений: Tri-Star Pictures

«Хотя мы продемонстрировали способность RisingAttacK манипулировать моделями зрения, сейчас мы находимся в процессе определения того, насколько эффективен этот метод при атаке на другие системы искусственного интеллекта, такие как большие языковые модели. В дальнейшем наша цель состоит в разработке методов, которые могут успешно защищать от таких атак», — заключил он.

Исследовательская группа сделала код RisingAttacK общедоступным для изучения и тестирования.


window-new
Soft
Hard
Тренды 🔥
Парусная лодка, собаки и северные красоты: приключение Will: Follow The Light выйдет 28 апреля 8 ч.
Google не исключает появление рекламы в Gemini 9 ч.
ByteDance отложила глобальный запуск ИИ-генератора видео Seedance 2.0 из-за проблем с авторскими правами 14 ч.
Пятая часть австралийских подростков сохранила доступ к социальным сетям после их официального запрета 14 ч.
Новая статья: Docked — классический немецкий симулятор, только не от немцев. Рецензия 21 ч.
Новая статья: Gamesblender № 767: следующая Xbox, новые процессоры Intel, суд Nintendo и США, инфляция в Fortnite 22 ч.
Карточный роглайк Slay of the Spire 2 разошёлся тиражом в 3 млн копий — разработчики спешно готовят для него новый контент 14-03 20:36
Хакеры начали заполонять GitHub проектами с «невидимым» вредоносным кодом 14-03 13:23
Игры для ПК избавятся от компиляции шейдеров — Microsoft повсеместно распространит ASD на Windows 14-03 13:12
Группа ИИ-агентов взломала базу данных несуществующей компании, хотя их об этом не просили 14-03 12:36
В Мособлдуме предупредили о возможных сбоях связи в Подмосковье 10 ч.
Microsoft ведёт переговоры об аренде мощностей в техасском кампусе Stargate на сотни мегаватт 10 ч.
GigaDevice представила чипы SPI NOR Flash серии GD25UF для периферийных и ИИ-устройств 10 ч.
Выпуск ИИ-чипов DeepX DX-M2 отложен из-за проблем у Tesla 10 ч.
Valve обратилась за помощью в покупке памяти для своих игровых консолей к партнёрам 13 ч.
Бактерии научили вырабатывать электричество при обнаружении опасных веществ — для этого их «заключили под стражу» 23 ч.
Noctua готовит корпус для ПК с фирменными вентиляторами и деревянной панелью 14-03 18:54
Synopsys показала в деле интерфейс класса PCIe 8.0 со скоростью 256 ГТ/с 14-03 18:44
AWS и Cerebras готовят решение для пятикратного ускорения инференса ИИ 14-03 18:42
Ключевые металлы для производства чипов подорожали вдвое и даже больше — отрасль готовится к дефициту 14-03 18:40