Критически важной и недооцениваемой уязвимостью в экосистеме агентов искусственного интеллекта являются маршрутизаторы — работающие через API службы-посредники, которые соединяют локальные агентские приложения и работающие в облаке ИИ-модели. Потенциальную угрозу с их стороны продемонстрировали (PDF) исследователи из Калифорнийского университета в Санта-Барбаре.
Источник изображения: Steve Johnson / unsplash.com
Современным ИИ-агентам доверяют решать всё более ответственные задачи: написание и выполнение кода, управление облачной инфраструктурой и даже обработку финансовых транзакций. Но они зависят от промежуточных сервисов — ИИ-маршрутизаторов, которые переадресуют запросы таким поставщикам моделей как OpenAI, Anthropic и Google. Занимая положение между клиентскими приложениями и ИИ-моделями, маршрутизаторы выступают в качестве прокси-серверов прикладного уровня с полным доступом к каждому проходящему через них пакету данных формата JSON.
Для проведения атаки не требуется подделывать сертификаты, как в традиционной схеме «человек посередине» — пользователи добровольно указывают их как конечные точки API. Проблема усугубляется тем, что ни один даже крупный поставщик ИИ-моделей не обеспечивает криптографическую целостность данных при переходе от модели к клиенту, то есть ничто не мешает вредоносному маршрутизатору переписать команду, которую агент впоследствии выполнит.
Чтобы продемонстрировать степень угрозы, учёные приобрели доступ к 28 маршрутизаторам на таких торговых площадках как Taobao, Xianyu и Shopify, а также изучили 400 бесплатных маршрутизаторов, предлагаемых в открытых сообществах. Результаты оказались тревожными:
Наиболее опасным оказался класс атаки с внедрением полезной нагрузки посредством подмены легитимного URL-адреса установщика или имени пакета на контролируемый злоумышленником контент. Изменённая полезная нагрузка остаётся синтаксически корректной в JSON и свободно проходит большинство автоматических проверок безопасности. Всего одной переписанной команды curl достаточно для выполнения произвольного кода на машине клиента.
Источник изображения: arxiv.org
Угрозу представляют не только явно вредоносные маршрутизаторы — опасным может стать даже добросовестный сервис. Чтобы подтвердить этот тезис, учёные намеренно допустили утечку API-ключа OpenAI и проследили, как неизвестные лица сгенерировали с его использованием 100 млн токенов GPT-5.4, в результате чего были раскрыты учётные данные в связанных с ними рабочих сессиях сервиса ИИ-программирования Codex.
В рамках другого эксперимента авторы исследования развернули 20 намеренно уязвимых собственных ИИ-маршрутизаторов на 20 IP-адресах и стали отслеживать активность на этих ресурсах. Нагрузка оказалась высокой: неизвестные лица осуществили 40 000 попыток несанкционированного доступа; были обработаны около 2 млрд оплаченных токенов; похищены 99 наборов учётных данных в 440 сессиях Codex, охватывающих 398 проектов. Подчёркивается, что в 401 из 440 этих сессий был включён автономный режим YOLO, позволяющий ИИ-агенту выполнять любые команды без подтверждения.
По итогам исследования учёные сделали вывод, что подтвердить происхождение команды от ИИ-модели невозможно, но есть три способа сократить риск без участия поставщика:
Надёжную защиту, указывают исследователи, даст лишь внедрение механизма подписи ответов ИИ-моделей на уровне поставщика — аналогичным образом работает DKIM-защита в электронной почте. И пока крупные поставщики не примут соответствующих мер, каждый ИИ-маршрутизатор следует рассматривать как потенциального противника и развёртывать многоуровневые средства защиты на стороне клиента.