Атака с внедрением подсказок — это способ сделать инструкции для системы искусственного интеллекта невидимыми для оператора-человека. Исследователи из Trail of Bits обнаружили, что такие инструкции можно скрывать в изображениях, делая текст невидимым для человеческого глаза. При последующей загрузке изображения в систему ИИ и его сжатии нейросетью подсказка становится доступной для распознавания, расшифровывается и может быть выполнена — всё это абсолютно незаметно для человека.

Источник изображения: unsplash.com
Инструменты ИИ сегодня популярны даже среди пользователей, не слишком разбирающихся в традиционном ПО или вопросах безопасности, и это открывает множество новых возможностей для хакеров. Исследовательская группа Trail of Bits показала способ скрывать атаки с внедрением подсказок, используя сжатие изображений при их загрузке в систему ИИ. Хорошая аналогия — скрытый фишинг в электронном письме, где текст окрашен тем же цветом, что и фон: человек его не заметит, а нейросеть прочитает и, возможно, выполнит.
В примере, представленном Trail of Bits, при загрузке изображения с внедрённой подсказкой в Gemini бэкенд Google сжимает его для экономии пропускной способности и вычислительных ресурсов. В результате скрытый текст становится видимым для нейросети, и подсказка успешно внедряется, например сообщая Gemini о необходимости передать данные из личного календаря пользователя третьей стороне.

Источник изображения: Trail of Bits
Безусловно, такой метод требует значительных усилий ради получения относительно небольшого объёма персональных данных, причём и сама атака, и изображение должны быть адаптированы под конкретную систему ИИ. Пока нет доказательств того, что метод активно используется злоумышленниками. Но это показательный пример того, как на первый взгляд безобидное действие может превратиться в вектор атаки.
Источник: