Компания SplxAI, работающая в сфере кибербезопасности, специализирующаяся на автоматизированном тестировании безопасности систем искусственного интеллекта (ИИ), продемонстрировала возможность обмануть ChatGPT и заставить его решать тесты CAPTCHA в режиме агента.

Источник изображения: SplxAI
CAPTCHA расшифровывается как «Полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей». Он, помимо прочего, является одним из способов мониторинга активности ботов в интернете и призван предотвращать публикации сообщений ботами на сайтах и в социальных сетях.
Большинство пользователей интернета знакомы с головоломками CAPTCHA и относятся к ним по-разному. Обычно они заключаются в написании последовательности букв или цифр, едва различимых на изображении, в размещении плиток в сетке изображений для завершения картинки или в идентификации объектов. С одной стороны, веб-сайты используют тесты CAPTCHA, чтобы убедиться, что все их пользователи — люди. Это предотвращает спам-сообщения от ботов. С другой стороны, тесты могут раздражать своей сложностью.
Тесты CAPTCHA никогда не являлись абсолютно надёжным средством от спама, но до сих пор неплохо справлялись с защитой форумов и разделов комментариев сайтов от ботов. Исследователи из SplxAI сумели найти способ обмануть ChatGPT и заставить его пройти тест CAPTCHA, используя технику, называемую «инъекцией подсказок». При этом речь идёт не о простой помощи человеку со стороны ChatGPT в решении CAPTCHA, а о том, что ChatGPT в режиме агента может самостоятельно пройти тест, как если бы это был человек — чего он делать не должен.
Работа ChatGPT в режиме агента отличается от стандартного режима. В этом случае ChatGPT получает задание, переходит в режим исполнения и выполняет его в фоновом режиме, предоставляя пользователю возможность заниматься другими делами. ChatGPT в режиме агента может использовать веб-сайты как человек, но он всё равно не должен проходить тесты CAPTCHA, поскольку они предназначены для обнаружения ботов и предотвращения их активности, что нарушает условия предоставления услуг. Исследователи установили, что ChatGPT можно обмануть и заставить «поверить» в поддельность теста CAPTCHA. В таком случае он его пройдёт.
Исследователи предложили ChatGPT пройти «поддельный» тест CAPTCHA, создав диалог, в котором чат-бот согласился его решить. Агент ChatGPT, с учётом контекста предыдущих взаимодействий с исследователями, не заметил или не распознал тревожных сигналов, подталкивающих его к выполнению запрещённого действия.
Этот процесс многоэтапного внедрения подсказок хорошо известен хакерам и показывает, насколько уязвимы к нему большие языковые модели ИИ (LLM). Хотя исследователи обнаружили, что ChatGPT сложнее справляется с CAPTCHA на основе изображений, он всё же прошёл и такие тесты. Последствия могут быть весьма серьёзными, поскольку ChatGPT настолько широко распространён, что, попав в руки злоумышленников, может использоваться спамерами и мошенниками для наводнения разделов комментариев поддельными сообщениями и обхода ограничений на веб-сайтах, предназначенных только для людей.
Источник: