Anthropic признала уязвимость Claude Cowork и переложила риски на пользователей

Компания Anthropic, представившая на этой неделе в качестве предварительной версии для исследований новый режим ИИ-помощника Claude под названием Claude Cowork, продолжает игнорировать уязвимость продукта к атакам промпт-инъекций (Prompt Injection), о которой хорошо осведомлена, пишет The Register.

Источник изображения: Steve Johnson/unsplash.com

Для запуска атаки пользователю достаточно подключить Cowork к локальной папке, содержащей конфиденциальную информацию, загрузить документ со скрытой промпт-инъекцией, и, когда Cowork проанализирует эти файлы, сработает внедрённая подсказка, ведущая к созданию вредоносного контента, несанкционированному доступу к личным данным или нарушению установленных ограничений.

Данная уязвимость существует в самом Claude, о чём компания PromptArmor, специализирующаяся на обнаружении уязвимостей в ИИ, предупредила Anthropic ещё в октябре прошлого года. Тогда Anthropic в итоге признала, что атаку промпт-инъекцией можно использовать для того, чтобы обманом заставить её API эксфильтровать данные, поэтому пользователям следует быть осторожными с тем, какие источники они подключают к ИИ-боту.

Вместе с тем, когда исследователи спросили, собирается ли Anthropic предпринять какие-либо действия — например, внедрить проверки API, чтобы убедиться, что конфиденциальные файлы пользователя не передаются на другой аккаунт через API, — компания попросту не ответила.

Anthropic утверждает, что разработала сложные средства защиты от промпт-инъекций, однако безопасность агентов — то есть задача обеспечения безопасности реальных действий Claude — «по-прежнему является активной областью развития в отрасли».

«Эти риски не новы для Cowork, но, возможно, вы впервые используете более продвинутый инструмент, выходящий за рамки простого диалога», — сообщила компания, отмечая, что Cowork имеет гораздо более широкий круг пользователей, чем анонсированные ранее инструменты.

В связи с этим Anthropic призвала пользователей избегать подключения Cowork к конфиденциальным документам, ограничивать использование расширения Chrome доверенными сайтами и отслеживать «подозрительные действия, которые могут указывать на промпт-инъекцию».

Как отметил разработчик и специалист по проблемам внедрения SQL-запросов Саймон Уиллисон (Simon Willison) в своём обзоре Cowork, требовать от людей, не являющихся программистами, отслеживать «подозрительные действия, которые могут указывать на внедрение SQL-запросов», попросту нереалистично.

В ответ на запрос The Register о том, какие меры принимаются для решения проблемы внедрения запросов через API, которая теперь присутствует уже в двух продуктах компании, Anthropic заявила, что внедрение запросов — это проблема, затрагивающая всю отрасль, и над её решением работают все участники ИИ-рынка.

Всё это свидетельствует о том, что Anthropic рассматривает риски использования Cowork как ответственность самих пользователей.

Вместе с тем представитель Anthropic сообщил, что компания также работает над способами минимизации внедрения запросов в своих продуктах, в том числе с помощью виртуальной машины в Cowork, предназначенной для ограничения доступа платформы к конфиденциальным файлам и каталогам. Anthropic заявила, что планирует выпустить обновление для виртуальной машины Cowork с целью улучшения её взаимодействия с уязвимым API, а также что в будущем будут внесены и другие изменения для повышения безопасности при использовании нового инструмента.