ИИ-агент OpenClaw «устроил беспредел» в почтовом ящике исследователя после просьбы навести порядок

Читать в полной версии

Исследователь безопасности Meta AI Саммер Юэ (Summer Yue) заявила, что ИИ-агент OpenClaw «устроил беспредел» в её почтовом ящике. В ответ на просьбу проверить переполненный почтовый ящик и предложить, что удалить или заархивировать, OpenClaw начал удалять все её письма в «быстром режиме», не обращая на подсказки остановиться, которые Юэ отправляла с телефона.

Источник изображения: openclaw.ai

«Мне пришлось бежать к своему Mac Mini, как будто я обезвреживала бомбу», — написала она, опубликовав изображения проигнорированных подсказок с просьбой об остановке проверки в качестве доказательства.

Компактный компьютер Apple Mac Mini стал в последнее время предпочтительным устройством в США для работы с OpenClaw. Обладая большим объёмом оперативной памяти, он является хорошим вариантом для запуска локальных ИИ-ассистентов. Как сообщил сотрудник Apple исследователю ИИ Андрею Карпати (Andrej Karpathy), Mac Mini продаются «как горячие пирожки». Сообщается, что ожидание после заказа доставки версий устройства с 24 или 32 Гбайт ОЗУ составляет до трёх недель.

Сообщение Юэ служит предупреждением для других пользователей ИИ. Как отметили участники соцсети X, если исследователь безопасности ИИ столкнулся с этой проблемой, то на что могут надеяться простые смертные?

«Вы намеренно тестировали его механизмы защиты или допустили ошибку новичка?» — спросил её разработчик ПО. «Честно говоря, ошибка новичка», — ответила она. Юэ тестировала своего агента с помощью небольшого «ненастоящего» почтового ящика, как она его назвала, и он хорошо работал с менее важными письмами. Поскольку работа агента заслужила её доверие, она решила запустить его на реальном устройстве.

Как полагает Юэ, из-за большого объёма данных в её реальном почтовом ящике запустился процесс сжатия. Сжатие происходит, когда контекстное окно — текущая запись всего, что было сказано и сделано ИИ в ходе сессии — становится слишком большим, заставляя агента начинать суммировать и сжимать, чтобы оставаться быстрым и отзывчивым. При этом ИИ-агент может пропускать инструкции, которые человек считает очень важными.

Можно предположить, что в данном случае система пропустила последнее сообщение исследователя, в котором она указала ей прекратить действовать и вернулась к выполнению инструкций для «ненастоящего» почтового ящика.

Как отметили другие участники X, подсказкам нельзя доверять как средству обеспечения безопасности. Модели могут неправильно их истолковывать или игнорировать.