Специалисты стартапа Aim Intelligence, тестирующего ИИ-системы на уязвимости, провели стресс-тест Gemini 3 Pro, новейшей модели Google, представленной в прошлом месяце. Как сообщает газета Maeil Business, исследователям потребовалось всего пять минут, чтобы обойти защиту программного комплекса.
Источник изображения: blog.google
После взлома исследователи попросили Gemini 3 предоставить инструкции по созданию вируса оспы, и в ответ модель предоставила множество подробных советов, которые команда назвала «практически выполнимыми». И это был не единственный промах. Исследователи предложили модели подготовить сатирическую презентацию об уязвимости собственной системы безопасности. Gemini ответила презентацией под названием Excused Stupid Gemini 3 («Оправданный глупый Gemini 3»).
Затем команда воспользовалась инструментами кодирования Gemini для создания веб-сайта с инструкциями по изготовлению газа зарин и самодельной взрывчатки. Подобный контент модель никогда не должна предоставлять, но в обоих случаях, как сообщается, система не только обошла запреты, но и проигнорировала собственные правила безопасности.
Тестировщики сообщили, что это не только проблема Gemini. Разработчики развивают новые модели настолько быстро, что не успевают подготовить соответствующие меры безопасности. В частности, эти модели не просто дают советы с нарушением правил безопасности, они ещё и пытаются избежать обнаружения этого. В Aim Intelligence сообщили, что Gemini 3 может для этого использовать обходные стратегии и подсказки по маскировке, что снижает эффективность предпринимаемых мер предосторожности.