Google DeepMind выпустила новую версию ИИ-модели Gemini Robotics для роботов без подключения к интернету — Gemini Robotics On-Device. Это модель типа «зрение — язык — действие» (VLA), обладающая такими же возможностями, как и представленная в марте, но, как заявляет Google, «достаточно компактная и эффективная, чтобы работать непосредственно на роботе».
Источник изображения: Google DeepMind
Робототехника представляет собой уникальную проблему для ИИ, поскольку робот не только существует в физическом мире, но и изменяет свое окружение. Независимо от того, перемещает ли он блоки или завязывает вам шнурки, трудно предсказать все возможные ситуации, с которыми может столкнуться робот. Традиционный подход к обучению робота действиям с помощью подкрепления был очень медленным, но генеративный ИИ позволяет добиться гораздо большей обобщенности.
Флагманская ИИ-модель Gemini Robotics On-Device помогает роботам выполнять широкий спектр физических задач даже без предварительного специального обучения. В частности, она позволяет обобщать новые сценарии, понимать и выполнять голосовые команды, а также справляться с задачами, требующими мелкой моторики.
Руководитель отдела робототехники Google DeepMind Каролина Парада (Carolina Parada) сообщила изданию The Verge, что оригинальная модель Gemini Robotics использует гибридный подход, позволяющий ей работать как на устройстве, так и в облаке. Новая модель, доступная исключительно для работы на устройстве, обеспечивает почти тот же спектр функций без подключения к интернету.
Парада утверждает, что Gemini Robotics On-Device способна выполнять множество задач «из коробки», а также адаптироваться к новым сценариям всего за 50–100 демонстраций в физическом симуляторе MuJoCo.
Изначально модель обучалась только для роботов Google ALOHA, однако позже её адаптировали для других типов, включая гуманоидного робота Apollo от Apptronik и двурукого Franka FR3. По данным Google, Franka FR3 успешно справился с новыми задачами и объектами, с которыми ранее не сталкивался — например, при сборке на промышленном конвейере.
«Гибридная модель Gemini Robotics всё ещё мощнее, но мы были приятно удивлены тем, насколько сильна модель On-Device, — говорит Парада. — Я бы рассматривала её как базовую модель или решение для приложений, в которых отсутствует стабильное подключение к интернету». Также она может быть полезна компаниям с жёсткими требованиями к безопасности.
Google выпустила первый комплект средств разработки Gemini Robotics SDK для модели On-Device. Этот SDK позволяет разработчикам тестировать модель и производить её тонкую настройку. Это первый подобный инструмент, выпущенный для VLA-моделей Google DeepMind.