Группа, занимающаяся робототехникой в подразделении DeepMind компании Google представила три новых продукта, которые помогут роботам быстрее принимать решения, а также действовать эффективнее и безопаснее, выполняя задачи в окружении людей.
Система сбора данных AutoRT работает на основе визуальной языковой модели (VLM) и большой языковой модели (LLM) — они помогают роботам оценивать окружающую среду, адаптироваться к незнакомой обстановке и принимать решение о выполнении поставленных задач. VLM применяется для анализа окружающей среды и распознавания объектов в пределах видимости; а LLM отвечает за творческое выполнение задач. Важнейшим нововведением AutoRT стало появление в блоке LLM «Конституции роботов» — направленных на безопасность команд, предписывающих машине избегать выбора задач, в которых участвуют люди, животные, острые предметы и даже электроприборы. В целях дополнительной безопасности роботы программируются на остановку, когда усилие на суставах превышает определённый порог; а в их конструкции теперь есть дополнительный физический выключатель, которым человек может воспользоваться в экстренном случае.
За последние семь месяцев Google развернула в четырёх своих офисных зданиях 53 робота с системой AutoRT и провела более 77 тыс. испытаний. Некоторые из машин управлялись удалённо операторами, другие же выполняли задачи автономно либо на основе заданного алгоритма, либо с использованием ИИ-модели Robotic Transformer (RT-2). Пока все эти роботы выглядят предельно просто: это конечности-манипуляторы на подвижной базе и камеры для оценки обстановки.
Вторым нововведением стала система SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers), направленная на оптимизацию работы модели RT-2. Исследователи установили, что при удвоении входящих данных, например, повышении разрешения на камерах, потребность робота в вычислительных ресурсах возрастает вчетверо. Эту проблему удалось решить за счёт нового метода тонкой настройки ИИ, получившего название up-training — этот метод обращает квадратичный рост потребности в вычислительных ресурсах почти в линейный. За этот счёт модель работает быстрее, сохраняя прежнее качество.
Наконец, инженеры Google DeepMind разработали ИИ-модель RT-Trajectory, которая упрощает обучение роботов выполнению конкретных задач. Поставив задачу, оператор сам демонстрирует образец её выполнения; RT-Trajectory анализирует заданную человеком траекторию движения и адаптирует её к действиям робота.