Сегодня 26 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Xiaomi создала «интеллект» для роботов: ИИ-модель с 4,7 млрд параметров объединяет зрение, язык и действия

Китайская Xiaomi, известная в первую очередь как производитель мобильных устройств, оборудования умного дома, а теперь и электромобилей, заявила о себе в новом качестве. Она решила занять место в исследованиях в области робототехники.

 Источник изображений: xiaomi-robotics-0.github.io

Источник изображений: xiaomi-robotics-0.github.io

Компания представила Xiaomi-Robotics-0 — модель искусственного интеллекта с открытым исходным кодом, сочетающую в себе визуальный, языковой компоненты и компонент действия; у неё 4,7 млрд параметров. В модели объединяются распознавание визуальных образов, понимание языка и способность производить действия в реальном времени, что, как отметили в Xiaomi, составляет ядро «физического интеллекта». Она уже установила несколько рекордов как в симуляциях, так и в реальных испытаниях.

ИИ-модели для роботов обычно действуют в замкнутом цикле: восприятие, принятие решения и выполнение операции. Робот видит объекты окружающего мира, понимает, что от него требуется, составляет план действий и реализует его — Xiaomi-Robotics-0 создавалась, чтобы сбалансировать широкое понимание с точным управлением моторикой. Для этого здесь использована архитектура «смеси трансформеров» (Mixture-of-Transformers — MoT), которая помогает распределять обязанности между двумя основными компонентами.

Первый компонент — визуально-языковая модель (VLM), выполняющая функцию «мозга». Она обучена интерпретировать отдаваемые человеком команды, в том числе расплывчатые, такие как «пожалуйста, сложи полотенце», а также понимать пространственные отношения на основе визуальных сигналов высокого разрешения. Задачи этой части — обнаружение объектов, ответы на вопросы в визуальной области и логические рассуждения. Второй компонент в Xiaomi называют экспертом по действиям (Action Expert). Эта часть модели имеет архитектуру диффузионного трансформера (Diffusion Transformer — DiT). Она не предполагает выполнения одного действия за раз, а генерирует последовательность действий, используя методы сопоставления потоков, что обеспечивает точность и плавность движения.

Слабой стороной VLM является то, что при обучении выполнению физических операций они, как правило, теряют часть заложенных ранее способностей к пониманию. Инженерам Xiaomi удалось избежать этой проблемы, обучая модель одновременно на мультимодальных данных и данных о действиях. В теории это означает, что такая система может одновременно рассуждать об объектах окружающего мира и учиться в нём передвигаться. Процесс обучения включает несколько этапов. Сначала механизм «предложения действий» заставляет VLM предсказывать возможные распределения действий при интерпретации изображений — это помогает согласовывать внутреннее представление модели о том, что она видит, с тем, как выполняются операции. После этого работа компонента VLM приостанавливается, и DiT проходит отдельное обучение для генерации точных последовательностей из шума на основе ключевых признаков, а не дискретных языковых токенов.

Xiaomi удалось решить проблему задержки вывода — паузы между выдаваемыми моделью прогнозами и физическим движением робота. Для этого реализовали асинхронный вывод, разделив вычисления модели и действия робота: движения остаются непрерывными, даже если модели требуется дополнительное время на обдумывание. Для повышения стабильности используется техника Clean Action Prefix, предполагающая возврат в модель предсказанного ранее действия, что обеспечивает плавное движение без рывков во времени. Маска внимания направляет модель на актуальный визуальный ряд, понижая приоритет прошлых состояний, в результате чего робот оказывается отзывчивым к внезапным изменениям окружающей среды.

В симуляциях LIBERO, CALVIN и SimplerEnv модель Xiaomi-Robotics-0 превзошла около 30 других, сообщил разработчик. В реальных экспериментах она проверялась на роботе с двумя манипуляторами: в задачах с последовательностями действий, таких как складывание полотенец и разборка блоков конструктора, робот демонстрировал стабильную координацию рук и глаз, одинаково эффективно манипулируя как жёсткими, так и мягкими объектами. Модели действительно удалось сохранить сильные визуальные и языковые возможности, особенно в задачах, связанных с физическим взаимодействием.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
С выходом нового патча для Escape from Tarkov игроки могут посетить «Ледокол» — атмосферную PvE-карту 38 мин.
Китай пресёк утечку ИИ-талантов за рубеж, запретив им выезд из страны без особого разрешения 2 ч.
Апокалипсис рабочих мест не наступил: Сэм Альтман признал, что переоценил опасность ИИ для рынка труда 4 ч.
Регулятор выдал планы Paradox на Lego-игру в серии Cities: Skylines — Lego Skylines 4 ч.
«Яндекс» запустит ИИ-генератор сайтов и веб-приложений по текстовому описанию 5 ч.
«На рынке так много нескончаемых видеоигр»: разработчики The Talos Principle 3 объяснили, почему третья часть станет последней в серии 5 ч.
Путь к чистоте священной машины: Owlcat раскрыла детали ключевой механики в аддоне «Неисчислимый музеон» для Warhammer 40,000: Rogue Trader 6 ч.
Президент Ирана подписал указ о восстановлении подключения страны к интернету — после почти трёх месяцев блокировки 7 ч.
Попытка не пытка: после отмены Contraband разработчики Just Cause взялись за ещё одну игру-сервис 7 ч.
Гибкие настройки безопасности и новые инструменты для работы с шаблонами — «Базис» обновил конструктор Basis Automation Studio до версии 2.4 8 ч.
Выручка xFusion, отделившейся из-за санкций от Huawei, за четыре года выросла шестикратно на фоне поддержки ИИ-отрасли государством 30 мин.
Европейский Arm-процессор SiPearl Rhea1 для суперкомпьютеров стал на шаг ближе к массовому выпуску 2 ч.
Особенности и цена умного кольца Oura Ring 5 раскрыты в преддверии анонса 2 ч.
Asus представила ROG Rapture GT-BN98 Pro — свой первый геймерский маршрутизатор с Wi-Fi 8 2 ч.
SpaceX готовит тарелку Starlink Mini на батарейках — она пригодится не только в походах 2 ч.
AOC представила AGON PRO AGP257FT — свой первый 1000-Гц монитор с Full HD 2 ч.
ИИ-бум расколол Samsung: сотрудники судятся из-за гигантских премий производителям чипов 3 ч.
Sennheiser представила полноразмерные наушники Momentum 5 Wireless с улучшенными шумоподавлением и автономностью 3 ч.
Представлен бюджетный смартфон Infinix Hot 70, который бледнеет в жару 3 ч.
SK hynix представила iHBM — память HBM со встроенным охлаждением ICE для будущих ИИ-чипов 6 ч.