Сегодня 27 сентября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Google создала и показала в деле ИИ, который заставляет роботов сначала думать, а потом делать

Компания Google DeepMind представила две новые модели искусственного интеллекта (ИИ) для робототехники Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, которые совместно реализуют подход, при котором робот сначала «обдумывает» задачу и только потом выполняет действие. Технология основана на генеративных ИИ-системах и призвана преодолеть ограничения современных роботов, требующих длительной настройки под каждую конкретную задачу.

 Источник изображения: Google

Источник изображения: Google

Генеративные ИИ-системы, способные создавать текст, изображения, аудио и даже видео, становятся всё более распространёнными. Подобно тому, как такие модели генерируют указанные типы данных, они могут также выдавать последовательности действий для роботов. Именно на этом принципе построен проект Gemini Robotics от Google DeepMind, в рамках которого анонсированы две взаимодополняющие модели, позволяющие роботам «думать» перед тем, как действовать. Хотя традиционные большие языковые модели (LLM) имеют ряд ограничений, внедрение симулированного рассуждения значительно расширило их возможности, и теперь аналогичный прорыв может произойти в робототехнике.

Команда Google DeepMind считает, что генеративный ИИ способен кардинально изменить робототехнику, обеспечив роботам универсальную функциональность. В отличие от современных систем, которые требуют месяцев настройки под одну узкоспециализированную задачу и плохо адаптируются к новым условиям, новые ИИ-подходы позволяют роботам работать в незнакомых средах без перепрограммирования. Как отметила Каролина Парада (Carolina Parada), руководитель направления робототехники в DeepMind, роботы на сегодняшний день «чрезвычайно специализированы и сложны в развёртывании».

Для реализации концепции DeepMind разработала Gemini Robotics-ER 1.5 и Gemini Robotics 1.5. Первая — это модель «зрение–язык» (VLM) с функцией воплощённого рассуждения (embodied reasoning), которая анализирует визуальные и текстовые данные, формирует пошаговый план выполнения задачи и может подключать внешние инструменты, например, поиск Google для уточнения контекста. Вторая — модель «зрение–язык–действие» (VLA), которая преобразует полученные инструкции в физические действия робота, одновременно корректируя их на основе визуальной обратной связи и собственного процесса «обдумывания» каждого шага. По словам Канишки Рао (Kanishka Rao) из DeepMind, ключевым прорывом стало наделение робота способностью имитировать интуитивные рассуждения человека, то есть думать перед тем, как действовать.

Разработчики наглядно продемонстрировали, как работают новые модели — наделённый Gemini Robotics 1.5 человекоподобный робот Apollo на видео упаковывает вещи для поездки, а другой робот Aloha 2, точнее пара роборук — сортирует мусор.

Обе модели основаны на фундаментальной архитектуре Gemini, но дополнительно дообучены на данных, отражающих взаимодействие с физическим миром. Это позволяет роботам выполнять сложные многоэтапные задачи, приближая их к уровню автономных агентов. При этом система демонстрирует кроссплатформенную совместимость. В частности, навыки, внедрённые в одного робота, например, на двурукого Aloha 2, могут быть перенесены на другого, включая гуманоида Apollo, без дополнительной настройки под конкретную механику.

Несмотря на вероятный технологический прорыв, практическое применение технологии пока ограничено. Модель Gemini Robotics 1.5, отвечающая за управление роботами, доступна только доверенным тестировщикам. В то же время Gemini Robotics-ER 1.5 уже интегрирована в Google AI Studio, что даёт разработчикам возможность генерировать инструкции для собственных экспериментов с физически воплощёнными роботами. Однако, как считает Райан Уитвам (Ryan Whitwam) из Ars Technica, до появления бытовых роботов, способных выполнять повседневные задачи, ещё предстоит пройти значительный путь.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple не увидела проблемы в рекламе ИИ-функций Siri, которые так и не появились 52 мин.
TikTok в США продолжит приносить китайской ByteDance миллиарды даже после отделения 5 ч.
В Steam скоро можно будет попробовать Valor Mortis — гибрид Dark Souls и BioShock от создателей Ghostrunner 6 ч.
Перевод на русский, новая концовка и попутчики: ностальгическое дорожное приключение Keep Driving получило крупное обновление 7 ч.
Футбольная аркада Rematch от разработчиков Sifu стала временно бесплатной, но только в Steam 8 ч.
Геймплейный трейлер раскрыл дату релиза Possessor(s) — стильного боевика от авторов Hyper Light Drifter 9 ч.
Семь из десяти российских компаний не окупили инвестиции в ИИ 9 ч.
Meta запустила в Великобритании рекламную модель, которую ЕС признал незаконной 9 ч.
Хакеры взломали сотни сетевых устройств Cisco в правительстве США 9 ч.
Российский карточный боевик «Бессмертный. Сказки Старой Руси» взял курс на консоли — дата выхода и новый трейлер 10 ч.
Google создала и показала в деле ИИ, который заставляет роботов сначала думать, а потом делать 2 ч.
Asus отдаст видеокарту GeForce RTX 5090 ROG Astral с подписью Хуанга за лучший дизайн видеокарты 2 ч.
Новая статья: Обзор игрового 3D-монитора Samsung Odyssey 3D G90XF: полное погружение 3 ч.
Пожар в южнокорейском ЦОД привёл к отключения более 70 государственных онлайн-сервисов 3 ч.
На базе RISC-V в России пока активно развиваются только микроконтроллеры 4 ч.
Китай в прошлом году установил 300 000 промышленных роботов — больше, чем все остальные страны вместе 5 ч.
Xiaomi готовит новый процессор XRing для смартфонов, но за Apple гоняться пока не намерена 7 ч.
Qualcomm поделилась подробностями о процессоре Snapdragon 8 Gen 5 для доступных флагманов 8 ч.
Грядёт подорожание электроники — авария на крупном руднике взвинтила цены на медь 9 ч.
iPhone Air оказался почти никому не нужен в России 9 ч.