Сегодня 30 марта 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Hardware

Google создала и показала в деле ИИ, который заставляет роботов сначала думать, а потом делать

Компания Google DeepMind представила две новые модели искусственного интеллекта (ИИ) для робототехники Gemini Robotics 1.5 и Gemini Robotics-ER 1.5, которые совместно реализуют подход, при котором робот сначала «обдумывает» задачу и только потом выполняет действие. Технология основана на генеративных ИИ-системах и призвана преодолеть ограничения современных роботов, требующих длительной настройки под каждую конкретную задачу.

 Источник изображения: Google

Источник изображения: Google

Генеративные ИИ-системы, способные создавать текст, изображения, аудио и даже видео, становятся всё более распространёнными. Подобно тому, как такие модели генерируют указанные типы данных, они могут также выдавать последовательности действий для роботов. Именно на этом принципе построен проект Gemini Robotics от Google DeepMind, в рамках которого анонсированы две взаимодополняющие модели, позволяющие роботам «думать» перед тем, как действовать. Хотя традиционные большие языковые модели (LLM) имеют ряд ограничений, внедрение симулированного рассуждения значительно расширило их возможности, и теперь аналогичный прорыв может произойти в робототехнике.

Команда Google DeepMind считает, что генеративный ИИ способен кардинально изменить робототехнику, обеспечив роботам универсальную функциональность. В отличие от современных систем, которые требуют месяцев настройки под одну узкоспециализированную задачу и плохо адаптируются к новым условиям, новые ИИ-подходы позволяют роботам работать в незнакомых средах без перепрограммирования. Как отметила Каролина Парада (Carolina Parada), руководитель направления робототехники в DeepMind, роботы на сегодняшний день «чрезвычайно специализированы и сложны в развёртывании».

Для реализации концепции DeepMind разработала Gemini Robotics-ER 1.5 и Gemini Robotics 1.5. Первая — это модель «зрение–язык» (VLM) с функцией воплощённого рассуждения (embodied reasoning), которая анализирует визуальные и текстовые данные, формирует пошаговый план выполнения задачи и может подключать внешние инструменты, например, поиск Google для уточнения контекста. Вторая — модель «зрение–язык–действие» (VLA), которая преобразует полученные инструкции в физические действия робота, одновременно корректируя их на основе визуальной обратной связи и собственного процесса «обдумывания» каждого шага. По словам Канишки Рао (Kanishka Rao) из DeepMind, ключевым прорывом стало наделение робота способностью имитировать интуитивные рассуждения человека, то есть думать перед тем, как действовать.

Разработчики наглядно продемонстрировали, как работают новые модели — наделённый Gemini Robotics 1.5 человекоподобный робот Apollo на видео упаковывает вещи для поездки, а другой робот Aloha 2, точнее пара роборук — сортирует мусор.

Обе модели основаны на фундаментальной архитектуре Gemini, но дополнительно дообучены на данных, отражающих взаимодействие с физическим миром. Это позволяет роботам выполнять сложные многоэтапные задачи, приближая их к уровню автономных агентов. При этом система демонстрирует кроссплатформенную совместимость. В частности, навыки, внедрённые в одного робота, например, на двурукого Aloha 2, могут быть перенесены на другого, включая гуманоида Apollo, без дополнительной настройки под конкретную механику.

Несмотря на вероятный технологический прорыв, практическое применение технологии пока ограничено. Модель Gemini Robotics 1.5, отвечающая за управление роботами, доступна только доверенным тестировщикам. В то же время Gemini Robotics-ER 1.5 уже интегрирована в Google AI Studio, что даёт разработчикам возможность генерировать инструкции для собственных экспериментов с физически воплощёнными роботами. Однако, как считает Райан Уитвам (Ryan Whitwam) из Ars Technica, до появления бытовых роботов, способных выполнять повседневные задачи, ещё предстоит пройти значительный путь.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте 8 ч.
MSI XpertStation WS300 — рабочая станция для ИИ на базе NVIDIA GB300 12 ч.
«Кремниевая прерия»: Crusoe пристроит к ИИ ЦОД OpenAI Stargate ещё 900 МВт, но уже для Microsoft 13 ч.
ESA запустило на орбиту два спутника Celeste для тестирования новых технологий навигации 19 ч.
Цены на Intel Arrow Lake Refresh выросли выше рекомендованных через 48 часов после начала продаж 20 ч.
Котировки акций производителей DRAM стабилизировались после первичного влияния TurboQuant 23 ч.
Microsoft потратит $146 млрд на ИИ, но это напугало инвесторов и вызвало падение котировок акций на 25 % 29-03 05:33
Anthropic привлекла рекордное количество подписчиков после скандала с Минобороны США 29-03 05:27
NASA возмутило частников отказом от коммерческих орбитальных станций — миллиарды инвестиций под угрозой 28-03 18:27
Худшая неделя за год: техногиганты потеряли миллиарды капитализации из-за войны и проблем Meta 28-03 18:16