Runway представила свою первую ИИ-модель мира и добавила звук в генератор видео
Читать в полной версииКомпания Runway, которая ранее выпускала генераторы изображений и видео, представила модель искусственного интеллекта для генерации виртуальных миров, получившую название GWM-1. Она работает за счёт покадрового прогнозирования, создаёт симуляции с пониманием физики и того, как ведёт себя мир с течением времени.
Источник изображений: Runway
Модель мира — это система ИИ, изучающая внутренние симуляции с процессами, которые могут происходить в мире. Она может рассуждать, планировать и осуществлять действия без необходимости в обучении на каждом возможном сценарии в реальной жизни. «Чтобы создать модель мира, нам сначала нужно было разработать по-настоящему качественную модель видео. Мы считаем, что правильный путь к созданию моделей мира — их обучение предсказывать пиксели напрямую, и это лучший способ добиться универсального моделирования. При достаточном масштабе и с правильными данными можно создать модель, которая достаточно хорошо понимает, как работает мир», — рассказал гендиректор Runway Анастасис Германидис (Anastasis Germanidis).
Компания представила три версии новой модели мира: GWM-Worlds, GWM-Robotics и GWM-Avatars. GWM-Worlds — приложение, позволяющее создавать интерактивные проекты. Пользователь задаёт первоначальную сцену по текстовому запросу или образцу на изображении, и по мере исследования пространства модель генерирует мир с учётом геометрии, физики и освещения. Моделирование осуществляется с разрешением 720p и скоростью 24 кадра в секунду. GWM-Worlds может пригодиться в разработке игр, она также подходит для обучения навигационных агентов и агентов действия в реальном мире. GWM-Robotics предназначается для генерации синтетических данных, обогащаемых новыми параметрами, такими как изменения погодных условий или возникновение препятствий. Этот метод поможет выявить, когда и при каких условиях роботы способны нарушать правила с учётом различных сценариев. GWM-Avatars предназначается для создания реалистичных аватаров и имитации человеческого поведения. Сейчас Worlds, Robotics и Avatars работают как отдельные модели, но Runway планирует их объединить.
Компания также сообщила об обновлении своей базовой модели Gen 4.5 — она научилась генерировать встроенный звук и создавать длинные многокадровые ролики. Это могут быть одноминутные клипы с согласованностью персонажей, встроенными диалогами, фоновым звуком и сложными кадрами с разных ракурсов. Можно также редактировать существующий звуковой ряд, добавлять диалоги и изменять многокадровые видеоролики любой длины. Работать с генератором видео Runway Gen 4.5 могут все пользователи платных тарифных планов. GWM-Robotics будет доступна через SDK; ведутся переговоры с партнёрами об интеграции GWM-Robotics и GWM-Avatars для создателей робототехники и других предприятий.