Сегодня 22 ноября 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Приключение Hela про храброго мышонка в открытом мире получит кооператив на четверых — геймплейный трейлер новой игры от экс-разработчиков Unravel 36 мин.
OpenAI случайно удалила потенциальные улики по иску об авторских правах 2 ч.
Скрытые возможности Microsoft Bing Wallpaper напугали пользователей 2 ч.
В WhatsApp появилась расшифровка голосовых сообщений — она бесплатна и поддерживает русский язык 3 ч.
Новая игра создателей The Invincible отправит в сердце ада выживать и спасать жизни — первый трейлер и подробности Dante’s Ring 4 ч.
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 5 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 5 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 6 ч.
Apple готовит более разговорчивую Siri — она выйдет с iOS 19 7 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 13 ч.
В Зеленограде начнут выпускать чипы для SIM-карт и паспортов — на этом планируется заработать триллионы рублей 4 мин.
В России стартовали продажи полностью беспроводных наушников Tecno True 1 Air, Buds 4 и Buds 4 Air 2 ч.
Одна из структур Минпромторга закупит ИИ-серверы на 665 млн рублей 2 ч.
Kioxia подала заявку на IPO — третьего крупнейшего производителя флеш-памяти оценили всего в $4,85 млрд 3 ч.
«Джеймс Уэбб» первым в истории нашёл «зигзаг Эйнштейна» — уникальное искривление пространства-времени 3 ч.
Второй электромобиль Xiaomi выйдет через год после первого и будет заметно от него отличаться 4 ч.
Oracle объявила о доступности облачного ИИ-суперкомпьютера на базе NVIDIA H200 4 ч.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 5 ч.
Google снова уходит с рынка планшетов, сворачивая разработку Pixel Tablet 2 6 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 14 ч.