Сегодня 07 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
К 2030 году консольные игры оставят компьютерные далеко позади, но в лидерах будут мобильные игры 4 ч.
Робокоп возвращается в сюжетном аддоне Unfinished Business для RoboCop: Rogue City — подробности и первый геймплей 5 ч.
Два героя, стелс, открытый бой: Ubisoft показала 20 минут геймплея Assassin’s Creed Shadows 6 ч.
Будущее TikTok в США всё ещё под вопросом: переговоры с потенциальными покупателями так и не начались 7 ч.
Симулятор официанта The Way of the Tray перенесёт игроков в мир японских духов, вдохновлённый аниме студии Ghibli 7 ч.
AMD выпустила драйвер с поддержкой Radeon RX 9070/RX 9070 XT, FSR 4 и генератором кадров AFMF 2.1 8 ч.
Олды тут? Sony обновила прошивку PlayStation 3, несмотря на то, что устройству почти 20 лет 8 ч.
Split Fiction стала самой высокооценённой игрой Electronic Arts на Metacritic со времён Mass Effect 3 — она вышла 13 лет назад 8 ч.
«Сургуч» для ЭЦП: в ОС «Альт появилось новое приложение для упрощения ЭДО 9 ч.
Поддержка модов, цирюльник и более тысячи улучшений: разработчики Kingdom Come: Deliverance 2 подтвердили дату выхода первого большого обновления 10 ч.
Новая статья: Обзор и тестирование корпуса Ocypus Iota C70 BK: «аквариумы» нынче в моде 2 ч.
Новая статья: Обзор игрового 4K IPS-монитора Digma Pro Action M c Mini-LED: с каждого по зёрнышку 3 ч.
Бракованные GPU могли просочиться в ноутбуки с графикой GeForce RTX 50 — теперь они не выйдут в срок 4 ч.
Аппарат «Афина» компании Intuitive Machines спустился на Луну, но как именно — загадка 6 ч.
Google раскрыла детали уязвимости в процессорах AMD и опубликовала инструментарий для анализа и изменения их микрокода 6 ч.
Brother настаивает, что её принтеры не теряли совместимости со сторонними расходниками и обещает «устранить источник лжи» 8 ч.
Китай запустит программу господдержки разработки и внедрения чипов RISC-V 9 ч.
По итогам февраля Snapdragon 8 Elite вернул лидерство в тесте AnTuTu благодаря OnePlus Ace 5 Pro 10 ч.
Compal и Kalyani Group займутся совместным выпуском серверов в Индии 10 ч.
Nebius построит 300-МВт ИИ ЦОД в Нью-Джерси и разместит оборудование в Исландии 11 ч.