Сегодня 09 марта 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Google обяжут продать Chrome, но позволят инвестировать в искусственный интеллект 49 мин.
Новая статья: Like a Dragon: Pirate Yakuza in Hawaii — якудза в треуголке. Рецензия 3 ч.
В двух регионах РФ заблокировали Telegram — в Госдуме заверили, что на всю страну меры пока что не распространятся 4 ч.
ИИ-боты выяснили, кто из них лучше всех играет в «Мафию» — не обошлось без странностей 15 ч.
Microsoft создаст суверенный «рассуждающий» ИИ, который сможет потягаться с OpenAI и DeepSeek 15 ч.
«Нам потребуется больше времени»: поумневшая Siri задержится до 2026 года, подтвердила Apple 16 ч.
Сотрудник производителя DVD с фильмами продавал диски пиратам до релиза — теперь ему грозит 20 лет тюрьмы 18 ч.
Илону Маску предстоит дать показания по иску акционеров Twitter третьего апреля 20 ч.
Новая статья: Rift of the NecroDancer — дофаминовый разлом. Рецензия 08-03 00:04
В раннем доступе Steam вышла комедийная песочница про секретного агента в школе магии, которая выглядит как те самые игры по «Гарри Поттеру» 07-03 23:31
Первый ЦОД Stargate получит 64 тыс. ИИ-ускорителей NVIDIA GB200 к концу 2026 года 5 ч.
Lenovo представила серверы ThinkSystem SR630 V4 и SR650(a) V4 на базе Intel Xeon Granite Rapids-SP 6500P/6700P 5 ч.
QCT представила компактный edge-сервер QuantaEdge EGX88D-1U с 24 25GbE-портами на базе Intel Xeon Granite Rapids-D 6 ч.
AMD разыграет пять видеокарт Radeon RX 9070 XT — две из них подпишет Лиза Су 10 ч.
Названа дата «спасения» застрявших на МКС астронавтов NASA 13 ч.
Британским провайдерам предложили тянуть «оптику» по заброшенным газовым трубам и водопроводам 18 ч.
Apple увернулась от запрета на поставки умных часов Watch в США по патентному иску AliveCor 21 ч.
Google отключилась от российских IX и ЦОД, но о полном уходе из страны речи нет 08-03 02:05
В Ростове-на-Дону запустили завод электроники, который сможет выпускать до 500 тысяч изделий в год 08-03 00:34
Зонд Intuitive Machines опрокинулся при посадке на Луну — это становится недоброй традицией 07-03 22:03