Сегодня 27 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

NVIDIA представила ИИ, который генерирует видео с высоким разрешением по текстовому описанию

NVIDIA представила свою ИИ-модель для превращения текста в видео под названием VideoLDM, разработанную в сотрудничестве с исследователями из Корнельского университета. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 кадра и длительностью до 4,7 секунд на основе текстового описания.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

В основе модели лежат наработки нейросети Stable Diffusion. Решение NVIDIA имеет до 4,1 млрд параметров, но только 2,7 млрд из них использовали видео для тренировки. Это весьма скромно по меркам современных ИИ. Тем не менее, с помощью эффективного подхода к модели скрытой диффузии (LDM — Latent diffusion model) разработчики смогли создавать разнообразные и согласованные во времени видео высокого разрешения с весьма высоким качеством.

Исследователи выделяют следующие особенности данной модели: генерацию персонализированного видео и свёрточный синтез во времени. Временные слои, которые были обучены в VideoLDM для превращения текста в видео, вставляются в опорные сети LDM изображений, которые заранее точно настроены в наборе изображений DreamBooth. Временные слои обобщаются контрольными точками DreamBooth, что позволяет персонализировать преобразование текста в видео. Применяя изученные временные слои сверточно во времени, можно получить клипы чуть большей продолжительности с незначительным ухудшением качества.

Модель также способна генерировать видео сцен вождения. Видеоролики имеют разрешение 1024 × 512 точек и длительностью до 5 минут. Есть возможность моделирования конкретного сценария вождения, когда за основу берутся ограничивающие рамки для создания интересующей обстановки, синтезируется соответствующий начальный кадр, а затем создаются правдоподобные видеоролики. Помимо этого, модель может сделать мультимодальное прогнозирование сценариев движения, сгенерировав несколько правдоподобных развертываний на основе одного начального кадра.

Данная исследовательская работа является участником Конференции по машинному зрению и распознаванию образов, которая проходит в Ванкувере с 18 по 22 июня. Пока что представленная нейросеть является лишь исследовательским проектом и не ясно, когда что-то подобное NVIDIA выпустит в открытый доступ.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Анонсирован VR-хоррор Alien: Rogue Incursion, который полностью погрузит игроков в ужасы вселенной «Чужого» 2 ч.
Российская пошаговая тактика «Спарта 2035» про элитных наёмников в Африке получила первый геймплей — демоверсия не выйдет 30 апреля 3 ч.
Власти США позвали Сэма Альтмана, Дженсена Хуанга и Сатью Наделлу помочь им с защитой от ИИ 4 ч.
«В команде явно продали души дьяволу»: игроков впечатлила работа Biomutant на Nintendo Switch, но производительность требует жертв 5 ч.
Microsoft открыла исходный код MS-DOS 4.00 и разместила его на GitHub 5 ч.
Большинство россиян не видит угрозы в ИИ 5 ч.
Китайские клавиатурные приложения Honor, Oppo, Samsung, Vivo и Xiaomi оказались уязвимы перед слежкой 6 ч.
Alphabet удалось развеять опасения по поводу отставания в области ИИ 7 ч.
GSC Game World показала новый трейлер и скриншоты S.T.A.L.K.E.R. 2: Heart of Chornobyl 8 ч.
Рекламные доходы YouTube в первом квартале выросли на 21 % до $8,1 млрд 9 ч.
Новая статья: Обзор QD-OLED DQHD-монитора Samsung Odyssey OLED G9 G95SC: игровой универсал 46 мин.
ESA опубликовало снимки Марса с «жуткими пауками в городе инков» 58 мин.
Видеокарты MSI семейства Radeon RX пропадают с прилавков — компания «сместила фокус» на GeForce RTX 3 ч.
TSMC научилась создавать монструозные двухэтажные процессоры размером с пластину 4 ч.
Федеральное расследование аварий с автопилотом Tesla нашло их причину — «неправильное использование» 5 ч.
Oppo представила смартфон A60 с Snapdragon 680 и 50-Мп камерой 5 ч.
Япония ужесточит контроль экспорта полупроводников и квантовых технологий куда бы то ни было 5 ч.
Hisense представила ультракороткофокусный лазерный 4K-проектор PX3-PRO для геймеров и киноманов 5 ч.
Intel пожаловалась на производственные проблемы при сборке Core Ultra — из-за этого процессоров не хватает 7 ч.
Великобритания и Новая Зеландия задействуют подводные оптические кабели для распознавания землетрясений и цунами 7 ч.