Сегодня 24 апреля 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google представила нейросеть, которая генерирует HD-видео по текстовому описанию

Google рассказала о системе искусственного интеллекта Imagen Video, которая генерирует видео высокого разрешения (1280×768 пикселей, 24 кадра в секунду) по текстовому описанию. Однако из опасения, что модель будет генерировать неприемлемый контент, компания пока решила воздержаться от публикации исходных кодов проекта.

 Источник изображения: imagen.research.google

Источник изображения: imagen.research.google

В описании (PDF) решения Google отметила, что Imagen Video способна работать в заданной стилистике, имитируя, к примеру, манеры известных художников, создавать вращающиеся 3D-объекты с сохранением их формы или изображать текст в различных анимационных жанрах. Основу технологии составил «каскад» моделей, которые на основе текстового описания создают прототип ролика (16 кадров в разрешении 24×48 пикселей с частотой 3 кадра в секунду), который далее в несколько шагов преобразуется в видео высокого разрешения с более высокой частотой кадров. Конечное видео имеет длительность 5,3 секунды.

Представленные на сайте Imagen Video примеры включают и простые сцены вроде «Стекающего по стаканчику тающего фисташкового мороженого», и замысловатые сценарии, например, «Пролёт сквозь битву пиратских кораблей в бушующем океане». Изображения содержат очевидные артефакты, однако их детализация и плавность заметно выше, чем у существующих аналогов. Параллельно дебютировала ещё одна ИИ-модель от Google для генерации видео по текстовому описанию — Phenaki создаёт более длинные ролики.

В Google рассказали, что система Imagen Video была обучена на общедоступной базе LAION-400M, которая содержит «14 млн пар видео-текст и 60 млн пар картинка-текст». По версии компании, это «проблемные данные», и хотя специалисты попытались их отфильтровать, сохраняется вероятность, что модель будет генерировать неприемлемый контент, содержащий сцены деликатного характера, насилие, социальные стереотипы и культурные предубеждения. И «пока эти опасения не будут устранены», исходный код модели Imagen Video публиковать не станут.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft продолжает продлевать лицензии на ПО клиентам из России 26 мин.
Еженедельный чарт Steam: No Rest for the Wicked стартовала в тройке лидеров, а Dota 2 вплотную приблизилась к Counter-Strike 2 9 ч.
Олдскульный шутер Phantom Fury наконец вышел в Steam, но первые отзывы настораживают 10 ч.
Руководитель поиска Google призвал сотрудников «действовать быстрее», потому что «всё изменилось» 12 ч.
Приближали как могли: военная стратегия Men of War II выйдет в памятный для серии «В тылу врага» день 12 ч.
Стратегия Songs of Conquest в духе «Героев Меча и Магии» вырвется из раннего доступа уже совсем скоро — разработчики объявили дату выхода 14 ч.
Звезда GTA V пролил свет на отменённое дополнение про агента Тревора 14 ч.
«Лаборатория Касперского» выпустила обновлённое решение Kaspersky Symphony XDR 2.0 15 ч.
Нейросеть Adobe Firefly упростила работу с ИИ-инструментами в Photoshop 16 ч.
Apple купила ИИ-стартап Datakalab, который умеет сжимать нейросети для локальных устройств 16 ч.
Выручка Tesla упала на 9 %, максимально с 2012 года, но акции пошли в рост 28 мин.
В фирменном приложении Tesla появится функция вызова роботизированного такси 29 мин.
Tesla пообещала быстрее вывести на рынок новые модели электромобилей, но они будут не такими дешёвыми 4 ч.
Asus увеличила гарантию на консоли ROG Ally в ответ на массовые поломки кардридеров 8 ч.
Apple просчиталась с оценкой спроса на гарнитуру Vision Pro и вынуждена корректировать планы 8 ч.
Новая статья: Обзор смартфона Infinix NOTE 40: плоскость пассажира 8 ч.
LG начала выпуск двухрежимных OLED-панелей — они поддерживают 1080р/480 Гц и 4К/240 Гц 9 ч.
Смарт-очки Ray-Ban Meta получили поддержку видеосвязи, Apple Music и мультимодального ИИ 9 ч.
Учёные согнули беспроводной канал в терагерцовом диапазоне — слепых зон в 6G-сетях станет меньше 10 ч.
Razer представила флагманскую беспроводную мышь Viper V3 Pro с частотой опроса 8000 Гц 11 ч.