Нейросеть «Яндекса» научилась генерировать короткие видео в «Шедевруме»

28.08.2023 13:26, Андрей Крупин

Команда разработчиков «Яндекса» сообщила о расширении возможностей мобильного приложения «Шедеврум» и реализации в программе функции создания коротких видеороликов с помощью генеративной нейросети. Утверждается, что компания стала первой на российском рынке, предложившей подобную технологию широкой аудитории.

HUAWEI Pura 80 Ultra глазами фотографа

Обзор смартфона HUAWEI Pura 80 Ultra: зум, которому нет равных

Первый взгляд на смартфон HUAWEI Pura 80 Ultra

Пять причин полюбить HONOR 400

Обзор смартфона HONOR 400: реаниматор

HUAWEI nova Y73: самый недорогой смартфон с кремний-углеродной батареей

Обзор HUAWEI MatePad Pro 12.2’’ (2025): обновление планшета с лучшим экраном

Обзор смартфона HUAWEI nova Y63: еще раз в ту же реку

Обзор ноутбука HONOR MagicBook Pro 14 (FMB-P) на платформе Core Ultra второго поколения

Пять причин полюбить ноутбук HONOR MagicBook Pro 14

Источник анимации: «Яндекс»

Для того, чтобы сгенерировать видео в «Шедевруме», достаточно описать текстом то, что хочется увидеть. В ответ приложение предложит четыре варианта первого кадра и набор анимационных эффектов для создания движения. Всего доступно семь эффектов: зум (приближение), таймлапс (ускоренная перемотка), полёт, панорама, вращение, подъём и морфинг (постепенное изменение). Для создания кадров будущего видео используется метод каскадной диффузии. С помощью этой технологии «Шедеврум» генерирует отдельные изображения. Сначала нейросеть создаёт картинки в соответствии с запросом, а затем поэтапно увеличивает их разрешение, насыщая деталями.

«Шедеврум» генерирует видео длиной четыре секунды с частотой 24 кадра в секунду. После публикации ими можно поделиться с друзьями или сохранить в формате MP4. В настоящий момент функция работает в режиме тестирования и доступна в обновлённой версии приложения активным пользователям «Шедеврума».

«Яндекс» представил «Шедеврум» для Android и iOS в апреле 2023 года. В основу программы положена нейронная сеть, содержащая 5 миллиардов параметров и обученная на 330 миллионах примеров изображений с текстовым описанием. В планах разработчика — обучение нейросети новым знаниям и её внедрение в другие сервисы и продукты компании.