«Сбер» в рамках технологической конференции GigaConf анонсировал генеративную нейросеть Kandinsky 4.1 Video, которая позволяет создавать 10-секундные видео в формате HD по текстовому описанию или изображению. На данный момент опробовать новый алгоритм уже смогли участники конференции и профессиональные дизайнеры.
Источник изображения: Steve Johnson / Unsplash
«Kandinsky 4.1 Video обеспечивает качественно новый уровень генеративного видео. Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента», — рассказал старший вице-президент «Сбербанка» Андрей Белевцев.
Согласно имеющимся данным, Kandinsky 4.1 Video генерирует видеоряд продолжительностью до 10 секунд в разрешении SD (720×576 пикселей) или HD (1280×720 пикселей). Разработчики дообучили новую архитектуру диффузионного трансформера на данных, подготовленных более чем 100 профессиональными фотографами и художниками. Особое внимание уделялось оптимизации вычислительных процессов. За счёт применения методов дистилляции и ускорения удалось более чем втрое сократить время генерации по сравнению с моделью предыдущего поколения.
Kandinsky 1.4 Video поддерживает создание роликов с произвольным соотношением сторон, за счёт чего генерируемый контент можно адаптировать под разные платформы и маркетинговые задачи. Для всех желающих новая версия алгоритма станет доступна в ближайшее время.