Компания Stability AI представила генеративную модель искусственного интеллекта Stable Video Diffusion, предназначенную для создания видеороликов по текстовому описанию. В её основу легла модель Stable Diffusion, которая генерирует статические изображения на основе текстовых запросов.
Исходный код Stable Video Diffusion разработчик опубликовал на GitHub, а необходимые для локального запуска модели веса доступны для скачивания на платформе Hugging Face. Компания также опубликовала исследовательский материал, в котором подробно изложила информацию о технических возможностях модели. Stable Video Diffusion свободно адаптируется для различных задач, например, её можно настроить для генерации видео по одному изображению в качестве образца. Она станет базовой платформой для целого семейства производных моделей, которые будут выходить позже — компания намеревается выстроить целую экосистему.
В обозримом будущем Stability AI предложит возможность генерировать видео по текстовому описанию в веб-интерфейсе — чтобы оказаться в числе первых пользователей сервиса, нужно оформить заявку на включение в список ожидания. Stable Video Diffusion выпущена в виде двух моделей преобразования изображений в видео — они генерируют 14 (SVD) и 25 (SVD-XT) кадров видео с настраиваемой частотой от 3 до 30 кадров в секунду.
Сейчас проект находится на ранней стадии, и в своём теперешнем виде модель не предназначается для создания полнофункциональных или коммерческих приложений — пока это исключительно научный проект, о работе которого собираются отзывы. В будущем, конечно, планируется выпуск полной версии Stable Video Diffusion.