Опрошенные Financial Times эксперты сходятся во мнении, что если американские разработчики систем ИИ занимают лидирующие позиции в создании ассистентов для написания программного кода, то в сфере генерации видео по текстовому запросу на первых местах уже находятся китайские разработчики. Их инструменты лучше по качеству и удобству использования.
Источник изображения: ByteDance
Для обучения таких больших языковых моделей требуется больше количество видеоматериалов, и здесь китайские платформы с их обширной пользовательской базой получают определённое преимущество. Некоторые эксперты также склонны считать, что китайские разработчики нередко пренебрегают авторскими правами при обучении профильных моделей. С другой стороны, данные ограничения в итоге приводят к тому, что американские модели выдают менее реалистичные видео по итогам работы.
Основатель стартапа Director AI Бен Цзян (Ben Chiang), который производит при помощи ИИ-генераторов короткометражные мультфильмы и сериалы, отмечает прогресс китайских генераторов видео в качестве работы. В частности, они лучше понимают текстовые запросы, синхронизируют аудио и стабилизируют голоса персонажей. Независимый продюсер Георгий Размадзе (George Won) из Тбилиси отмечает, что китайские генераторы видео позволяют динамично менять угол съёмки, не теряя деталей освещения и чёткости лица персонажей, тогда как многие модели в такой ситуации грешат артефактами.
Независимая платформа Arena высоко оценивает ИИ-модели Kling, Seedance 2.0 и HappyHorse 1.0. Американская Veo 3 корпорации Google тоже близка к ним благодаря к доступу к родственному YouTube, но из-за ограничений в сфере авторских прав она не так хороша, как могла бы быть. Успех китайских ИИ-генераторов видео даже заставил компанию Kuaishou задуматься о том, чтобы отделить Kling в самостоятельный бизнес и вывести его на биржу. Послабления в сфере использования защищённого авторскими правами контента уже вызвали претензии к ByteDance со стороны создателей персонажей вселенной Marvel и мультипликационного сериала South Park. Китайской компании пришлось взять на себя обязательства по усилению защиты в этой сфере.
При этом китайскими генераторами видео проще пользоваться, поскольку они не натыкаются на многочисленные ограничения на этапе формирования текстового запроса и сталкиваются с ошибками. Впрочем, высокий спрос на услуги той же Seedance 2.0 в феврале этого года привёл к необходимости ограничить доступ к ИИ-модели и увеличить время ожидания для некоторых пользователей. Американским клиентам ByteDance приходится получать доступ к Seedance на особых условиях. В корпоративном сегменте им порой приходится авансом выложить до $2 млн. Впрочем, на рынке уже присутствуют инструменты для преодоления подобных барьеров. Поддержание инфраструктуры для генерации видео требует существенных затрат, поскольку они потребляют больше ресурсов, чем модели, работающие только со звуком или текстом. OpenAI на этом фоне в марте даже отказалась от развития своей модели Sora. При создании рекламных роликов ИИ уже используется в серьёзных масштабах, представители отрасли считают его очень удобным и выгодным инструментом — тем более, что качество контента уже достигло уровня, трудно отличимого от натурных съёмок. Одно из рекламных агентств призналось FT, что по запросу клиента создало 100 000 разных видео, чего традиционным способом сделать было бы крайне дорого.