Сегодня 16 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генерация видео

MiniMax представила бесплатный ИИ-генератор video-1, который превращает текст в видео за 2 минуты

Китайский стартап MiniMax, работающий в сфере искусственного интеллекта, представил алгоритм video-1, который генерирует небольшие видеоклипы на основе текстовых подсказок. Генератор video-1 был представлен широкой публике на прошедшей несколько дней назад в Шанхае первой конференции разработчиков компании, а позднее стал доступен всем желающим на веб-сайте MiniMax.

 Источник изображения: scmp.com

Источник изображения: scmp.com

С помощью video-1 пользователь может на основе текстового описания создавать видеоролики продолжительностью до 6 секунд. Процесс создания такого ролика занимает около 2 минут. Основатель MiniMax Ян Цзюньцзе (Yan Junjie) рассказал на презентации, что video-1 является первой версией алгоритма генерации видео по текстовым подсказкам, отметив, что в будущем нейросеть сможет создавать ролики на основе статических изображений, а также позволит редактировать уже созданные клипы.

Появление video-1 отражает стремление китайских технологических компаний продвинуться в зарождающемся сегменте рынка ИИ. Генератор видео был представлен всего через несколько месяцев после анонса нейросети Sora компании OpenAI, которая также позволяет создавать видео по текстовым подсказкам. Что касается MiniMax, то компания была основана в декабре 2021 года и с тех пор она проделала немалую работу. Новый инструмент video-1 предлагается в рамках платформы MiniMax под названием Hailuo AI, которая ориентирована на потребительский рынок и уже предоставляет доступ к функциям генерации текстов и музыки с помощью нейросетей.

Помимо MiniMax, разработкой ИИ-алгоритмов для генерации видео из текста занимаются и другие китайские компании. Пекинский стартап Shengshu AI в июле запустил собственный генератор видео из текста на китайском или английском языках под названием Vidu. Стартап Zhipu AI стоимостью более $1 млрд в том же месяце представил свой аналог Sora, который может создавать небольшие видео на основе текстовых подсказок или статических изображений.

Владелец TikTok и Douyin, компания ByteDance, в прошлом месяце опубликовала в китайском App Store приложение Jimeng text-to-video для генерации видео из текста, а ещё ранее оно появилось в местных магазинах Android-приложений. Jimeng позволяет создать бесплатно 80 изображений или 26 видео, а для более активного взаимодействия с нейросетью предлагается оформить подписку за 69 юаней (около $10). В прошлом месяце компания Alibaba Group Holding объявила о разработке алгоритма для генерации видео под названием Tora, основанного на модели OpenSora.

Отметим, что среди инвесторов MiniMax есть крупные IT-компании, такие как Alibaba, Tencent Holdings и miHoYo (создатель Genshin Impact). Очередной раунд финансирования прошёл весной и после его завершения рыночная стоимость MiniMax оценивалась более чем в $2 млрд.

Stability AI представила генератор 4D-видео Stable Video 4D

На фоне популярности генеративных нейросетей уже доступно множество ИИ-алгоритмов для создания видео, таких как Sora, Haiper и Luma AI. Разработчики из Stability AI представили нечто совершенно новое. Речь идёт о нейросети Stable Video 4D, которая опирается на существующую модель Stable Video Diffusion, позволяющую преобразовывать изображения в видео. Новый инструмент развивает эту концепцию, создавая из получаемых видеоданных несколько роликов с 8 разными перспективами.

 Stable Diffusion 3

Stable Diffusion 3

«Мы считаем, что Stable Video 4D будет использоваться в кинопроизводстве, играх, AR/VR и других сферах, где присутствует необходимость просмотра динамически движущихся 3D-объектов с произвольных ракурсов», — считает глава подразделения по 3D-исследованиям в Stability AI Варун Джампани (Varun Jampani).

Это не первый случай, когда Stability AI выходит за пределы генерации двумерного видео. В марте компания анонсировала алгоритм Stable Video 3D, с помощью которого пользователи могут создавать короткие 3D-ролики на основе изображения или текстового описания. С запуском Stable Video 4D компания делает значительный шаг вперёд. Если понятие 3D или три измерения обычно понимается как тип изображения или видео с глубиной, то 4D, не добавляет ещё одно измерение. На самом деле 4D включает в себя ширину (x), высоту (y), глубину (z) и время (t). Это означает, что Stable Video 4D позволяет смотреть на движущиеся 3D-объекты с разных точек обзора и в разные моменты времени.

«Ключевые аспекты, которые позволили создать Stable Video 4D, заключаются в том, что мы объединили сильные стороны наших ранее выпущенных моделей Stable Video Diffusion и Stable Video 3D, а также доработали их с помощью тщательно подобранного набора данных динамически движущихся 3D-объектов», — пояснил Джампани. Он также добавил, что Stable Video 4D является первым в своём роде алгоритмом, в котором одна нейросеть выполняет синтез изображения и генерацию видео. В уже существующих аналогах для решения этих задач используются отдельные нейросети.

«Stable Video 4D полностью синтезирует восемь новых видео с нуля, используя для этого входное видео в качестве руководства. Нет никакой явной передачи информации о пикселях с входа на выход, вся эта передача информации осуществляется нейросетью неявно», — добавил Джампани. Он добавил, что на данный момент Stable Video 4D может обрабатывать видео с одним объектом длительностью несколько секунд с простым фоном. В дальнейшем разработчики планируют улучшить алгоритм, чтобы он мог использоваться для обработки более сложных видео.

«Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1

«Сбер» официально объявил о запуске бета-версии нейросети Kandinsky Video 1.1, которая способна создавать полноценные видео продолжительностью 6 секунд на основе текстового описания или статического изображения. Оценить возможности алгоритма можно на платформе fusionbrain.ai и в Telegram-боте Kandinsky.

 Источник изображения: fusionbrain.ai

Источник изображения: fusionbrain.ai

Нейросеть генерирует непрерывную сцену с движением объектов и фона продолжительностью до шести секунд на скорости 8 кадров в секунду или 32 кадра в секунду. Поддерживается генерация роликов в форматах 16:9, 9:16 и 1:1. Обновлённый алгоритм способен создавать ролики не только по текстовому описанию, но и на основе статического изображения. За счёт этого пользователи имеют больше возможностей для реализации своих творческих задумок. В дополнение к этому пользователь может контролировать динамику генерируемого видео путём изменения параметра «motion score».

«Сегодня мы сделали ещё один шаг в будущее видеотворчества. Теперь каждый пользователь Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. С момента запуска первой версии нейросети прошло менее года, и за это время наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива», — прокомментировал запуск нового алгоритма Андрей Белевцев, старший вице-президент, руководитель блока «Техническое развитие» Сбербанка.


window-new
Soft
Hard
Тренды 🔥
Новая статья: Mixtape — воспоминания никто не отнимет. Рецензия 8 ч.
Google начнёт наказывать сайты за накрутку попаданий в ИИ-ответы 9 ч.
Московский суд оштрафовал владельца Deus Ex, Metro и Kingdom Come: Deliverance за отказ локализовать данные россиян 10 ч.
Спринт, торговля и продолжение сюжета: разработчики Subnautica 2 раскрыли план улучшения игры на ближайшие месяцы 13 ч.
ChatGPT получит прямой доступ к банковским счетам пользователей — для анализа расходов и финансовых советов 13 ч.
Трамп и Си Цзиньпин обсудили ограничения слишком умного ИИ и зависшие поставки Nvidia H200 13 ч.
Microsoft намерена избавить Windows 11 от главной причины «синих экранов» 13 ч.
Доминирование ChatGPT пошатнулось — Gemini и Perplexity быстро набирают обороты 14 ч.
Pragmata стала новой жертвой пиратов — игру взломали без гипервизора 14 ч.
YouTube Shorts набрали популярность на смарт-телевизорах — 2 млрд часов просмотра за месяц 15 ч.
DJI анонсировала в Каннах карманную кинокамеру Osmo Pocket 4P 8 ч.
OpenAI перестраивается вокруг ИИ-агентов в рамках подготовки к IPO — ChatGPT и Codex объединят в единую платформу 8 ч.
Зонд Mars Express показал «хаос и кратеры», образовавшиеся в результате древних наводнений на Марсе 8 ч.
Asus и T1 выпустили лимитированные GeForce RTX для фанатов League of Legends 10 ч.
Thermal Grizzly начала продавать скальпированные Core Ultra 7 270K Plus за $525 10 ч.
Alibaba Cloud потребуется в 10 раз больше вычислительных мощностей, чем в 2022 году, а Tencent научилась обходиться малым 13 ч.
В ближайший годы четыре из пяти премиум-смартфонов нашпигуют ИИ 13 ч.
Учёные создали робота-медузу без батареи — он плавает быстрее всех аналогов и сможет лечить людей изнутри 14 ч.
Уж лучше АЭС за домом, чем ЦОД: американцам разонравились дата-центры 14 ч.
Доля контрафактных комплектующих для зарубежного инфраструктурного оборудования в России приблизилась к 20 % 15 ч.