Сегодня 14 июня 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генерация видео
Быстрый переход

Google расширила доступ к ИИ-генератору Veo 3 через приложение Gemini

Всего несколько дней прошло с тех пор, как Google представила свой новый ИИ-генератор видео Veo 3, а он уже стал доступен пользователям из 71 страны. Опробовать новинку в деле смогут подписчики приложения Gemini из десятков стран, но на территории ЕС и в России сервис пока недоступен. Об этом в своём аккаунте в соцсети X сообщил глава Google Labs и Gemini Джош Вудворд (Josh Woodward).

 Источник изображения: Veo 3 / Google

Источник изображения: Veo 3 / Google

Согласно имеющимся данным, взаимодействовать с Veo 3 могут подписчики Gemini Pro, которые получат пробный пакет на 10 генераций видео через веб-интерфейс. На данном этапе пакет из десяти генераций является одноразовым, т.е. не будет обновлён после истечения какого-то периода времени. Обладатели подписки Ultra стоимостью $250 в месяц получат максимально разрешённое Google количество генераций, которые будут обновляться ежедневно. В режиме Flow, который ориентирован на создателей видеоконтента с помощью ИИ, подписчики Ultra смогу генерировать до 125 роликов в месяц, а подписчики Pro — до 10 роликов в месяц.

На данном этапе не обошлось без некоторых ограничений. ИИ-генератор Veo 3 работает только в веб-версии Gemini Pro и поддерживает генерацию звукового сопровождения только на английском языке, хотя в некоторых случаях может появляться речь на других языках. Несмотря на это и ограниченную доступность, у Veo 3 есть все шансы стать вирусной сенсацией Google в сфере ИИ. Интернет уже наводнили созданные с помощью этого сервиса ролики, показывающие, как сочетание видео и аудио устанавливает новый стандарт качества для контента, генерируемого с помощью ИИ.

Также отмечается, что Veo 3 с поразительной точностью следует подсказкам пользователей. Это повышает качество создаваемого контента, но в то же время позволяет генерировать фейковые видео, которые выглядят и звучат как настоящие. В одном из примеров пользователь сгенерировал видео с вымышленного автомобильного шоу, которое выглядит вполне реалистично.

Однако злоумышленники могут задействовать сервис для генерации видео с высказываниями политиков, массовыми протестами и какими-то другими ситуациями для манипулирования общественным мнением. Veo 3 подтверждает опасения по поводу значимой роли ИИ в распространении дезинформации и одновременно демонстрирует, насколько далеко продвинулись технологии. Ещё несколько лет назад создание качественного фейкового видео с заменой лица требовало многочасовой работы и наличия серьёзных технических навыков. Сегодня несколько строчек теста позволяют генерировать реалистичные сцены с естественным звуком. Всё это говорит о том, что людям следует тщательнее проверять подлинность просматриваемого контента, не принимая всё увиденное за действительность.

Смартфоны Honor 400 смогут анимировать фото с помощью ИИ-генератора от Google

Разработанный Google ИИ-генератор видео из статических изображений станет доступен владельцам новых смартфонов Honor. Согласно имеющимся данным, опробовать ИИ-генератор видео в деле первыми смогут владельцы мобильных устройств Honor 400 и 400 Pro, продажи которых стартуют 22 мая.

 Источник изображения: Steve Johnson / Unsplash

Источник изображения: Steve Johnson / Unsplash

Новый ИИ-инструмент построен на базе большой языковой модели Google Veo 2. Он может генерировать пятисекундные видеоролики из статических изображений в портретной или альбомной ориентации. На создание одного такого ролика алгоритму требуется 1-2 минуты. Эта функция будет доступна в «Галерее» на новых смартфонах Honor, и она будет достаточно простой. Пользователь не сможет дополнить исходное изображение текстовой подсказкой, поэтому результат работы ИИ-алгоритма может оказаться неожиданным.

В некоторых случаях ИИ-генератор видео работает достаточно хорошо, особенно, когда на снимке запечатлён простой объект, например, человек или животное. В таком случае движения на видео выглядят вполне реалистично. С более сложными объектами ИИ-генератор справляется не так хорошо. Например, женский футбольный матч он представил как игру с участием не менее 27 человек в трёх командах и с двумя судьями. При обработке портрета Винсента Ван Гога генератор решил, что будет уместным, если из глаза художника вылетит голубь.

Отмечается, что доступный в новых смартфонах Honor ИИ-алгоритм создаёт видео в формате MP4. В течение первых двух месяцев владельцы Honor 400 и 400 Pro смогут бесплатно пользоваться новой функцией, создавая до 10 видео в день.

Adobe обновила ИИ-генератор изображений Firefly и переработала его веб-приложение

Adobe объявила о запуске новой версии ИИ-модели Firefly для генерации изображений, а также алгоритма генерации векторной графики и обновлённого веб-приложения, в котором собраны все генеративные модели компании, а также некоторые нейросети конкурентов. В дополнение к этому разработчики продолжают трудиться над созданием мобильного приложения Firefly.

 Источник изображения: Rubaitul Azad / Unsplash

Источник изображения: Rubaitul Azad / Unsplash

Большая языковая модель Firefly Image Model 4, по данным Adobe, превосходит своих предшественниц по качеству генерируемых изображений, скорости обработки запросов и возможностям по настройке параметров создаваемого контента. Поддерживается генерация изображений с разрешением до 2K. Существует также более производительная версия алгоритма Image Model 4 Ultra, которая может создавать сложные сцены с множеством мелких структур и большим количеством деталей.

Представитель Adobe рассказал, что разработчики сделали новые ИИ-модели более производительными, чтобы они могли генерировать более детализированные изображения. Помимо прочего, более качественной стала генерация текста на изображениях, а также появилась возможность создавать несколько изображений в том же стиле, что и исходное.

Вместе с этим компания открыла доступ всем желающим к своему ИИ-генератору видео Firefly, бета-тестирование которого началось в прошлом году. Алгоритм позволяет создавать видео на основе текстового описания или изображения, менять ракурсы камеры, указывать начальный и конечный кадры, настраивать элементы стиля анимации и др. ИИ-модель может создавать ролики в формате 1080p.

ИИ-модель Firefly для создания векторной графики может генерировать пригодные для дальнейшего редактирования векторные иллюстрации, а также итерировать и генерировать варианты логотипов, паттернов и др. Доступ ко всем новым ИИ-моделям Adobe можно получить в обновлённом веб-приложении Firefly. Там также нашлось место генератору изображений GPT от OpenAI, моделям Imagen 3 и Veo 2 от Google, а также алгоритму Flux 1.1 Pro от Flux. Пользователи могут переключаться между этими алгоритмами по своему усмотрению.

Adobe также проводит публичное тестирование нового продукта под названием Firefly Boards, который представляет собой холст для творчеств и реализации идей. С его помощью можно генерировать или импортировать изображения, редактировать их, в том числе совместно с другими пользователями платформы. Firefly Boards также будет доступен в веб-приложении Firefly.

В дополнение к этому Adobe открыла доступ к API Text-to-Image и Avatar API, а также объявила о начале бета-тестирования API Text-to-Video. Получить доступ к этим и другим программным интерфейсам компании можно через платформу Firefly Services.

Платные пользователи Google Gemini получили доступ к ИИ-генератору кинематографических видео Veo 2

Google предложила подписчикам Gemini Advanced опробовать Veo 2 — свой генератор видео на базе искусственного интеллекта, который, по словам компании, способен на основе текстового описания создавать кинематографические ролики в высоком разрешении. Желающим испытать алгоритм достаточно выбрать его в списке доступных инструментов, после чего они смогут сгенерировать на основе текстовой подсказки 8-секундный ролик в разрешении 720p.

 Источник изображения: Google

Источник изображения: Google

Предложение Google предусматривает ограничение на количество роликов, создаваемых с помощью Veo 2. В компании не предоставили более подробной информации, отметив лишь, что пользователи получат соответствующее уведомление при приближении к лимиту. Также известно, что Veo 2 генерирует ролики в формате MP4, а пользователи мобильных устройств смогут сразу загружать созданный контент в TikTok или на YouTube с помощью кнопки «Поделиться».

По данным Google, обновлённая ИИ-модель «лучше понимает физику реального мира и движения человека», что позволяет ей передавать «плавные движения персонажей, реалистичные сцены и более тонкие визуальные детали в разных сюжетах и стилях». Генерируемые с помощью Veo 2 ролики дополняются цифровыми маркерами SynthID, которые указывают на то, что видео создано с использованием нейросети.

Одновременно Google открывает для подписчиков One AI Premium доступ к инструменту Whisk Animate, который использует Veo 2 для создания 8-секундных роликов на основе изображения. Функция Whisk Animate доступна подписчикам по всему миру через Google Labs.

Google представила Vertex AI Studio — набор ИИ-инструментов для создания готовых к публикации видео

Компания Google объявила о запуске Vertex AI Media Studio — набора ИИ-инструментов, с помощью которых пользователи могут создавать видео на основе текстового описания. Сервис построен на базе платформы Vertex AI и объединяет несколько передовых ИИ-моделей для реализации всех аспектов видеопроизводства, включая визуальные эффекты, озвучку и фоновую музыку, не требуя от пользователей навыков в редактировании видео или написании программного кода.

 Источник изображения: Steve Johnson/unsplash.com

Источник изображения: Steve Johnson/unsplash.com

Пользователям предлагается начать процесс работы с создания изображения с помощью ИИ-генератора Imagen 3. Затем полученное изображение можно превратить в видео с помощью алгоритма Veo 2, который также предлагает возможность настройки разных параметров. По данным Google, Veo позволяет выбрать тип движения камеры, например, съёмка с дрона или панорама, а также настроить частоту кадров и продолжительность ролика. Если алгоритм добавит в видео какие-то лишние элементы, их можно легко удалить с помощью инструмента Magic Eraser.

После завершения работы над визуальными эффектами пользователю предлагается задействовать ИИ-синтезатор голоса Chirp для создания закадровой озвучки. В завершающей стадии ИИ-модель Lyria, являющаяся совместным творением DeepMind и YouTube, поможет сгенерировать музыкальное сопровождение, которое будет служить фоном для пользовательского видео.

Теоретически в конце должно получиться готовое к публикации видео, которые не уступает профессиональному ни с точки зрения происходящего в кадре, ни с точки зрения озвучки. И всё это пользователь может создать в одном сервисе Vertex AI Studio, т.е. по сути том же сервисе, где разработчики тестируют новейшие версии ИИ-модели Gemini.

Google раскрыла цену генерации видео в Veo 2 — в 64 000 раз дешевле «Мстителей»

Компания Google без лишнего шума раскрыла стоимость использования своей новой генеративной нейросети Veo 2, которая предназначена для создания видео и была впервые анонсирована в декабре. Стоимость генерации видео с помощью ИИ-алгоритма составит $0,5 за секунду.

 Источник изображения: Google

Источник изображения: Google

Это означает, что минута сгенерированного с помощью Veo 2 видео будет стоить $30, а за час придётся заплатить $1800. В подразделении Google DeepMind, занимающемся разработками в сфере искусственного интеллекта, эти цифры сравнили с блокбастером Marvel «Мстители: Финал», производственный бюджет которого составил $356 млн, т.е. примерно $32 000 за секунду видео.

Конечно, пользователи Veo 2 не обязательно будут использовать каждую секунду сгенерированного алгоритмом видео, за которую они заплатят. Кроме того, в обозримом будущем нейросеть вряд ли сможет создать что-то подобное блокбастерам Marvel. В сообщении Google сказано, что алгоритм может генерировать видео продолжительностью более двух минут. Отметим, что OpenAI недавно сделала доступным свой ИИ-генератор видео Sora для подписчиков ChatGPT Pro, которые платят $200 в месяц.

В YouTube появился ИИ-генератор полноценных роликов по текстовому описанию — их можно будет публиковать в Shorts

На платформе YouTube появилась новая функция на основе искусственного интеллекта. Она предназначена для генерации небольших роликов, которые пользователи могут публиковать в Shorts. Речь идёт об инструменте YouTube Dream Screen, который построен на базе Google Veo 2. Эта функция и раньше позволяла генерировать ролики на основе текстового описания, но прежде пользователи могли лишь задействовать их в качестве фона.

 Источник изображения: Copilot

Источник изображения: Copilot

Теперь же созданные с помощью Dream Screen видео можно публиковать в своём аккаунте в Shorts. Чтобы опробовать новые возможности пользователю нужно активировать камеру в Shorts, запустить функцию Dream Screen, открыть панель выбора медиафайлов и нажать на кнопку «Создать». После этого можно ввести текстовое описание будущего ролика, а также выбрать один из доступных стилей, объективов, кинематографических эффектов и указать продолжительность видео.

По словам представителей YouTube, возможность публиковать сгенерированные ИИ ролики в Shorts на этой неделе появится у пользователей платформы из США, Канады, Австралии и Новой Зеландии. Позднее она также станет доступна в других странах, но более точные сроки озвучены не были.

Это обновление стало несколько неожиданным, учитывая, что последняя версия нейросети Google Veo всё ещё находится в раннем доступе. По данным YouTube, интеграция нейросети с функцией Dream Screen позволит быстрее генерировать более «детальные и реалистичные» видео с учётом физики реального мира и естественных движений людей. При этом созданные с помощью ИИ видео будут помечаться, как видимыми визуальными метками, так и невидимыми водяными знаками Google SynthID, указывающими на то, что ролик создан или изменён с помощью нейросети.

YouTube добавил в Shorts функцию Dream Screen — ИИ-генератор фонов для роликов

Администрация YouTube объявила, что в разделе коротких вертикальных роликов Shorts теперь доступна обновлённая функция Dream Screen — генерация динамических фоновых изображений с использованием искусственного интеллекта. Ранее функция Dream Screen позволяла генерировать в качестве фонов не видео, а неподвижные картинки.

 Источник изображения: YouTube

Источник изображения: YouTube

Новая возможность появилась благодаря интеграции модели для генерации видео Google DeepMind Veo — она позволяет создавать ролики с разрешением 1080p в разных кинематографических стилях. Чтобы запустить новую функцию, необходимо перейти в камеру Shorts, выбрать значок «Зелёный экран» и опцию Dream Screen — здесь можно ввести текстовый запрос, например, «пейзаж из конфет» или «волшебный лес и ручей»; после чего останется выбрать стиль анимации и нажать кнопку «Создать». Dream Screen создаст несколько видеофонов, из которых нужно выбрать один, после чего можно записывать видео с этим изображением позади себя.

Новая функция пригодится, например, чтобы погрузить зрителя в атмосферу любимой книги или подготовить анимированное вступление к основному ролику. В перспективе YouTube планирует предоставить авторам возможность создавать 6-секундные видеоролики, полностью сгенерированные Dream Screen. Крупнейшая в мире платформа коротких видео TikTok также поддерживает создание фоновых изображений с помощью ИИ, но эти картинки пока статические. Воспользоваться обновлённым вариантом Dream Screen могут пользователи YouTube из США, Канады, Австралии и Новой Зеландии.

Adobe интегрировала ИИ-генератор видео Firefly Video Model в редактор Premiere Pro

Компания Adobe официально представила новую генеративную нейросеть Firefly Video Model, которая предназначена для работы с видео и стала частью приложения Premiere Pro. С помощью этого инструмента пользователи смогут дополнять отснятый материал, а также создавать ролики на основе статичных изображений и текстовых подсказок.

 Источник изображений: Adobe

Источник изображений: Adobe

Функция Generative Extend на базе упомянутой нейросети в рамках бета-тестирования становится доступной пользователям Premiere Pro. Она позволит продлить видео на несколько секунд в начале, конце или каком-то другом отрезке ролика. Это может оказаться полезным, если в процессе монтажа нужно скорректировать мелкие недочёты, такие как смещение взгляда человека в кадре или лишние движения.

С помощью Generative Extend можно продлить ролик лишь на две секунды, поэтому он подходит только для внесения небольших изменений. Данный инструмент работает с разрешением 720p или 1080p с частотой 24 кадра в секунду. Функция также подходит для увеличения продолжительности аудио, но есть ограничения. Например, пользователь может продлить какой-либо звуковой эффект или окружающий шум до 10 секунд, но сделать это же с записями разговором или музыкальными композициями не удастся.

В веб-версии Firefly появились два новых инструмента генерации видео. Речь идёт о функциях Text-to-Video и Image-to-Video, которые, как можно понять из названия, позволяют создавать видео на основе текстовых подсказок и статических изображений. На данном этапе обе функции находятся на этапе ограниченного бета-тестирования, поэтому могут быть доступны не всем пользователям веб-версии Firefly.

Text-to-Video работает аналогично другим ИИ-генераторам видео, таким как Sora от OpenAI. Пользователю нужно ввести текстовое описание желаемого результата и запустить процесс генерации ролика. Поддерживается имитация разных стилей, а сгенерированные ролики можно доработать с помощью набора «элементов управления камерой», которые позволяют имитировать такие вещи, как угол наклона камеры, движение и менять расстояние съёмки.

Image-to-Video позволяет добавить к текстовому описанию статическое изображение, чтобы генерируемые ролики более точно соответствовали требованиям пользователя. Adobe предлагает использовать этот инструмент, в том числе, для пересъёмки отдельных фрагментов, генерируя новые видео на основе отдельных кадров из существующих роликов. Однако опубликованные примеры дают понять, что этот инструмент, по крайней мере на данном этапе, не позволит отказаться от пересъёмки, поскольку он не совсем точно воспроизводит все имеющиеся на изображении объекты. Ниже пример оригинального видео и ролика, сгенерированного на основе кадра из оригинала.

Снимать длинные ролики с помощью этих инструментов не получится, по крайней мере на данном этапе. Функции Text-to-Video и Image-to-Video позволяют создавать видео продолжительностью 5 секунд в качестве 720p с частотой 24 кадра в секунду. Для сравнения, OpenAI утверждает, что её ИИ-генератор Sora может создавать видео длиной до минуты «при сохранении визуального качества и соблюдении подсказок пользователя». Однако этот алгоритм всё ещё недоступен широкому кругу пользователей, несмотря на то, что с момента его анонса прошло несколько месяцев.

Для создания видео с помощью Text-to-Video, Image-to-Video и Generative Extend требуется около 90 секунд, но в Adobe сообщили о работе над «турборежимом» для сокращения времени генерации. В компании отметили, что созданные на основе Firefly Video Model инструменты «коммерчески безопасны», поскольку нейросеть обучается на контенте, который Adobe разрешено использовать.

MiniMax представила бесплатный ИИ-генератор video-1, который превращает текст в видео за 2 минуты

Китайский стартап MiniMax, работающий в сфере искусственного интеллекта, представил алгоритм video-1, который генерирует небольшие видеоклипы на основе текстовых подсказок. Генератор video-1 был представлен широкой публике на прошедшей несколько дней назад в Шанхае первой конференции разработчиков компании, а позднее стал доступен всем желающим на веб-сайте MiniMax.

 Источник изображения: scmp.com

Источник изображения: scmp.com

С помощью video-1 пользователь может на основе текстового описания создавать видеоролики продолжительностью до 6 секунд. Процесс создания такого ролика занимает около 2 минут. Основатель MiniMax Ян Цзюньцзе (Yan Junjie) рассказал на презентации, что video-1 является первой версией алгоритма генерации видео по текстовым подсказкам, отметив, что в будущем нейросеть сможет создавать ролики на основе статических изображений, а также позволит редактировать уже созданные клипы.

Появление video-1 отражает стремление китайских технологических компаний продвинуться в зарождающемся сегменте рынка ИИ. Генератор видео был представлен всего через несколько месяцев после анонса нейросети Sora компании OpenAI, которая также позволяет создавать видео по текстовым подсказкам. Что касается MiniMax, то компания была основана в декабре 2021 года и с тех пор она проделала немалую работу. Новый инструмент video-1 предлагается в рамках платформы MiniMax под названием Hailuo AI, которая ориентирована на потребительский рынок и уже предоставляет доступ к функциям генерации текстов и музыки с помощью нейросетей.

Помимо MiniMax, разработкой ИИ-алгоритмов для генерации видео из текста занимаются и другие китайские компании. Пекинский стартап Shengshu AI в июле запустил собственный генератор видео из текста на китайском или английском языках под названием Vidu. Стартап Zhipu AI стоимостью более $1 млрд в том же месяце представил свой аналог Sora, который может создавать небольшие видео на основе текстовых подсказок или статических изображений.

Владелец TikTok и Douyin, компания ByteDance, в прошлом месяце опубликовала в китайском App Store приложение Jimeng text-to-video для генерации видео из текста, а ещё ранее оно появилось в местных магазинах Android-приложений. Jimeng позволяет создать бесплатно 80 изображений или 26 видео, а для более активного взаимодействия с нейросетью предлагается оформить подписку за 69 юаней (около $10). В прошлом месяце компания Alibaba Group Holding объявила о разработке алгоритма для генерации видео под названием Tora, основанного на модели OpenSora.

Отметим, что среди инвесторов MiniMax есть крупные IT-компании, такие как Alibaba, Tencent Holdings и miHoYo (создатель Genshin Impact). Очередной раунд финансирования прошёл весной и после его завершения рыночная стоимость MiniMax оценивалась более чем в $2 млрд.

Stability AI представила генератор 4D-видео Stable Video 4D

На фоне популярности генеративных нейросетей уже доступно множество ИИ-алгоритмов для создания видео, таких как Sora, Haiper и Luma AI. Разработчики из Stability AI представили нечто совершенно новое. Речь идёт о нейросети Stable Video 4D, которая опирается на существующую модель Stable Video Diffusion, позволяющую преобразовывать изображения в видео. Новый инструмент развивает эту концепцию, создавая из получаемых видеоданных несколько роликов с 8 разными перспективами.

 Stable Diffusion 3

Stable Diffusion 3

«Мы считаем, что Stable Video 4D будет использоваться в кинопроизводстве, играх, AR/VR и других сферах, где присутствует необходимость просмотра динамически движущихся 3D-объектов с произвольных ракурсов», — считает глава подразделения по 3D-исследованиям в Stability AI Варун Джампани (Varun Jampani).

Это не первый случай, когда Stability AI выходит за пределы генерации двумерного видео. В марте компания анонсировала алгоритм Stable Video 3D, с помощью которого пользователи могут создавать короткие 3D-ролики на основе изображения или текстового описания. С запуском Stable Video 4D компания делает значительный шаг вперёд. Если понятие 3D или три измерения обычно понимается как тип изображения или видео с глубиной, то 4D, не добавляет ещё одно измерение. На самом деле 4D включает в себя ширину (x), высоту (y), глубину (z) и время (t). Это означает, что Stable Video 4D позволяет смотреть на движущиеся 3D-объекты с разных точек обзора и в разные моменты времени.

«Ключевые аспекты, которые позволили создать Stable Video 4D, заключаются в том, что мы объединили сильные стороны наших ранее выпущенных моделей Stable Video Diffusion и Stable Video 3D, а также доработали их с помощью тщательно подобранного набора данных динамически движущихся 3D-объектов», — пояснил Джампани. Он также добавил, что Stable Video 4D является первым в своём роде алгоритмом, в котором одна нейросеть выполняет синтез изображения и генерацию видео. В уже существующих аналогах для решения этих задач используются отдельные нейросети.

«Stable Video 4D полностью синтезирует восемь новых видео с нуля, используя для этого входное видео в качестве руководства. Нет никакой явной передачи информации о пикселях с входа на выход, вся эта передача информации осуществляется нейросетью неявно», — добавил Джампани. Он добавил, что на данный момент Stable Video 4D может обрабатывать видео с одним объектом длительностью несколько секунд с простым фоном. В дальнейшем разработчики планируют улучшить алгоритм, чтобы он мог использоваться для обработки более сложных видео.

«Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1

«Сбер» официально объявил о запуске бета-версии нейросети Kandinsky Video 1.1, которая способна создавать полноценные видео продолжительностью 6 секунд на основе текстового описания или статического изображения. Оценить возможности алгоритма можно на платформе fusionbrain.ai и в Telegram-боте Kandinsky.

 Источник изображения: fusionbrain.ai

Источник изображения: fusionbrain.ai

Нейросеть генерирует непрерывную сцену с движением объектов и фона продолжительностью до шести секунд на скорости 8 кадров в секунду или 32 кадра в секунду. Поддерживается генерация роликов в форматах 16:9, 9:16 и 1:1. Обновлённый алгоритм способен создавать ролики не только по текстовому описанию, но и на основе статического изображения. За счёт этого пользователи имеют больше возможностей для реализации своих творческих задумок. В дополнение к этому пользователь может контролировать динамику генерируемого видео путём изменения параметра «motion score».

«Сегодня мы сделали ещё один шаг в будущее видеотворчества. Теперь каждый пользователь Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. С момента запуска первой версии нейросети прошло менее года, и за это время наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива», — прокомментировал запуск нового алгоритма Андрей Белевцев, старший вице-президент, руководитель блока «Техническое развитие» Сбербанка.

Google представила ИИ Veo для создания реалистичных видео — Full HD и больше минуты

Около трёх месяцев прошло с тех пор как OpenAI представила генеративную нейросеть Sora, которая может создавать реалистичное видео по текстовому описанию. Теперь у Google есть чем ответить: в рамках конференции Google I/O была анонсирована нейросеть Veo. Алгоритм может генерировать «высококачественные» видеоролики с разрешением Full HD продолжительностью более минуты с применением разных визуальных и кинематографических стилей.

 Источник изображения: Google

Источник изображения: Google

В пресс-релизе Google сказано, что алгоритм Veo обладает «продвинутым пониманием естественного языка», что позволяет ИИ-модели понимать кинематографические термины, такие как «таймлапс» или «съёмка пейзажа с воздуха». Пользователи могут добиться желаемого результата с помощью не только текстовых подсказок, но также «скормить» ИИ изображения или видео, получая в конечном счёте «последовательные и целостные» ролики, в которых на протяжении всего времени движения людей, животных и объектов выглядят реалистично.

Генеральный директор ИИ-подразделения Google DeppMind Демис Хассабис (Demis Hassabis) заявил, что пользователи могут корректировать генерируемые ролики с помощью дополнительных подсказок. Кроме того, Google изучает возможность интеграции дополнительных функций, которые позволят Veo создавать раскадровки и более продолжительные видео.

Несмотря на сегодняшний анонс Veo, обычным пользователям придётся какое-то время подождать, прежде чем алгоритм станет общедоступным. На данном этапе Google приглашает к тестированию предварительной версии нейросети ограниченно количество создателей контента. Компания хочет поэкспериментировать с Veo, чтобы определить, каким образом следует осуществлять поддержку авторов контента и развивать сотрудничество с ними, давая творческим людям право голоса в разработке ИИ-технологий Google. Некоторые функций Veo в ближайшие несколько недель станут доступны ограниченному числу пользователей сервиса VideoFX, которые подадут заявки на участие в тестировании предварительной версии алгоритма. В будущем Google намерена также добавить некоторые функции Veo в YouTube Shorts.

Microsoft показала нейросеть, которая делает говорящие что угодно дипфейки по одному фото

За последние пару лет генеративные нейросети преодолели важный этап развития, став более мощными и способными создавать по текстовому описанию не только изображения, но и видео. Новый алгоритм VASA-1 от Microsoft, вероятно, сумеет удивить многих, поскольку для его работы вообще не нужно описание. Достаточно предоставить одно изображение человека и аудиодорожку, на основе которых нейросеть сгенерирует видео говорящего человека с широким спектром эмоций и естественной мимикой.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Результат работы VASA-1 выглядит очень естественно и правдоподобно. Всего из одного снимка лица и записи голоса алгоритм создаёт реалистичное видео, на котором запечатлённый на снимке человек буквально «оживает», а его мимика, движения губ и головы выглядят вполне натурально. Поскольку созданные с помощью VASA-1 видео с ходу сложно отличить от реальных, уже высказываются опасения по поводу того, что алгоритм может использоваться злоумышленниками для создания фейков.

Что касается самой нейросети, то главным её отличием от других подобных алгоритмов является наличие целостной модели генерации лицевой мимики и движений головы. Специалисты Microsoft провели обширную исследовательскую работу, включая оценку ряда новых метрик. В результате они установили, что новый алгоритм значительно превосходит представленные ранее аналоги по многим параметрам.

«Наш метод не только обеспечивает генерацию видео высокого качества с реалистичной мимикой лица и движениями головы, но также поддерживает функцию онлайн-генерации видео 512×512 точек с частотой 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора», — говорится в сообщении Microsoft.

Другими словами, нейросеть может создавать качественные фейковые видео на основе всего одного изображения. Поэтому не удивительно, что Microsoft называет VASA-1 «исследовательской демонстрацией» и не планирует выводить его на коммерческий рынок, по крайней мере, в ближайшее время.

OpenAI сделает ИИ-генератор видео Sora общедоступным позднее в этом году

В феврале OpenAI впервые продемонстрировала нейросеть Sora, способную генерировать реалистичные видео из текстовых описаний. Пока этот инструмент доступен лишь для художников, дизайнеров и кинематографистов. Сегодня технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что Sora станет доступна широкой публике «позднее в этом году». Мурати пообещала, что к способности Sora создавать видео добавится генерация звукового сопровождения, что сделает ролики ещё более реалистичными.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Сейчас OpenAI работает над возможностью редактирования контента в видеороликах Sora, поскольку инструменты искусственного интеллекта не всегда создают точные изображения. «Мы пытаемся выяснить, как использовать эту технологию в качестве инструмента, с помощью которого люди смогут редактировать медиаконтент», — рассказала Мурати.

Мурати уклонилась от ответа на вопрос, какие данные OpenAI использовала для обучения Sora. «Я не собираюсь вдаваться в подробности использованных данных, но это были общедоступные или лицензированные данные», — заявила она. Мурати не подтвердила и не опровергла использование видео с YouTube, Facebook и Instagram. Она отметила, что Sora использует контент фотохостинга Shutterstock, с которым у OpenAI заключено партнёрское соглашение.

Мурати рассказала, что на сегодняшний день Sora отличается от других моделей ИИ повышенными требованиями к вычислительным ресурсам. OpenAI работает над тем, чтобы сделать этот инструмент «доступным по той же цене», что и модель DALL-Eдля преобразования текста в изображение.

Опасения в обществе по поводу инструментов генеративного ИИ и их способности создавать дезинформацию усиливаются. По словам Мурати, Sora не сможет создавать изображения общественных деятелей, как и DALL-E. Видео от Sora также будут включать водяные знаки, но они не являются идеальной защитой и могут быть удалены из видео при помощи ИИ или традиционных технологий.


window-new
Soft
Hard
Тренды 🔥
Sony сдалась и вернула в продажу почти все свои игры в Steam для стран без поддержки PSN 2 ч.
Google начала тестировать ИИ-функцию, которая превращает результаты поиска в подкаст 3 ч.
YouTube может снизить скорость видео для пользователя при обнаружении блокировщиков рекламы 8 ч.
Meta переманила основателя Scale AI и получила 49 % акций стартапа за $14,3 млрд 8 ч.
Новая статья: Pipistrello and the Cursed Yoyo — замечательное приключение с ноткой ностальгии. Рецензия 13 ч.
Epic Games продолжает борьбу против читеров в Fortnite — студия подала в суд на разработчика и продавцов программ Sincey Cheats и Vanta Cheats 14 ч.
Чемоданный ИИ: в Китае придумали, как обучать модели на чипах Nvidia, которые нельзя ввезти в страну 15 ч.
«Хотим создать нечто действительно особенное»: Heroes of Might & Magic: Olden Era не выйдет в раннем доступе летом 15 ч.
Techland пообещала не бросать Dying Light 2 Stay Human из-за Dying Light: The Beast — у студии ещё «много очень и очень крутых идей» для игры 16 ч.
Несмотря на громкие провалы, Sony всё ещё нацелена на создание «разнообразных и устойчивых» игр-сервисов 19 ч.
Илон Маск призвал затопить МКС как можно скорее — станция слишком опасна, чтобы оставаться на орбите 60 мин.
Microsoft «по сути, отменила» разработку собственной портативной консоли 2 ч.
Китовые СЖО Antec перейдут на новую платформу Asetek, которая рассчитана на 400-Вт процессоры 2 ч.
Пятисотый успех: ракета SpaceX Falcon 9 выполнила юбилейную миссию 3 ч.
Samsung договорилась о поставках HBM3E для ускорителей AMD Instinct MI350 7 ч.
Micron вложит $200 млрд в производство чипов в США и создаст 90 тысяч рабочих мест 8 ч.
Oracle пообещала построить больше облачных ЦОД, чем все конкуренты вместе взятые 13 ч.
Робопсы Boston Dynamics станцевали в шоу «Америка ищет таланты» — один из них не справился с страхом сцены 13 ч.
И нашим, и вашим: Talen всё-таки поставит 1,92 ГВт энергии с АЭС дата-центрам AWS, но опосредованно 14 ч.
Закат эпохи DDR4: Micron объявила о прекращении выпуска устаревшей памяти 14 ч.