Сегодня 30 мая 2024
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → генерация видео

«Сбер» открыла для всех ИИ-генератор 6-секундных видео Kandinsky Video 1.1

«Сбер» официально объявил о запуске бета-версии нейросети Kandinsky Video 1.1, которая способна создавать полноценные видео продолжительностью 6 секунд на основе текстового описания или статического изображения. Оценить возможности алгоритма можно на платформе fusionbrain.ai и в Telegram-боте Kandinsky.

 Источник изображения: fusionbrain.ai

Источник изображения: fusionbrain.ai

Нейросеть генерирует непрерывную сцену с движением объектов и фона продолжительностью до шести секунд на скорости 8 кадров в секунду или 32 кадра в секунду. Поддерживается генерация роликов в форматах 16:9, 9:16 и 1:1. Обновлённый алгоритм способен создавать ролики не только по текстовому описанию, но и на основе статического изображения. За счёт этого пользователи имеют больше возможностей для реализации своих творческих задумок. В дополнение к этому пользователь может контролировать динамику генерируемого видео путём изменения параметра «motion score».

«Сегодня мы сделали ещё один шаг в будущее видеотворчества. Теперь каждый пользователь Kandinsky Video может воплотить свои идеи и выразить их в видеоформате. С момента запуска первой версии нейросети прошло менее года, и за это время наша команда значительно улучшила такие показатели, как качество и скорость генерации полноценных видеороликов, открывая тем самым безграничные горизонты для креатива», — прокомментировал запуск нового алгоритма Андрей Белевцев, старший вице-президент, руководитель блока «Техническое развитие» Сбербанка.

Google представила ИИ Veo для создания реалистичных видео — Full HD и больше минуты

Около трёх месяцев прошло с тех пор как OpenAI представила генеративную нейросеть Sora, которая может создавать реалистичное видео по текстовому описанию. Теперь у Google есть чем ответить: в рамках конференции Google I/O была анонсирована нейросеть Veo. Алгоритм может генерировать «высококачественные» видеоролики с разрешением Full HD продолжительностью более минуты с применением разных визуальных и кинематографических стилей.

 Источник изображения: Google

Источник изображения: Google

В пресс-релизе Google сказано, что алгоритм Veo обладает «продвинутым пониманием естественного языка», что позволяет ИИ-модели понимать кинематографические термины, такие как «таймлапс» или «съёмка пейзажа с воздуха». Пользователи могут добиться желаемого результата с помощью не только текстовых подсказок, но также «скормить» ИИ изображения или видео, получая в конечном счёте «последовательные и целостные» ролики, в которых на протяжении всего времени движения людей, животных и объектов выглядят реалистично.

Генеральный директор ИИ-подразделения Google DeppMind Демис Хассабис (Demis Hassabis) заявил, что пользователи могут корректировать генерируемые ролики с помощью дополнительных подсказок. Кроме того, Google изучает возможность интеграции дополнительных функций, которые позволят Veo создавать раскадровки и более продолжительные видео.

Несмотря на сегодняшний анонс Veo, обычным пользователям придётся какое-то время подождать, прежде чем алгоритм станет общедоступным. На данном этапе Google приглашает к тестированию предварительной версии нейросети ограниченно количество создателей контента. Компания хочет поэкспериментировать с Veo, чтобы определить, каким образом следует осуществлять поддержку авторов контента и развивать сотрудничество с ними, давая творческим людям право голоса в разработке ИИ-технологий Google. Некоторые функций Veo в ближайшие несколько недель станут доступны ограниченному числу пользователей сервиса VideoFX, которые подадут заявки на участие в тестировании предварительной версии алгоритма. В будущем Google намерена также добавить некоторые функции Veo в YouTube Shorts.

Microsoft показала нейросеть, которая делает говорящие что угодно дипфейки по одному фото

За последние пару лет генеративные нейросети преодолели важный этап развития, став более мощными и способными создавать по текстовому описанию не только изображения, но и видео. Новый алгоритм VASA-1 от Microsoft, вероятно, сумеет удивить многих, поскольку для его работы вообще не нужно описание. Достаточно предоставить одно изображение человека и аудиодорожку, на основе которых нейросеть сгенерирует видео говорящего человека с широким спектром эмоций и естественной мимикой.

 Источник изображения: Microsoft

Источник изображения: Microsoft

Результат работы VASA-1 выглядит очень естественно и правдоподобно. Всего из одного снимка лица и записи голоса алгоритм создаёт реалистичное видео, на котором запечатлённый на снимке человек буквально «оживает», а его мимика, движения губ и головы выглядят вполне натурально. Поскольку созданные с помощью VASA-1 видео с ходу сложно отличить от реальных, уже высказываются опасения по поводу того, что алгоритм может использоваться злоумышленниками для создания фейков.

Что касается самой нейросети, то главным её отличием от других подобных алгоритмов является наличие целостной модели генерации лицевой мимики и движений головы. Специалисты Microsoft провели обширную исследовательскую работу, включая оценку ряда новых метрик. В результате они установили, что новый алгоритм значительно превосходит представленные ранее аналоги по многим параметрам.

«Наш метод не только обеспечивает генерацию видео высокого качества с реалистичной мимикой лица и движениями головы, но также поддерживает функцию онлайн-генерации видео 512×512 точек с частотой 40 кадров в секунду с незначительной начальной задержкой. Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими поведение человека во время разговора», — говорится в сообщении Microsoft.

Другими словами, нейросеть может создавать качественные фейковые видео на основе всего одного изображения. Поэтому не удивительно, что Microsoft называет VASA-1 «исследовательской демонстрацией» и не планирует выводить его на коммерческий рынок, по крайней мере, в ближайшее время.

OpenAI сделает ИИ-генератор видео Sora общедоступным позднее в этом году

В феврале OpenAI впервые продемонстрировала нейросеть Sora, способную генерировать реалистичные видео из текстовых описаний. Пока этот инструмент доступен лишь для художников, дизайнеров и кинематографистов. Сегодня технический директор OpenAI Мира Мурати (Mira Murati) сообщила, что Sora станет доступна широкой публике «позднее в этом году». Мурати пообещала, что к способности Sora создавать видео добавится генерация звукового сопровождения, что сделает ролики ещё более реалистичными.

 Источник изображения: OpenAI

Источник изображения: OpenAI

Сейчас OpenAI работает над возможностью редактирования контента в видеороликах Sora, поскольку инструменты искусственного интеллекта не всегда создают точные изображения. «Мы пытаемся выяснить, как использовать эту технологию в качестве инструмента, с помощью которого люди смогут редактировать медиаконтент», — рассказала Мурати.

Мурати уклонилась от ответа на вопрос, какие данные OpenAI использовала для обучения Sora. «Я не собираюсь вдаваться в подробности использованных данных, но это были общедоступные или лицензированные данные», — заявила она. Мурати не подтвердила и не опровергла использование видео с YouTube, Facebook и Instagram. Она отметила, что Sora использует контент фотохостинга Shutterstock, с которым у OpenAI заключено партнёрское соглашение.

Мурати рассказала, что на сегодняшний день Sora отличается от других моделей ИИ повышенными требованиями к вычислительным ресурсам. OpenAI работает над тем, чтобы сделать этот инструмент «доступным по той же цене», что и модель DALL-Eдля преобразования текста в изображение.

Опасения в обществе по поводу инструментов генеративного ИИ и их способности создавать дезинформацию усиливаются. По словам Мурати, Sora не сможет создавать изображения общественных деятелей, как и DALL-E. Видео от Sora также будут включать водяные знаки, но они не являются идеальной защитой и могут быть удалены из видео при помощи ИИ или традиционных технологий.

Люди не смогли отличить созданные нейросетью OpenAI Sora видео от настоящих

Несколько недель назад компания Open AI представила нейросеть Sora, способную по текстовому описанию генерировать реалистичное видео продолжительностью до одной минуты с разрешением 1920 × 1080 пикселей. Теперь же компания HarrisX провела опрос, предлагая взрослым американцам отличить сгенерированное ИИ видео от настоящего. Оказалось, что большая часть респондентов ошиблась в 5 из 8 предлагаемых в рамках опроса роликов.

 Источник изображения: Mariia Shalabaieva / unsplash.com

Источник изображения: Mariia Shalabaieva / unsplash.com

В опросе, который проходил в период с 1 по 4 марта в США, участвовали более 1000 американцев. Авторы исследования сгенерировали четыре высококачественных ролика с помощью нейросети Sora, а также выбрали четыре небольших видео, которые были сняты на камеру в реальном мире. Респондентам в случайном порядке показывали эти видео, а их цель была определить, снят ролик человеком или его сгенерировал ИИ. Мнения участников опроса разделились, но при этом в 5 из 8 случаев большая часть респондентов дала неверный ответ.

Это исследование указывает на то, что создаваемый с помощью генеративных нейросетей контент становится всё более реалистичным и отличить его от реального всё труднее. Именно поэтому в разных странах стали чаще звучать призывы к властям о необходимости законодательного регулирования этого сегмента. В числе прочего предлагается обязать пользователей нейросетей помечать генерируемый контент соответствующим образом, чтобы он не вводил других в заблуждение и не мог стать источником дезинформации.

 Источник изображения: variety.com

Источник изображения: variety.com

Алгоритм Sora ещё недоступен широкой публике, но уже сейчас он вызывает серьёзную тревогу в обществе, особенно в индустрии развлечений, где развитие технологий генерации видео влечёт массу негативных последствий, например, для киностудий. Более того, всё чаще поднимается вопрос о том, что подобные Sora алгоритмы могут использоваться для создания фейковых видео с участием политиков и знаменитостей, что может привести к самым непредсказуемым последствиям.

«Сбер» представил нейросеть Kandinsky Video — она генерирует 8-секундные видео по текстовому описанию

«Сбер» представил нейросеть Kandinsky Video, способную создавать небольшие ролики по текстовому описанию. Алгоритм генерирует видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Новинка была презентована в рамках конференции AI Journey первым заместителем председателя правления «Сбербанка» Александром Ведяхиным.

 Источник изображения: sberbank.com

Источник изображения: sberbank.com

Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

В конечном счёте алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены. В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут.

Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.

Runway AI создала ИИ для генерации видео по текстовому описанию, но у него «иногда машины могут улететь»

Разработчики генеративных нейросетей добились значительного успеха в создании статических изображений, подтверждением чему служат набравшие популярность модели, такие как Dall-E и Stable Diffusion. Теперь же стартап Runway AI представил нейросеть, способную генерировать по текстовому описанию короткие видеоролики.

 Источник изображения: Runway AI

Источник изображения: Runway AI

Генеративная нейросеть Gen 2 от Runway AI способна создавать короткие видео, опираясь на текстовое описание всего из нескольких слов. Достаточно написать, например, «кошка, идущая под дождём», после чего ИИ-алгоритм сгенерирует 3-секундное видео, демонстрирующее именно это или что-то очень похожее. В дополнение к этому пользователь может загрузить изображение, которое станет для алгоритма своеобразной подсказкой.

Сейчас нейросеть Runway AI доступна не всем. На данном этапе желающим испытать нейросеть в деле необходимо зарегистрироваться на сайте разработчиков и добавить себя в лист ожидания. Отметим, что Runway AI занимается разработкой инструментов на основе искусственного интеллекта с 2018 года и в прошлом году компания сумела привлечь $50 млн инвестиций. Стартап помогал в разработке оригинальной версии Stable Diffusion, которая способна генерировать изображения по текстовому описанию.

Во время демонстрации возможностей ИИ попросили создать видео «съёмки пустынного пейзажа с дрона». Несколько минут нейросеть обрабатывала запрос, но в конечном счёте ей удалось создать ролик, который соответствует предложенному описанию. Несколько других роликов раскрывают сильные и слабые стороны ИИ-алгоритма. Разработчики отмечают, что модель ещё не до конца «разобралась», как более точно изображать движущиеся объекты. «Вы можете сгенерировать автомобильную погоню, но иногда машины могут улететь», — отметили в Runway AI.

Также Gen 2 способна менять уже готовые видео, накладывая маски, добавлять стилизацию или даже полностью перестраивая картинку. Например, с помощью масок получились заменить на видео лабрадора на далматинца. Также ИИ смог превратить несколько поставленных на ребро блокнотов в ночной мегаполис. Либо из очень упрощенной 3D-модели сделать почти что кинематографическую картинку. Ещё ИИ способен анимировать фотографии.

Представленный алгоритм Gen 2 является логическим продолжением созданной ранее нейросети Gen 1. Тестирование алгоритма с привлечением небольшого числа пользователей началось в феврале. В настоящее время к этому процессу привлечены тысячи пользователей. Согласно имеющимся данным, в разработчики изучают возможность добавления к генерируемым видео звука, поскольку на данном этапе ИИ-алгоритм создаёт видео без звука.


window-new
Soft
Hard
Тренды 🔥
Складной смартфон Honor Magic V2 стал дешевле на 40 тысяч рублей 40 мин.
Vivo представила тонкие смартфоны Vivo S19 и S19 Pro с ёмкими батареями и мощными камерами 60 мин.
Lian Li выпустила компактный корпус SUP-01 с фронтальным размещением видеокарты 2 ч.
Мировые продажи CPU и GPU сильно подскочили в первом квартале, несмотря на традиционно слабый сезон 3 ч.
Microsoft рассказала, как сравнивала производительность Snapdragon X Elite и Apple M3 4 ч.
«Джеймс Уэбб» в красках показал карликовую галактику со вспышкой звездообразования 4 ч.
Amazon разрешили доставлять товары дронами на большие расстояния, чем прежде 4 ч.
«Первый в мире аудиокомпьютер»: наушники Iyo One за $699 получили ИИ, синхронный перевод и LTE 5 ч.
AMD заплатит вам до $30 000, если вы найдёте баг или уязвимость в её продуктах 5 ч.
Представлен ноутбук Spacetop G1 со 100-дюймовым экраном в дополненной реальности за $1900 5 ч.