Сегодня 20 мая 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google выпустила Gemini Omni — ИИ для генерации видео из текста, фото, аудио и любых других данных

Google представила новое семейство генеративных моделей искусственного интеллекта Gemini Omni, предназначенное для создания контента из любых типов входных данных. Первым продуктом линейки стала нейросеть Gemini Omni Flash, способная генерировать видеоролики на основе текста, фотографий, аудио или других видеозаписей. Алгоритм объединяет мультимодальные возможности с глубоким пониманием законов физики и реального мира.

 Источник изображений: Google

Источник изображений: Google

Ключевым отличием новинки от существующей модели Veo, как пишет Google в своём блоге, является функция преобразования одного видео в другое. Алгоритм не просто генерирует визуальный ряд, но и позволяет редактировать исходные кадры с помощью естественного языка в диалоговом формате, сохраняя логику сцены и последовательность действий персонажей при каждом новом запросе. Как отмечает старший директор по исследованиям Google DeepMind Думитру Эрхан (Dumitru Erhan), в настоящее время система может создавать ролики со звуком продолжительностью до 10 секунд, однако компания уже работает над увеличением этого лимита.

Модель опирается на обширную базу знаний экосистемы Gemini, что позволяет ей создавать сцены с учётом исторического и научного контекста, а также точно воспроизводить гравитацию или динамику жидкостей. Технический директор Google DeepMind и главный ИИ-архитектор Google Корай Кавукчуоглу (Koray Kavukcuoglu) подчеркнул, что новая технология обладает гораздо большей информацией об устройстве мира, чем предыдущие разработки. Пользователи также получат возможность сгенерировать собственный цифровой аватар и озвучить его своим голосом. Руководитель команды разработчиков продукта Николь Брихтова (Nicole Brichtova) указала, что подобная функция интеграции собственной внешности пользовалась огромным спросом в прошлогодней модели для генерации изображений Nano Banana, с помощью которой было создано более 50 миллиардов картинок.

В целях безопасности корпорация пока ограничивает алгоритм в возможности изменять чужую речь на видео, а все сгенерированные ролики автоматически помечаются невидимым цифровым водяным знаком SynthID для проверки подлинности контента. В будущем разработчики планируют добавить поддержку вывода аудио и статических изображений. Модель Gemini Omni Flash уже доступна глобально для подписчиков тарифов Google AI Plus, Pro и Ultra через приложение Gemini и сервис Google Flow.

Начиная с этой недели бесплатный доступ к генератору также открывается для пользователей в приложениях YouTube Shorts и YouTube Create App.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Apple похвалилась, что пресекла мошеннические транзакции на $11,2 млрд за шесть лет и на этом не остановится 35 мин.
Owlcat раскрыла статистику участников «беты» The Expanse: Osiris Reborn и рассказала, как будет улучшать игру после критики фанатов 51 мин.
«Ваше мнение имеет значение»: разработчики Subnautica 2 помогут игрокам защититься от рыб, но оружие добавлять не будут 2 ч.
Настольные приложения «Яндекс Диска» перестанут нормально работать у бесплатных пользователей 2 ч.
Режиссёр Returnal открыл студию Cosmic Division для создания новой однопользовательской франшизы с «беззастенчивым упором на геймплей» 3 ч.
Новая State of Play пройдёт в ночь на 3 июня — будет расширенная демонстрация Marvel’s Wolverine и не только 3 ч.
GitHub признала взлом 3800 репозиториев по вине своего сотрудника — он установил вредоносное расширение VS Code 4 ч.
Google начала переводить «пожизненно бесплатные» аккаунты G Suite Legacy на платные тарифы 6 ч.
Разработчики Dark Scrolls отложили релиз на месяц, чтобы наиграться в Mina the Hollower от создателей Shovel Knight 7 ч.
Meta готова предоставить ИИ-ботам конкурентов бесплатный доступ к WhatsApp, но с ограничениями 7 ч.
Суперкомпьютер по подписке: Bull предоставила Airbus инфраструктуру HPC-as-a-service 23 мин.
«Билайн бизнес» сообщил о массовом внедрении аудиобейджей с ИИ — они проанализировали 600 тысяч часов разговоров 37 мин.
«Сбер» встал в очередь за китайскими чипами для «ГигаЧата» — перед ним ByteDance и Alibaba 2 ч.
Intel запустила разработку сверхтонких техпроцессов Intel 10A и 7A, а первые 14-ангстремные чипы отправят на опыты уже в октябре 2 ч.
Представлен iQOO 15T — игровой смартфон с разогнанным Dimensity 9500, 200-Мп камерой и батареей на 8000 мА⋅ч 2 ч.
AMD готовит мини-ПК Ryzen AI Halo для вайб-кодинга без облака за $3999 2 ч.
Производитель премиальной мебели Herman Miller выпустил дебютный геймерский стол Coyl — от $1095 2 ч.
TSMC выпустила брендированные кроссовки и рисоварку, но только для своих 2 ч.
Обсерватория «Чандра» обнаружила следы древнего галактического ДТП в считавшемся спокойным скоплении Abell 2029 2 ч.
SpaceX отложила запуск огромной ракеты Starship V3 на 21 мая 4 ч.