Сегодня 18 октября 2025
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Tencent выпустила открытую ИИ-модель, которая создаёт целые 3D-миры по одному изображению

На этой неделе китайская компания Tencent представила новую ИИ-модель с открытым исходным кодом HunyuanWorld-Voyager. С её помощью можно генерировать 3D-видеоряд из одного исходного изображения, управляя траекторией камеры для «изучения» виртуальных сцен. Алгоритм одновременно генерирует видео в формате RGB и информацию о глубине (RGB-D), что позволяет осуществлять 3D-реконструкцию без использования традиционных методов моделирования.

 Источник изображений: Tencent

Источник изображений: Tencent

На самом деле результаты работы HunyuanWorld-Voyager не являются настоящими 3D-моделями, но создаётся аналогичный эффект. ИИ-алгоритм генерирует 2D-видеокадры, которые сохраняют пространственную согласованность, как если бы камера перемещалась в реальном 3D-пространстве. В каждой генерации создаётся всего 49 кадров, т.е. примерно две секунды видео. По данным Tencent, несколько клипов могут быть объединены в последовательности продолжительностью «несколько минут». Объекты сохраняют своё положение, когда камера перемещается вокруг них, перспектива изменяется корректно, как если бы это происходило в реальной 3D-среде. Хотя результатом работы является видео с картами глубины, а не полноценные 3D-модели, эти данные можно преобразовывать в 3D-облака точек для дальнейшей реконструкции.

Система работает на основе одного исходного изображения и заданной пользователем траектории камеры. Можно задать движение камеры вперёд, назад, влево, вправо или поворот, для чего предусмотрен интерфейс управления. Система объединяет данные об изображении и глубине с другими данными для формирования видеоряда, отражающего движение камеры, которое задал пользователь.

Основным ограничением всех ИИ-моделей на базе архитектуры Transformer является то, что они в основном имитируют паттерны, найденные в данных для обучения, что ограничивает их возможности в плане «обобщения», т.е. применения этих шаблонов в новых ситуациях, которые не встречались при обучении. Для обучения HunyuanWorld-Voyager исследователи задействовали более 100 тыс. видеоклипов, включая компьютерные сцены на движке Unreal Engine. По сути они обучали ИИ-алгоритм имитировать движение 3D-камер в среде видеоигр.

Большинство ИИ-генераторов, таких как Sora, создают выглядящие правдоподобно кадры друг за другом, не пытаясь отслеживать или поддерживать пространственную согласованность. В отличие от этого HunyuanWorld-Voyager обучен распознавать и воспроизводить закономерности пространственной согласованности, но с добавлением обратной геометрической связи. Когда он генерирует каждый кадр, осуществляется преобразование выходных данных в точечный 3D-объект, после чего эти точки проецируются обратно в 2D для использования в будущих кадрах.

Такой подход заставляет ИИ-модель сопоставлять изученные ранее шаблоны с геометрически согласованными проекциями, полученными в процессе работы. Это обеспечивает гораздо лучшую пространственную согласованность, чем у других ИИ-генераторов видео. Однако в основе подхода всё же лежит сопоставление паттернов, основанное на геометрических ограничениях, а не полноценное «понимание» 3D. Это объясняет, почему ИИ-модель может сохранять согласованность в течение нескольких минут, но с трудом справляется с поворот сцены на 360°. Ошибки при сопоставлении с образцом накапливаются на протяжении многих кадров до тех пор, пока геометрические ограничения уже не могут поддерживать согласованность.

По данным Tencent, HunyuanWorld-Voyager использует в работе два основных блока, работающих совместно. Во-первых, система генерирует цветное видео и информацию о глубине одновременно, чтобы убедиться, что они идеально совпадают. Во-вторых, используется то, что Tencent называет «глобальным кэшем» — растущая коллекция точечных 3D-моделей, созданных из ранее сгенерированных кадров. В процессе генерации новых кадров это облако 3D-точек проецируется обратно в 2D с нового ракурса камеры для создания изображений, показывающих то, что должно быть видно на основе предыдущих кадров. Затем модель использует эти проекции для проверки согласованности, обеспечивая соответствие новых кадров уже сгенерированным.

HunyuanWorld-Voyager развивает идеи более ранней ИИ-модели Tencent HunyuanWorld 1.0, которая была выпущена в июле. Алгоритм также является частью более масштабной экосистемы Tencent Hunyuan, которая также включает в себя алгоритмы Hunyuan3D-2 для генерации 3D-объектов по текстовому описанию и HunyuanVideo для генерации видео.

Для обеспечения работоспособности HunyuanWorld-Voyager требуются значительные вычислительные мощности. Tencent рекомендует использовать не менее 60 Гбайт видеопамяти для получения 3D-сцен с разрешением 540p или 80 Гбайт видеопамяти для повышения качества картинки. Получить доступ к исходному коду ИИ-модели и сопутствующей документации можно на портале Hugging Face. Как и другие ИИ-модели семейства Hunyuan, новый алгоритм поставляется с существенными лицензионными ограничениями. К примеру, лицензия запрещает использовать HunyuanWorld-Voyager в ЕС, Великобритании и Южной Корее. Отдельного лицензирования требует коммерческое использование, предполагающее обслуживание более 100 млн пользователей в месяц.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Baby Steps — встань и иди. Рецензия 6 ч.
Интерес к ChatGPT на смартфонах стал угасать — пользователи проводят в приложении всё меньше времени 7 ч.
ИИ Meta будет предлагать пользователям отредактировать и опубликовать фото из галереи смартфона 7 ч.
Новая статья: Vampire: The Masquerade — Bloodlines 2 — резус разочаровательный. Рецензия 7 ч.
«Невероятно исторический момент»: в Football Manager 26 впервые для серии появится Чемпионат мира по футболу и другие турниры ФИФА 8 ч.
Судебные документы Sony и Tencent раскрыли, когда выйдет фильм по Horizon Zero Dawn 10 ч.
Apple обвинила Epic Games в новой попытке отвертеться от уплаты комиссий App Store 11 ч.
Фэнтезийный боевик Absolum приглянулся не только критикам, но и игрокам — 200 тысяч проданных копий и 91 % в Steam 11 ч.
«Выбор сделали за меня»: бывший руководитель франшизы Assassin’s Creed объяснил, почему покинул Ubisoft 12 ч.
Хакеры слили данные сотен сотрудников ФБР, Минюста и Министерства внутренней безопасности США 12 ч.
Релиз Kaspersky NGFW 1.1: улучшенная отказоустойчивость, антивирусная проверка архивов и новые аппаратные платформы 8 ч.
Atari представила ретро-консоль Intellivision Spirit c 45 встроенными играми с «возможностью расширения» 8 ч.
Huawei представила смартфон Nova 14 Lite на устаревшем чипе Kirin 8000 и HarmonyOS 5.1 9 ч.
Китайцы создали «полароид» для астрономии — он делает мгновенные снимки Вселенной с рекордной точностью 9 ч.
HTC показала доступный геймерский смартфон Wildfire и не только 10 ч.
Представлены первые в мире смартфоны с активным жидкостным кулером и не только — геймерские Redmagic 11 Pro и Pro+ 11 ч.
Poolside и CoreWeave построят в Техасе 2-ГВт кампус ИИ ЦОД, работающий на газе из Пермского бассейна 13 ч.
Apple сама решила обделить зарядными устройствами MacBook Pro в Европе — власти и законы ЕС ни при чём 14 ч.
Maxsun представила компактную плату с изнаночным разъёмом для видеокарт — MS-Terminator B850 BKB WiFi 14 ч.
Meta построит ещё один гигаваттный ИИ ЦОД, на этот раз в Техасе 15 ч.