Команда Apple по машинному обучению совместно с исследователями из Нанкинского университета и Гонконгского университета науки и технологий разработала 3D-ИИ-модель Matrix3D, с помощью которой можно воссоздавать 3D-объекты и сцены на основе всего нескольких 2D-фотографий.

Источник изображения: 9to5mac.com
Matrix3D относится к категории больших фотограмметрических моделей (Large Photogrammetry Model). Фотограмметрия использует фотографии для получения информации об объектах и проведения измерений для создания 3D-моделей или карт. В настоящее время этот процесс включает использование различных моделей для оценки позы и прогнозирование глубины, что может привести к неточностям.
Matrix3D позволяет выполнить эти операции за один раз. Она принимает к учёту изображения, параметры камеры (такие, как угол и фокусное расстояние), данные о глубине и обрабатывает их с помощью единой архитектуры. Это не только упрощает процесс, но и повышает точность.
Для обучения Matrix3D использовалась стратегия маскированного обучения, в рамках которого исследователи скрывали часть данных, что заставило модель научиться заполнять пробелы. Этот метод является ключевым, поскольку он позволяет проводить эффективное обучение модели даже с меньшими или неполными наборами данных.
В результате, имея всего три входных изображения, Matrix3D может генерировать подробные 3D-реконструкции объектов и даже целых сред, что могло бы найти применение в иммерсивных гарнитурах, таких как Apple Vision Pro.
Исследователи разместили исходный код Matrix3D на GitHub. Они также создали веб-сайт, на котором можно более подробно ознакомиться с возможностями новой ИИ-модели.
Источник: