Создавайте деформируемые 3D-модели из изображений с BANMo!

Первоначально опубликовано на louisbouchard.ai, прочитано за 2 дня до этого в моем блоге!

Смотрите видео и увидите больше результатов!

Если вы занимаетесь визуальными эффектами, разработкой игр или созданием 3D-сцен, эта новая модель ИИ для вас. Я не удивлюсь, если очень скоро увижу эту модель или аналогичные подходы в вашем конвейере создания, что позволит вам тратить гораздо меньше времени, денег и усилий на создание 3D-моделей. Просто посмотрите на это…

Конечно, не идеально, но это было сделано мгновенно с помощью случайного видео, снятого с телефона. Ему не требовалась дорогая многокамерная установка или сложные датчики глубины. Одна из прелестей искусственного интеллекта: сделать сложные и дорогостоящие технологии доступными для стартапов или отдельных лиц для создания проектов с результатами профессионального качества. Просто снимите объект и превратите его в модель, которую можно сразу же импортировать. Затем вы можете настроить детали, если вас что-то не устраивает, но вся модель будет готова через несколько секунд!

То, что вы видите выше, — это результаты модели ИИ под названием BANMo, недавно представленной на мероприятии CVPR, которое я посетил. Скажу честно, они привлекли мое внимание и из-за кошек. Тем не менее, это был не совсем кликбейт. Бумага и подход на самом деле довольно удивительны. Это не похоже ни на один подход NeRF к реконструкции объектов в 3D-моделях. BANMo решает задачу, которую мы называем артикулированной трехмерной реконструкцией формы, что означает, что он работает с видео и изображениями для моделирования деформируемых объектов, а что может быть более деформируемым, чем кошка? И что еще круче, чем видеть результаты, так это понимать, как это работает…

Модель начинается с нескольких небрежно снятых видеороликов объекта, который вы хотите запечатлеть, показывая, как он движется и деформируется. Вот куда вы хотите отправить видео, как ваша кошка прихлебывает из вазы!

BANMo использует эти видео для создания того, что они называют каноническим пространством. Этот первоначальный результат даст вам информацию о форме, внешнем виде и сочленениях объекта. Это понимание модели формы вашего объекта, того, как он движется в пространстве и где он находится между кирпичом и каплей, описываемой с помощью этих больших шаров и различных цветов.

Затем он берет это 3D-представление и применяет любую позу, которую вы хотите, имитируя поведение и артикуляции кошки настолько близко к реальности, насколько это возможно.

Похоже на магию, не так ли? Это потому, что мы еще не закончили. Мы быстро перешли от видео к модели, но здесь становится интересно.

Так что же они используют, чтобы перейти от изображения видео к такому представлению в этом каноническом пространстве? Как вы уже догадались: модель, похожая на NeRF!

Если вы не знакомы с этим подходом, я настоятельно рекомендую вам посмотреть одно из многих видео, которые я сделал, освещая их, и вернуться за остальными.

Короче говоря, метод, вдохновленный NeRF, должен будет предсказать три основных свойства для каждого трехмерного пикселя объекта, как вы видите здесь: цвет, плотность и каноническое встраивание с использованием обученной для этого нейронной сети. Чтобы получить 3D-модель с реалистичными артикуляциями и движением, BANMo использует пространственное расположение камеры и несколько кадров, чтобы понять луч, из которого она снимает, что позволяет итеративно реконструировать и улучшать 3D-модель во всех кадрах видео, аналогично тому, что мы бы сделали, чтобы понять объект, переместить его и посмотреть на него во всех направлениях.

Эта часть выполняется автоматически путем просмотра видео благодаря каноническому встраиванию, о котором мы только что упоминали. Это вложение будет содержать все необходимые функции каждой части объекта, чтобы вы могли запрашивать новую желаемую позицию для объекта, обеспечивающего последовательную реконструкцию данных наблюдений. Он в основном отображает желаемое положение от изображения до 3D-модели с правильными точками обзора и условиями освещения и предоставляет подсказки для необходимой формы и артикуляции.

И последнее, что нужно упомянуть, это наши цвета. Эти цвета представляют собой атрибуты тела кошки, общие для разных видео и изображений, которые мы использовали. Это функция, которую мы изучим и рассмотрим, чтобы извлечь ценную информацию из всех видео и объединить их в одну и ту же 3D-модель, чтобы улучшить наши результаты.

И вуаля!

В итоге вы получите этого красивого 3D-деформируемого цветного кота, которого вы можете использовать в своих приложениях!

Конечно, это был всего лишь обзор BANMo, и я приглашаю вас прочитать статью для более глубокого понимания модели.

Рекомендации

► Страница проекта: https://banmo-www.github.io/
► Статья: Ян Г., Во М., Неверова Н., Раманан Д., Ведальди А. и Joo, H., 2022. Banmo: Создание анимированных 3D-нейронных моделей из множества случайных видеороликов. В Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов (стр. 2863–2873).
► Код: https://github.com/facebookresearch/banmo