Получение 3D-моделей из 2D-изображений, когда доступны парные наборы данных 2D-3D, само по себе является сложной задачей компьютерного зрения. Но что, если бы это можно было сделать без 3D-данных? В этой статье представлено поверхностное обобщение бумаги, которая достигает именно этого.

Цель

Цель состоит в том, чтобы научить модель генерировать 3D-модели из одного 2D-изображения симметричного объекта, используя только 2D-изображения в качестве обучающих данных.

Архитектура

Чтобы выполнить преобразование 2D в 3D без 3D-данных, сначала создается нейронная сеть, которая принимает 2D-изображения одного вида в качестве входных данных и сопоставляет их с различными выходными компонентами.

Затем предполагалось, что этими компонентами будет информация об освещении, точке обзора (поскольку изображение было фотографией трехмерного объекта), глубине и альбедо для изображения и его горизонтального отражения. Предполагается, что входные данные будут симметричны относительно вертикальной линии (хотя на практике изображения не являются идеально симметричными), а одним из предполагаемых выходов нейронной сети является доверительная карта, оценивающая вероятность того, что пиксель изображения имеет симметричную ответную часть.

Учитывая, что всю эту информацию можно получить из изображения, методы компьютерного зрения можно использовать для реконструкции 3D-изображения. При контролируемом обучении, когда 3D-модели 2D-образов для обучения будут доступны в качестве обучающих данных, сеть можно обучить генерировать эту информацию путем сравнения 3D-реконструкции из сгенерированной информации с целевой 3D-моделью каждого 2D-изображения из набора обучающих данных. . Однако при использовании этого метода трехмерные данные не требуются для обучения сети извлечению полезной информации из двумерных изображений.

Чтобы обучить нейронную сеть генерировать требуемые выходные данные (глубина, вид, альбедо и т. д.), информация о глубине, виде и альбедо используется для создания 2D реконструкции входного изображения (с использованием традиционных методов компьютерного зрения). ). Эта реконструкция сравнивается с входными данными для получения потери реконструкции. Эти потери при реконструкции можно использовать для обучения сети. После обучения сети можно использовать традиционное компьютерное зрение для реконструкции 3D-модели на основе выходных данных нейронной сети.

Результаты и заключение

Результаты показывают, что модель способна получать монокулярные 3D-реконструкции отдельных экземпляров объектов с высокой точностью, как показано на рисунках выше.

В то время как модель хорошо работает в типичных случаях, она дает сбои в экстремальных случаях, таких как случаи с экстремальным освещением и позой или объектами с зашумленными текстурами.