Первоначально опубликовано на louisbouchard.ai, прочитано за 2 дня до этого в моем блоге!

Смотреть видео:

Я очень рад поделиться с вами этой новой моделью искусственного интеллекта! Мы видели так много новых подходов к генерации текста, а генерация изображений становится все лучше. Затем мы увидели другие потрясающие первоначальные работы по созданию видео и даже 3D-моделей из текста. Только представьте себе сложность такой задачи, когда все, что у вас есть, — это предложение, и вам нужно сгенерировать что-то, что могло бы выглядеть как объект в реальном мире, со всеми его деталями. Что ж, вот новый, который является не просто начальным шагом; это огромный шаг вперед в создании 3D-моделей из простого текста: MVDream!

Как видите, похоже, что MVDream умеет понимать физику. По сравнению с предыдущими подходами, он получает это. Он знает, что вид должен быть реалистичным только с двумя ушами, а не с двумя для любых возможных видов. В итоге из этой простой строки текста создается очень качественная 3D-модель! Насколько это круто? Но что еще круче, так это то, как это работает… так что давайте сразу углубимся в это!

Если вы посмотрите на 3D-модель, то самая большая проблема заключается в том, что она должна генерировать как реалистичные, так и высококачественные изображения для каждого вида, с которого вы на него смотрите, И эти виды должны быть пространственно согласованы друг с другом, в отличие от Четырехухий Йода, которого мы видели ранее, или объекты с несколькими лицами, поскольку в наборе данных изображений редко встречаются люди сзади, поэтому модель как бы хочет видеть лица любой ценой. Один из основных подходов к созданию 3D-моделей — моделировать угол обзора камеры, а затем генерировать то, что она должна видеть с этой точки зрения. Это называется 2D-лифтингом, поскольку мы генерируем обычные изображения, чтобы объединить их в полноценную 3D-сцену. Затем мы генерируем все возможные виды вокруг объекта. Вот почему мы привыкли видеть подобные странные артефакты, поскольку модель просто пытается создать одно представление за раз и недостаточно хорошо понимает весь объект в трехмерном пространстве. Что ж, MVDream сделал огромный шаг в этом направлении. Они…