Midas - это модель машинного обучения, которая оценивает глубину по произвольному входному изображению.





Архитектура

Различные наборы данных, содержащие информацию о глубине, несовместимы с точки зрения масштаба и смещения. Это связано с разнообразием измерительных инструментов, включая стереокамеры, лазерные сканеры и датчики света. Midas представляет новую функцию потерь, которая поглощает эти различия, тем самым устраняя проблемы совместимости и позволяя одновременно использовать несколько наборов данных для обучения.

Midas использует несколько наборов данных для обучения, как показано в таблице ниже. Следовательно, он может оценивать глубину изображений в различных условиях и средах.

Кроме того, 3D-фильмы также использовались для обучения, чтобы дополнить существующий набор данных.

Ниже представлена ​​функция потерь, представленная Midas.

Архитектура сети основана на ResNet.

использование

Вы можете использовать следующую команду для запуска Midas в видеопотоке веб-камеры в SDK ailia.

$ python3 midas.py -v 0


Вы также можете выбрать более высокую точность v2.1 или более быструю v2.1 small модель, которая работает в пять раз быстрее, чем обычная модель, и обеспечивает обработку в реальном времени.

$ python3 midas.py -v 0 -v21
$ python3 midas.py -v 0 -v21 -t small

Вот некоторые результаты.

Связанная тема



DPT: модель сегментации с использованием Vision Transformer
Это введение в« DPT
, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать этот… medium.com »



Axe Inc. разработал ailia SDK, который обеспечивает кроссплатформенный быстрый вывод на основе графического процессора.

Axe Inc. предоставляет широкий спектр услуг от консультирования и создания моделей до разработки приложений и SDK на основе искусственного интеллекта. По любым вопросам обращайтесь к нам.