Это введение в LandmarksClassifierAsia, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.

Обзор

LandmarksClassifierAsia — это модель машинного обучения для определения туристических достопримечательностей Японии, опубликованная Google в апреле 2020 года. Модель может идентифицировать 17 771 популярную достопримечательность на основе одного изображения.





Архитектура

Входные данные модели представляют собой RGB-изображение размером 321x321, нормализованное в диапазоне от 0 до 1. Предполагается, что ориентир обрезан и введен во входное изображение для правильного обнаружения. Результатом является оценка сходства для 98 960 категорий с соответствующими названиями ориентиров на английском языке. Существует 17 771 уникальная категория, поэтому некоторые метки в выходных данных являются избыточными, и для объединения дубликатов требуется некоторая постобработка.

Например, если выходной вектор равен [0.3, 0.5, 0.1], а метки — [label_1, label_2, label_1], вывод должен быть {label_1: 0.3, label_2: 0.5}, дающим только наивысший балл среди перекрывающихся меток.

Модель была обучена на наборе данных Google Landmarks V2 (GLDv2). Этот набор данных содержит 5 миллионов обучающих изображений, 200 000 меток и 110 000 тестовых изображений. Изображения были собраны из Wikimedia Commons и аннотированы вручную в течение 800 часов.



Из-за большого количества категорий в наборе данных использовалось дистанционное метрическое обучение, а результаты производительности были даны относительно ResNet101+ArcFace. Проверив модель в Netron, оказалось, что опубликованная модель — это не ResNet101, а чуть более легкая магистраль с использованием размеров ядра 3x3 и 1x1.

mAP@100 (коэффициент распознавания с использованием 100 лучших результатов обнаружения) для модели с использованием ResNet101 и ArcFace составляет 23,30 %. Числовое значение кажется низким из-за огромного количества меток.

Полученные результаты

Вот результаты этой модели на некоторых входных изображениях. Мы видим, что очень характерные ориентиры, такие как Токийская башня и Каминаримон внизу, прекрасно распознаются.

TopK predictions:
  Tokyo Tower: 92.34%
  Sapporo TV Tower: 84.53%
  Yokohama Marine Tower: 81.77%

TopK predictions:
  Kaminarimon Gate Senso-ji: 92.01%
  Hōzōmon Gate: 89.89%
  Osu Kannon: 85.13%

Однако другие менее узнаваемые достопримечательности, такие как Гора Фудзи и Хамарикю, выглядят не так хорошо, поскольку горы и сады менее заметны, и их сложнее обнаружить.

TopK predictions:
  Asagirikogen Rest Area: 89.05%
  Mt. Omuro: 81.65%
  Mount Fuji: 81.06%

TopK predictions:
  Kannon-in: 85.25%
  Keitakuen Garden: 83.54%
  Kyoto Imperial Palace: 83.07%

Применение

Вы можете использовать LandmarksClassifierAsia с ailia SDK, используя следующую команду.

$ python3 landmarks_classifier_asia.py --input input.jpg


Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.

ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.