Это введение в LandmarksClassifierAsia, модель машинного обучения, которую можно использовать с ailia SDK. Вы можете легко использовать эту модель для создания приложений ИИ с помощью ailia SDK, а также многих других готовых к использованию AIlia MODELS.
Обзор
LandmarksClassifierAsia — это модель машинного обучения для определения туристических достопримечательностей Японии, опубликованная Google в апреле 2020 года. Модель может идентифицировать 17 771 популярную достопримечательность на основе одного изображения.
Архитектура
Входные данные модели представляют собой RGB-изображение размером 321x321, нормализованное в диапазоне от 0 до 1. Предполагается, что ориентир обрезан и введен во входное изображение для правильного обнаружения. Результатом является оценка сходства для 98 960 категорий с соответствующими названиями ориентиров на английском языке. Существует 17 771 уникальная категория, поэтому некоторые метки в выходных данных являются избыточными, и для объединения дубликатов требуется некоторая постобработка.
Например, если выходной вектор равен [0.3, 0.5, 0.1]
, а метки — [label_1, label_2, label_1]
, вывод должен быть {label_1: 0.3, label_2: 0.5}
, дающим только наивысший балл среди перекрывающихся меток.
Модель была обучена на наборе данных Google Landmarks V2 (GLDv2). Этот набор данных содержит 5 миллионов обучающих изображений, 200 000 меток и 110 000 тестовых изображений. Изображения были собраны из Wikimedia Commons и аннотированы вручную в течение 800 часов.
Из-за большого количества категорий в наборе данных использовалось дистанционное метрическое обучение, а результаты производительности были даны относительно ResNet101+ArcFace. Проверив модель в Netron, оказалось, что опубликованная модель — это не ResNet101, а чуть более легкая магистраль с использованием размеров ядра 3x3 и 1x1.
mAP@100 (коэффициент распознавания с использованием 100 лучших результатов обнаружения) для модели с использованием ResNet101 и ArcFace составляет 23,30 %. Числовое значение кажется низким из-за огромного количества меток.
Полученные результаты
Вот результаты этой модели на некоторых входных изображениях. Мы видим, что очень характерные ориентиры, такие как Токийская башня и Каминаримон внизу, прекрасно распознаются.
TopK predictions: Tokyo Tower: 92.34% Sapporo TV Tower: 84.53% Yokohama Marine Tower: 81.77%
TopK predictions: Kaminarimon Gate Senso-ji: 92.01% Hōzōmon Gate: 89.89% Osu Kannon: 85.13%
Однако другие менее узнаваемые достопримечательности, такие как Гора Фудзи и Хамарикю, выглядят не так хорошо, поскольку горы и сады менее заметны, и их сложнее обнаружить.
TopK predictions: Asagirikogen Rest Area: 89.05% Mt. Omuro: 81.65% Mount Fuji: 81.06%
TopK predictions: Kannon-in: 85.25% Keitakuen Garden: 83.54% Kyoto Imperial Palace: 83.07%
Применение
Вы можете использовать LandmarksClassifierAsia с ailia SDK, используя следующую команду.
$ python3 landmarks_classifier_asia.py --input input.jpg
Топор Инк. разработал ailia SDK, который обеспечивает кросс-платформенный быстрый вывод на основе графического процессора.
ax Inc. предоставляет широкий спектр услуг от консалтинга и создания моделей до разработки приложений и SDK на основе ИИ. Не стесняйтесь связаться с нами для любого запроса.