Демистификация серии блогов Clearview AI (часть 5)

Идентификация лица и повторная идентификация

Когда модель глубокого обучения обрабатывает изображение, она сначала преобразует изображение в числовой формат, в просторечии известный как внедрение вектора.

С математической точки зрения векторное вложение можно описать как многомерное число, которое можно сортировать, сравнивать и манипулировать им. Используя векторное встраивание, модель глубокого обучения может рассчитать, насколько похожи два разных изображения лица. На основе заданного критерия модель может определить, что два очень разных изображения лица на самом деле принадлежат одному и тому же человеку. Такая идентификация лица конкретного человека, также известная как повторная идентификация экземпляра, обычно происходит в конце гораздо более длинного конвейера, который начинается с обнаружения объекта.

FaceNet в 2015 году наиболее широко внедрила векторное встраивание для распознавания лиц. Используя функцию «потери триплетов», FaceNet достигла рекордной точности в 99,63 % при идентификации и повторной идентификации лиц из «Помеченных лиц в дикой природе» ( LFW) набор данных.

Хотя FaceNet не является общедоступной, библиотека с открытым исходным кодом OpenFace основана на том же методе, что упрощает и упрощает достижение аналогичной современной точности и производительности. Личной рекомендацией для базовой библиотеки распознавания лиц Python является Распознавание лиц с открытым исходным кодом, опубликованная Адамом Гейтгеем.

Любой из вышеперечисленных инструментов — это все, что требуется для предоставления функции «Поиск лица», которую мы видели реализованной в различных демонстрациях веб-приложения Clearview.

В частности, для транспортных средств аналогичные алгоритмы и библиотеки, такие как VehicleNet и RepNet, используют тот же тип «потери триплетов» и методы векторного внедрения, чтобы обеспечить очень эффективную функциональность VehicleID и ReID.

Идентификация и повторная идентификация крупномасштабных городских транспортных средств

В то время как идентификация одного транспортного средства является проблемой, аналогичной идентификации одного лица, как описано выше, задача крупномасштабной идентификации и повторной идентификации транспортных средств в городских условиях (ReID) охватывает гораздо более широкий набор сложностей. Вы можете увидеть намек на трудности, связанные с этим, на карте ниже, основанной на слепых зонах покрытия, показанных в сети видеонаблюдения Департамента транспорта Нью-Йорка.

В дополнение к неполному покрытию и видимости существуют сложные проблемы моделирования глубокого обучения для конкретных предметных областей в крупномасштабных сценариях отслеживания городских транспортных средств и ReID. В отличие от лиц, где в основе лежит некоторое ожидание уникальности, транспортные средства, как правило, идентичны. В то время как лучший способ уникальной идентификации автомобиля будет основан на номерном знаке, это не всегда вариант из-за соображений конфиденциальности. С изображениями с низким разрешением это не всегда возможно.

Со всеми этими присущими трудностями, отслеживание с несколькими целевыми камерами (MTMC) является хорошо известной проблемой, которая активно исследуется AI City Challenge. Современные подходы к отслеживанию MTMC используют комбинацию различных методов, включая сверточные нейронные сети, пространственно-временные ограничения, синхронизацию сгенерированных треклетов и увеличение данных со слабым контролем.

Четыре наиболее задокументированных метода, используемых для отслеживания MTMC, включают:

  1. распознавание атрибутов и изучение показателей,
  2. детализированный внимательный вывод с несколькими представлениями,
  3. обучение на основе GAN,и
  4. мультимодальные платформы на основе данных.

Помня о масштабах этой серии и учитывая сложности, описанные выше, мы будем ориентироваться на небольшую часть трафика Манхэттена, особенно на центральном участке FDR Drive.

Сосредоточение внимания на движении вдоль линейного участка дороги позволяет нам внедрить тот же тип идентификации и технологии ReID, что и в настольных и мобильных приложениях Clearview.

Идентификация и повторная идентификация транспортных средств с приводом от FDR

FDR Drive (официально именуемый Франклином Д. Рузвельтом Ист-Ривер Драйв) — это десятимильный бульвар с ограниченным доступом на восточной стороне Манхэттена. Бульвар в основном состоит из трех полос движения в обоих направлениях, и всем коммерческим автомобилям (включая грузовики) запрещено движение на всех участках, за исключением небольшого перекрестка у южной стороны.

Участок FDR Drive от центра города до центра города, начиная с Гранд-стрит и заканчивая Восточной 53-й улицей, идеально подходит для удобного отслеживания транспортных средств благодаря довольно хорошему охвату камер в обоих направлениях и очень небольшому количеству выездов.

Ниже приведена карта расположения камер, включая места выезда для движения FDR Drive как в южном, так и в северном направлении, начиная с Гранд-стрит до 53-й улицы E. Необходимо помнить о съездах с бульвара, так как они повышают вероятность того, что транспортное средство не должно снова появляться с одной камеры на другую. В некоторых случаях модель может обнаруживать автомобиль, когда он выезжает с бульвара.

То, что делает описанный выше фрагмент FDR Drive идеальным для идентификации на основе векторного внедрения и ReID, аналогично тому, что мы реализуем для распознавания лиц, — это согласованность ориентации камеры, освещения и разрешения. В таком глобальном контексте камеры простая идентификация и алгоритм ReID будут отслеживать движение транспортного средства по бульвару, поскольку он требует меньше корректировок для локальных условий окружающей среды камеры и контекстуальных факторов.

Повторная идентификация транспортного средства с использованием расстояния между треками

Для повторной идентификации транспортных средств CCTView мы будем использовать фрагменты из библиотеки, изначально разработанной для метода ReID, основанного на извлечении скрытых представлений из треков транспортных средств. Детали алгоритма выходят за рамки этой серии. На высоком уровне трек автомобилей представляет собой набор изображений одного и того же автомобиля, записанных одними и теми же или разными камерами. Вместо того, чтобы сравнивать векторные вложения автомобиля из одного кадра, мы всесторонне сравниваем вложения на нескольких треках.

Для CCTView модель ReID используется для извлечения векторных вложений для транспортных средств с использованием предпоследнего слоя CNN, настроенного для распознавания транспортных средств. CNN основана на архитектуре DenseNet201, обученной с использованием крупномасштабного набора данных изображений для повторной идентификации транспортных средств при наблюдении за городским дорожным движением (набор данных VerI). Хотя библиотека для простоты поддерживает вычисление расстояния между дорожками, эта демонстрация реализует сравнение изображений только на основе евклидова расстояния. Сравнение трека с треком обеспечит наиболее точную и полезную возможность ReID для крупномасштабных городских транспортных средств.

В то время как наша модель обнаружения объектов от ImageAI использовала TensorFlow от Google, наш конвейер извлечения функций основан на PyTorch, аналогичной платформе глубокого обучения, разработанной Facebook.

Ниже приведен фрагмент кода используемого модуля PyTorch DenseNet CNN:

В следующем разделе мы поговорим об объединении данных, информации и библиотек, описанных выше, при разработке приложения на основе глубокого обучения для достижения желаемой функциональности.

"Оглавление"

Предыдущая: Запуск обнаружения объектов в масштабе и структурирование данных

Далее: Разработка приложения для глубокого обучения

использованная литература

Комплексный набор данных Cars (CompCars)

База данных изображений автомобилей — GTI

Понимание технологии распознавания лиц с открытым исходным кодом через OpenFace

Крупномасштабный набор данных об автомобилях для детальной категоризации и проверки

CityFlow: городской эталон для многоцелевого многокамерного отслеживания и повторной идентификации транспортных средств

Драйв Рузвельта

Драйв Рузвельта (Карты Google)

РепНет-Автомобиль-ReID

Повторная идентификация транспортных средств с использованием Track-to-Track ранжирования глубоко скрытого представления транспортных средств

AICity-reID 2020 (track2)

Построение конвейера распознавания лиц с помощью глубокого обучения в Tensorflow

ЭЛЕКТРИЧЕСТВО: эффективная многокамерная система слежения за автотранспортом для умного города

Выход за рамки реальных данных: надежное визуальное представление для повторной идентификации автомобиля

VOC-ReID: повторная идентификация автомобиля на основе камеры ориентации автомобиля

Как обучать триплетные сети со 100 000 удостоверений?

DeepFace vs Facenet для распознавания лиц

Три модели сверточных нейронных сетей для распознавания выражения лица в дикой природе

Реидентификация транспортных средств: прошлое, настоящее и будущее

Глубокое относительное дистанционное обучение: назовите разницу между похожими транспортными средствами

Методы повторной идентификации человека, основанные на глубоком обучении: всесторонний обзор