Распознавание лиц - фундаментальная проблема компьютерного зрения, поскольку обычно оно является ключевым шагом на пути ко многим последующим приложениям, связанным с лицами, включая синтаксический анализ лиц, проверку лиц, маркировку и поиск лиц и т. д. Распознавание лиц широко используется изучены за последние несколько десятилетий, и для большинства сценариев с ограничениями были предложены многочисленные точные и эффективные методы. Современные детекторы лиц достигли впечатляющих результатов на больших и средних лицах; однако производительность на маленьких лицах далека от удовлетворительной. Основная трудность при обнаружении маленьких лиц (например, 10 × 10 пикселей) заключается в том, что на маленьких лицах отсутствует достаточно подробная информация, чтобы отличить их от аналогичного фона, например, областей частичных лиц или рук. Другая проблема заключается в том, что современные детекторы лиц на основе CNN используют сверточные (сверточные) карты признаков с пониженной дискретизацией с шагом 8, 16 или 32 для представления лиц, которые теряют большую часть пространственной информации и слишком грубы для описания маленьких лиц.

Чтобы справиться с неприятностями при обнаружении лиц, предлагается единая сквозная сверточная нейронная сеть для лучшего обнаружения лиц, основанная на классической структуре генеративной состязательной сети (GAN). В этом детекторе есть две подсети: сеть генератора и сеть дискриминатора.

В подсети генератора используется сеть сверхвысокого разрешения (SRN) для повышения дискретизации маленьких лиц до мелкого масштаба для поиска этих крошечных лиц. По сравнению с изменением размера с помощью билинейной операции, SRN может уменьшить артефакты и улучшить качество изображений с повышенной дискретизацией с большими коэффициентами масштабирования. Однако даже при таком сложном SRN изображения с повышенной дискретизацией неудовлетворительны (обычно размыты и не имеют мелких деталей) из-за лиц с очень низким разрешением (10 × 10 пикселей).

Поэтому предлагается сеть уточнения (RN) для восстановления некоторых недостающих деталей в изображениях с повышенной дискретизацией и создания четких изображений с высоким разрешением для классификации. Сгенерированные изображения и реальные изображения проходят через сеть дискриминатора, чтобы СОВМЕСТНО различать, являются ли они реальными изображениями или сгенерированными изображениями с высоким разрешением, и являются ли они лицами или не лицами. Что еще более важно, потеря классификации используется для того, чтобы генератор формировал более четкие лица для упрощения классификации.

Сетевая архитектура

Генераторная сеть включает в себя два компонента (то есть подсеть повышающей дискретизации и подсеть уточнения), и первая подсеть принимает изображения с низким разрешением, поскольку входные и выходные данные являются изображениями сверхвысокого разрешения. Поскольку на размытых мелких лицах отсутствуют мелкие детали и из-за влияния потери MSE, сгенерированные лица сверхвысокого разрешения обычно размываются. Таким образом, вторая подсеть используется для уточнения изображений со сверхвысоким разрешением из первой подсети. В конце концов, ветвь классификации добавляется к сети дискриминатора с целью обнаружения, что означает, что сеть дискриминатора может классифицировать лица и не лица, а также различать поддельные и настоящие изображения.

Сеть генераторов

Сеть генератора включает в себя подсеть уточнения, которая также является глубокой архитектурой CNN. Пакетная нормализация и активация выпрямленного линейного блока (ReLU) после использования каждого сверточного слоя, кроме последнего слоя. Подсеть с повышающей дискретизацией сначала выполняет повышающую дискретизацию изображения с низким разрешением и выводит изображение со сверхвысоким разрешением в 4 раза, и это изображение со сверхвысоким разрешением размывается, когда маленькие лица находятся далеко от камер или при быстром движении. Затем подсеть уточнения обрабатывает размытое изображение и выводит четкое изображение со сверхвысоким разрешением, что облегчает дискриминатору классификацию лиц и лиц, не являющихся лицами.

Дискриминаторная сеть

VGG19 используется в качестве опорной сети дискриминатора. Чтобы избежать слишком большого количества операций с понижающей дискретизацией для маленьких размытых лиц, максимальное объединение удалено из слоя «conv5». Более того, весь полностью связанный слой (т.е. f c6, f c7, f c8) заменяется двумя параллельными полностью связанными слоями fcGAN и fcclc. Входными данными является изображение сверхвысокого разрешения, выходными данными ветви fcGAN является вероятность того, что входные данные являются реальным изображением, а выходными данными fcclc является вероятность того, что входные данные являются лицом.

Функция потерь

Пиксельные потери: на вход нашей сети генератора поступают небольшие размытые изображения вместо случайного шума. Естественный способ заставить выходной сигнал генератора быть близким к наземной истине сверхвысокого разрешения - через пиксельные потери MSE, которые рассчитываются как

где ILR и IHR обозначают небольшие размытые изображения и изображения сверхвысокого разрешения соответственно, G1 означает подсеть повышающей дискретизации, G2 обозначает подсеть уточнения, а w - параметры сети генератора.

Состязательный проигрыш: для достижения более реалистичных результатов вводится состязательный проигрыш вместо объективного проигрыша, определяемый как

Здесь состязательная потеря побуждает сеть генерировать более четкие высокочастотные детали для попытки обмануть сеть дискриминатора.

Потеря классификации. Чтобы упростить классификацию восстановленных изображений с помощью сети генератора, также вводится потеря классификации до объективной потери. Формулировка потери классификации такова:

Потеря классификации играет две роли, первая из которых заключается в том, чтобы различить, являются ли изображения с высоким разрешением, включая как сгенерированные, так и естественные реальные изображения с высоким разрешением, лицами или не лицами в сети дискриминатора. Другая роль - продвигать сеть генераторов для восстановления более четких изображений.

Целевая функция: на основании вышеупомянутых потерь, состязательная потеря и потеря классификации включаются в пиксельную потерю MSE. Сеть GAN может быть обучена целевой функцией. Для лучшей потери градиентного поведения функция генератора G и дискриминатор D изменены следующим образом:

Уравнение 8 состоит из состязательных потерь, потерь MSE и потерь классификации, которые заставляют восстановленные изображения быть похожими на реальное естественное изображение с высоким разрешением на высокочастотных деталях, пикселях и семантическом уровне соответственно. Функция потерь дискриминатора D в уравнении 9 вводит потерю классификации, чтобы определить, являются ли изображения с высоким разрешением лицами или не лицами. Добавляя потерю классификации, восстановленные изображения из генератора более реалистичны, чем результаты, оптимизированные за счет состязательных потерь и потерь MSE.

Эффективность лучше, чем у предыдущих изученных методов.

Результат

Этот новый метод позволяет находить маленькие лица в дикой природе с помощью GAN. Новая сеть предназначена для непосредственного генерирования четкого изображения сверхвысокого разрешения из небольшого размытого, а наша подсеть повышающей дискретизации и подсеть уточнения обучаются сквозным образом. Кроме того, в дискриминаторную сеть вводится дополнительная ветвь классификации, которая может одновременно различать поддельное / настоящее и лицо / не лицо.

Качественные результаты обнаружения предложенного метода. Зеленые ограничивающие рамки - это аннотации достоверных данных, а красные ограничивающие рамки - результат применения предлагаемого метода. Лучше всего просматривать на компьютере, в цвете и увеличенном масштабе:

Муниб ул Хасан