Результаты многих методов анализа лица зависят от соответствующего разрешения изображения. Распознавание лиц работает неправильно, если разрешение лица на фотографиях низкое.

Что такое суперразрешение?

Face Super Resolution (FSR) или лицевые галлюцинации восстанавливают лицо в высоком разрешении (HR) из изображения с низким разрешением (LR). Этому направлению исследований в последние годы уделяется все больше внимания. Но даже современные методы часто дают изображения с искаженной структурой лица и лишь частично восстанавливают детали лица. Методы Deep Learning для FSR не могут восстановить лица LR в определенных позициях, но количество этих позиций велико.

Как решить эту проблему? Есть два варианта:

  • Смена тренировочных данных с большим количеством позиций. Но это также может привести к неоптимальным результатам: детали лица размыты или отсутствуют.
  • Вы можете найти компоненты лица на изображениях LR. Это может привести к фантомным артефактам.

Но есть и метод, восстанавливающий образы с учетом предопределения строения лица. Можно ли использовать тепловые карты для представления вероятности появления компонентов лица?

Исследования, связанные с этим

Существует три категории методов определения лицевых галлюцинаций.

  • Подходы, основанные на «глобальных моделях», имеют своей основной целью восстановление неполноценного образа посредством целостного картирования, т.е. СПС. Ван и Тан реконструируют изображения ЧСС в соответствии со значениями PCA. Лю и другие исследователи разработали Марковское случайное поле (MRF) для уменьшения фантомных артефактов.
  • Kolouri and Rohde используют оптимальные методы переноса для преобразования результата HR с помощью интерполяции граней модели HR.
  • Существуют также «частичные методы» восстановления отдельных частей лица по отдельности. Например, Таппен и Лю восстанавливают детали лица, деформируя эталонные изображения ЧСС;
  • Ян и другие исследователи локализуют компоненты лица на изображениях LR, используя ключевые точки обзора детектора, а затем реконструируют недостающие детали HR из аналогичных компонентов HR.
  • Глубокое обучение. Сюй и другие исследователи используют Framework GAN для восстановления размытого лица;
  • Чжу и его коллеги представляют сеть Cascade Bi Network (CBN), которая находит компоненты лица LR, а затем увеличивает разрешение деталей лица.

Ультрасовременная идея

Синь Ю и его коллеги предлагают глубокую многозадачную нейронную сеть, которая восстанавливает изображения LR и оценивает положение компонентов лица. Его высокоточная нейронная сеть (CNN) имеет два ответвления: одно используется для восстановления изображений, а другое — для прогнозирования определенных областей лица после тепловых карт.

Процесс выглядит следующим образом:

  1. Распознавание характеристик после входящего изображения LR.
  2. Применение размерной вариации для выравнивания характеристических карт.
  3. Оценка тепловых карт компонентов лица по улучшенным картам признаков.
  4. Объединение оценочных тепловых карт с характеристическими картами.

Этот метод улучшает крошечное сбалансированное изображение (16 x 16 пикселей) с 8-кратным множителем с сохранением структуры лица.

Обзор модели

нейронная сеть имеет следующую структуру:

  1. Улучшающая многозадачная нейронная сеть (MTUN): вилка улучшения (состоящая из автоматического дигитайзера, сети размерных преобразований) и вилка оценки тепловых карт лица (HEB);
  2. Дискриминационная сеть, состоящая из сверточных слоев и полносвязных слоев.

Оценка тепловых карт лица. Даже самые совершенные детекторы лиц не могут определить ключевые точки лица на изображениях с очень низким разрешением. Предлагается прогнозировать тепловые карты компонентов лица на основе улучшенных карт признаков.

2D-фотографии могут иметь различные положения. Чтобы уменьшить количество тренировочных шаблонов, необходимых для изучения HEB, можно использовать сеть пространственных преобразователей (STN).

Четыре карты представляют четыре компонента лица: глаза, нос, рот и подбородок (рисунок ниже).

Функция потерь. Результат использования различных комбинаций функции потерь показан ниже:

Чтобы изучить их улучшающую многозадачную сеть, ученые выбрали последний вариант (h).

Качественные и количественные сравнения

Качественное сравнение подхода с использованием современных методов:

Большинство существующих методов не могут генерировать детали лица, но предлагаемый подход создает реалистичные изображения, очень похожие на исходное изображение HR.

Количественное сравнение с самыми современными методами приводит к аналогичному выводу.

Вывод

Сделаем вывод из этого исследования:

  • Это новая многозадачная сеть с увеличивающимся разрешением, которая обрабатывает очень маленькие изображения LR (16 x 16 пикселей) с коэффициентом нормализации 8x.
  • Метод использует сходство интенсивности изображения и оценивает структуру лица с помощью тепловых карт компонентов лица.
  • Оцененные тепловые карты компонентов лица обеспечивают пространственную информацию о компонентах лица.
  • Путем выравнивания карт функций перед оценкой тепловой карты количество изображений, необходимых для изучения модели, уменьшается.

Этот метод хорошо подходит для восстановления лиц с очень низким разрешением в различных положениях. Генерирует реалистичные изображения без искажений и артефактов.