Обнаружение лицевой маски: модель 3 класса

Введение

31 декабря 2019 года в городе Ухань провинции Хубэй, Китай, была выявлена пневмония неизвестной этиологии[1]. Первый случай заболевания новым коронавирусом, также известным как COVID-19, в Австралии был подтвержден 25 января 2020 года в Мельбурне, штат Виктория[2]. С тех пор COVID-19 превратился в глобальную пандемию, затронув страны с более чем 36 миллионами подтвержденных случаев заболевания и 1 миллионом смертей во всем мире[3].

Определение проблемы

Коронавирус — это высокоинфекционное заболевание, которое может легко передаваться от одного человека к другому через выделения изо рта и носа. Поскольку эти выделения могут распространяться в виде капель по воздуху, а также загрязнять поверхности, тесный контакт с инфицированными людьми представляет высокий риск передачи вируса. Таким образом, когда физическое дистанцирование невозможно, ношение маски для лица важно для защиты других[4]. Из данных, собранных ВОЗ, мы видим, что примерно в 57 процентах стран передача инфекции в сообществе является основной причиной новых ковидных инфекций [5]. Основным решением для уменьшения распространения вируса и обеспечения безопасности общества является ношение масок для лица.

Методология

Подготовка данных

Модель двух классов

Размытые изображения в наборе данных были удалены, чтобы сохранить согласованность модели с использованием библиотеки OpenCV. Мы попытались вручную удалить изображения детей из набора данных, исходя из нашего предположения о возрасте человека на изображении. Это было сделано из-за потенциальных нарушений этики, связанных с использованием изображений детей.

Несколько лиц были извлечены из изображений, содержащих группы людей, с помощью каскадов Хаара[6],метода обнаружения объектов, используемого для обнаружения интересующего объекта на изображениях. Мы также экспериментировали с преобразованием входного изображения в оттенки серого для двухклассовой модели, потому что в некоторых случаях определение яркости, а не цвета, давало лучшие результаты при обнаружении объектов. Входные изображения были уменьшены для улучшения распознавания лиц и уменьшения размера модели, поскольку наша модель имеет фиксированный масштаб во время обучения.

Для увеличения разнообразия данных, доступных для обучающих моделей, была выполнена аугментация данных. Это широко используемый метод искусственного увеличения размера набора обучающих данных путем обрезки, поворота, обрезки и горизонтального отражения данных.

Трехклассовая модель

Подготовка данных для 3-классовой модели построена на подходе, использованном для 2-классовой модели, с некоторыми дополнительными задачами. Они решали проблемы, связанные с определением конкретных особенностей, когда маска надевается неправильно, и справлялись с дисбалансом классов из-за доступности изображений (доступных изображений «incorrect_mask» было сравнительно немного). В то время как классы «mask» и «no_mask» довольно ясны с точки зрения ожидаемых физических характеристик, «incorrect_mask» более сложен. Согласно статье в The Guardian, существует несколько способов неправильного ношения масок[7]. К ним относятся, помимо прочего, обнажение подбородка, обнажение рта, но не носа, обнажение носа, но не рта, и свисание уха. Все эти разные версии ношения маски содержат разные черты лица, такие как нос, но не рот, или рот, но не нос. Чтобы оптимизировать производительность в этой экспериментальной концептуальной модели, учитывая ограниченное количество доступных изображений «incorrect_mask», было принято решение вручную курировать данные изображений «incorrect_mask», чтобы включить только наиболее представленную версию неправильного ношения маски, которая был с показом маски и носа.

В классе «маска» было примерно в 25 раз больше изображений, чем в классе «неправильная_маска». Поскольку у нас не было этического допуска для этого проекта, мы не смогли собрать собственные дополнительные изображения, чтобы исправить эту проблему. Обучение модели на таких несбалансированных данных приводит к возможности получения хороших показателей точности, в то время как никакие изображения класса меньшинства не были правильно идентифицированы.

Для решения этой проблемы был использован двусторонний подход. Во-первых, увеличение данных использовалось для увеличения количества изображений в каждом классе, чтобы они были примерно равными. Во-вторых, веса применялись к каждому из 3 классов, когда модель обучалась на данных, обеспечивая справедливое взвешивание каждого класса с учетом небольшого дисбаланса, который все еще существовал после увеличения[8].

Методы и модели

Двухклассовая модель: перенос обучения с использованием MobileNet

Для эффективного обучения модели на ограниченных данных была настроена предварительно обученная сеть MobileNetV2 (для обучения нейронной сети требуется очень большой набор данных). Сеть MobileNet изначально обучалась на наборе данных Imagenet. Поскольку мы также планировали использовать модель нейронной сети в таких приложениях, как приложения для мобильных телефонов, было важно, чтобы модель могла загружаться и выдавать результаты очень быстро. Нейронные сети MobileNet были разработаны с целью предоставления глубокой нейронной сети, которая могла бы работать на персональном мобильном устройстве, обеспечивая надежность, конфиденциальность и безопасность модели, достаточно эффективной для работы исключительно на клиенте [9].

Производительность модели

Модель была скомпилирована и обучена на дополненных данных с использованием оптимизатора Adam для итеративного обновления весов сети и повышения точности. В результате точность модели после обучения составила более 99%. Точность — это показатель, который используется для оценки моделей классификации и показывает процент правильно предсказанных классов. Например, если точность модели составляет 99%, это означает, что 99 из 100 прогнозов были сделаны правильно. На приведенном ниже графике показаны точность и потери (ошибки) модели, а точность 1,0 означает, что она близка к 100% (см. рис. 1). Эпоха указывает количество проходов всего набора обучающих данных, которые завершил алгоритм машинного обучения.

Модель трех классов

Модель 3 класса была построена с использованием предварительно обученной модели MobileNetV2. Модель MobileNet была импортирована, верхний слой был удален, веса базовых слоев были зафиксированы на их текущих значениях, а сверху было добавлено несколько дополнительных слоев для создания нашей модели. Трансферное обучение использовалось для обучения этих верхних слоев распознаванию изображений с лицом, которое либо правильно носит маску, либо неправильно носит маску (показывает нос), либо не носит маску.

Производительность трехклассовой модели

Был изучен ряд подходов для точной настройки точности нашей модели с тремя классами, включая изменения в архитектуре верхних слоев, добавленных в трансферном обучении [10]. Приведенная ниже матрица путаницы (см. рис. 2) представляет собой пример производительности, достигаемой в настоящее время нашей моделью. Видно, что для каждого класса по крайней мере 65% изображений в тестовом наборе правильно помечаются нашей моделью.

При анализе графика потери (ошибка) и отзыва (процент правильно предсказанных изображений от общего числа изображений для определенного класса) в зависимости от эпох (количество раз алгоритм обучения работает со всем обучающим набором данных перед настройкой параметров для оптимизации), похоже, что полнота модели в целом приближается к 80 %.

Это говорит о том, что с большим количеством эпох обучения в нашем текущем наборе данных наша модель может достичь среднего отзыва около 0,8 (см. Рисунок 3). В этом конкретном случае в качестве показателя производительности предпочтение отдавалось отзыву, а не точности, потому что для несбалансированных классов точность не оптимизирует производительность каждого класса равномерно. Учитывая, что вариант использования этой модели включает в себя правильную идентификацию каждого из 3 классов без предпочтения одного класса другому, отзыв более полезен для оптимизации [11].

Жизнеспособность и необходимость трехклассовой модели

Учитывая многообещающие результаты нашей модели проверки концепции (POC) с тремя классами, несмотря на ограниченные данные для обучения, мы считаем, что можно улучшить нашу модель, учитывая более крупные и разнообразные наборы данных с аналогичным представлением каждого класса. С точки зрения решения о том, что представляет собой неправильное ношение маски, можно использовать разные подходы. Может быть полезно создать несколько классов неправильных масок, чтобы идентифицировать различные функции, присутствующие в разных типах неправильного использования масок, т.е. для создания классов для присутствия маски и носа или присутствия маски и рта. Этот подход, скорее всего, будет использовать программное обеспечение для распознавания лиц и адаптировать его для распознавания наличия определенных черт лица без других черт лица, как описано в статье National Geographic [12]. Преимущества использования модели с тремя классами по сравнению с моделью с двумя классами включают государственное образование и возможность направить это образование туда, где оно необходимо, а также более жесткий контроль над предприятиями, которым необходимо дать некоторые гарантии общественной безопасности, такие как как супермаркеты и публичные библиотеки.

использованная литература

[1] Кто.инт. 2020. Коронавирусная болезнь (COVID-19) — события по мере их возникновения. [онлайн] Доступно по адресу: ‹https://www.who.int/emergencies/diseases/novel-coronavirus-2019/events-as-they-happen› [По состоянию на 10 октября 2020 г.].

[2] Министерство здравоохранения. 2020 г. Первый подтвержденный случай нового коронавируса в Австралии. [онлайн] Доступно по адресу: ‹https://www.health.gov.au/ministers/the-hon-greg-hunt-mp/media/first-confirmed-case-of-novel-coronavirus-in-australia› [ По состоянию на 10 октября 2020 г.].

[3] Covid19.who.int. 2020 г. Информационная панель ВОЗ по коронавирусным заболеваниям (COVID-19). [онлайн] Доступно по адресу: ‹https://covid19.who.int/› [По состоянию на 10 октября 2020 г.].

[4] Х. Ной, Вопросы и ответы: как передается COVID-19?, 14 июля 2020 г. [Онлайн]. Доступно: https://www.who.int/vietnam/news/detail/14-07-2020-q-a-how-is-covid-19-transmitted. [По состоянию на 7 октября 2020 г.].

[5] 7 октября 2020 г. [Онлайн]. Доступно: https://covid19.who.int/table. [По состоянию на 7 октября 2020 г.].

[6] Обнаружение лиц с использованием каскадов Хаара [в сети].

[7] Л. Геддес, Наиболее распространенные способы неправильного ношения масок, The Guardian, 2020 г. [Онлайн]. Доступно: https://www.theguardian.com/world/2020/oct/02/the-most-common-ways-were-wearing-face-masks-incorrectly. [Доступ: 7 октября 2020 г.].

[8] Б. Бхатт, Веса классов для обработки несбалансированных наборов данных, YouTube, 2020 г. [Онлайн]. Доступно: https://www.youtube.com/watch?v=Kp31wfHpG2c&t=74s&ab_channel=BhaveshBhatt. [Доступ: 1 октября 2020 г.].

[9] М. Сандлер, А. Ховард, MobileNetV2: новое поколение сетей компьютерного зрения на устройстве, блог Google AI, 2020 г. [онлайн]. Доступно: https://ai.googleblog.com/2018/04/mobilenetv2-next-generation-of-on.html. [Доступ: 10 октября 2020 г.].

[10] Дж. Браунли, Как управлять емкостью модели нейронной сети с помощью узлов и слоев, Мастерство машинного обучения, 2020. [Онлайн]. Доступно: https://machinelearningmastery.com/how-to-control-neural-network-model-capacity-with-nodes-and-layers/. [Доступ: 1 октября 2020 г.].

[11] С. Гонейм, Точность, отзыв, точность, F-показатель и специфичность, что оптимизировать?, Medium, 2020 г. [онлайн]. Доступно: https://towardsdatascience.com/accuracy-recall-precision-f-score-specificity-what-to-optimize-on-867d3f11124. [Доступ: 14 октября 2020 г.].

[12] В. Ян, Пришло распознавание лиц — к лучшему или к худшему, National Geographic, 2020 г. [Онлайн]. Доступно: https://www.nationalgeographic.com/science/2020/09/face-mask-recognition-has-arrived-for-coronavirus-better-or-worse-cvd/. [Доступ: 10 октября 2020 г.].