Абхинав Маурья (Манотр) и Анкит Гоэль (Манотр)

Это работа по проверке концепции, призванная побудить правительства и организации открыть больше данных о COVID19 из открытых источников.

Аннотация: Вирус SARS-CoV-2 уже заразил более 2 миллионов человек (на момент публикации), вызвав пандемию COVID19 в масштабах, невиданных в последнее время. Проведена ограниченная, но многообещающая работа в области классификации изображений с использованием рентгеновских лучей и компьютерной томографии. В этой статье мы используем модели глубокого обучения, чтобы различать здорового человека, больного пневмонией и больного COVID19. Мы видим многообещающие результаты, поэтому экспериментируем с другими моделями и методами глубокого обучения. Далее мы экспериментируем с различными комбинациями обучающих и проверочных наборов из одного и того же набора данных, чтобы проверить надежность результатов. Мы изучаем наши результаты, ограничения и будущую работу в этом направлении. Мы надеемся, что этот документ может побудить врачей и правительства открыть больше данных в этой области.

В ближайшие дни мы обновим эту статью, добавив больше связанных работ и поделимся результатами других экспериментов.

Введение

На момент написания этой статьи COVID-19 насчитывает более 2 миллионов пациентов по всему миру. Многие страны закрыты, а международные поездки практически остановлены. В странах, где он все еще распространяется, внутренние поездки также были остановлены, а граждане были заперты в своих домах на несколько недель. Поскольку он распространяется со скоростью лесного пожара, страны изо всех сил пытаются получить наборы для тестирования, чтобы точно определить количество инфицированных в своих регионах. Количество выявленных инфицированных основано только на людях, прошедших тестирование, а не на тех, кому удалось выдать это за легкие симптомы или протекают бессимптомно, или умерли до того, как их можно было протестировать.

Текущие процедуры тестирования и наборы для тестирования в основном основаны на тесте полимеразной цепной реакции или ОТ-ПЦР. Другой популярной формой тестирования является серологическое тестирование для выявления случаев с легкими симптомами или без них. Многие организации работают над различными наборами для тестирования. Тестирование рассматривается как ключ к контролю и ограничению распространения этого вируса. Пациенты с положительным результатом на COVID-19 также получают рентгеновские снимки и компьютерную томографию для мониторинга распространения заболевания в легких.

Несколько радиологических организаций заявили, что это не следует использовать для прогноза, однако, поскольку мы движемся в мир постоянно растущего числа случаев, мы хотим подготовиться ко всем возможностям. Поэтому мы экспериментировали с моделями глубокого обучения для классификации пациентов с COVID-19, чтобы их можно было использовать в качестве автоматизированного инструмента, когда мы сможем получить достаточно данных для его правильного обучения. Одна из главных причин, побудивших нас представить эту работу, — создать основу для надежного POC, который может побудить организации и правительства начать загрузку данных изображений и других связанных данных в общественное достояние.

Этот документ разделен на следующие разделы; Связанные работы, где мы освещаем некоторые из наиболее выдающихся работ по визуализации при COVID-19; Обучающие данные для объяснения данных, с которыми мы работаем; Экспериментируйте, когда мы вникаем в детали нашей работы и результатов; Ограничения охватывают основные ограничения текущей работы; Заключение дает краткое изложение наших выводов; и, наконец, будущая работа, чтобы дать наше представление о том, к чему может привести эта работа, и о мотивах, стоящих за этой статьей.

Связанных с работой

Китайские исследователи опубликовали некоторые работы по рентгенографии и компьютерной томографии у пациентов с COVID-19. Они показали высокую чувствительность. Очень популярное исследование компьютерной томографии показало чувствительность более 95%. Тем не менее, КТ-сканирование для всех пациентов нецелесообразно, потому что комнату и устройства необходимо будет очистить после сканирования, а рекомендуемая процедура может потребовать помещения в карантин на срок до 3 часов. С другой стороны, широко распространены рентгеновские аппараты, включая портативные аппараты. Количество поверхностей, подлежащих санитарной обработке, в этом случае значительно меньше.
Со временем мы добавим ссылки и другую связанную работу.

Тренировочные данные

Количество данных, доступных для этого классификационного эксперимента, было очень ограниченным во время нашего эксперимента. Мы надеемся, что наши результаты побудят больше врачей размещать свои данные в открытом доступе. Набор данных, над которым мы работали, был собран из нескольких источников.

Рентгеновские изображения коронавируса: https://github.com/ieee8023/covid-chestxray-dataset [1]
Пневмония и нормальные изображения: «https://www.kaggle.com/paultimothymooney/chest-xray- пневмония"

Общее количество рентгеновских изображений: 188
Обучающие наборы: 150 изображений
Проверочные наборы: 38 изображений

Общий набор данных содержит 3 класса здоровых, пневмонию и COVID19.
Обычный: 62 изображения
Пневмония: 67 изображений
COVID19: 59 изображений

Эксперимент

Поскольку количество изображений очень мало, мы использовали подход трансферного обучения для создания наших классификаторов. Трансферное обучение — это популярный подход в глубоком обучении, при котором предварительно обученные модели используются в качестве отправной точки для задач компьютерного зрения и обработки естественного языка, учитывая огромные вычислительные и временные ресурсы, необходимые для разработки моделей нейронных сетей для решения этих задач, а также из-за огромных скачков в навык, который они обеспечивают по связанным проблемам. Здесь мы использовали предварительно обученные модели, такие как VGG Net и Alexnet, для построения модели классификатора. Мы удалили последний слой классификации этих предварительно обученных моделей и добавили один или два слоя FC. Веса VGG и Alex Net были заморожены, и только веса вновь добавленных слоев FC были обучены и оптимизированы. В таблице 1 указаны модели и их производительность в наборах данных для обучения и проверки, где FC означает полносвязные слои. Модели обучались в течение 50 эпох со скоростью обучения 0,0001.

Как мы видим, слои сети VGG + 2 FC дали наилучшие результаты как при обучении, так и при проверке наборов данных. Мы будем использовать эту сеть для остальных экспериментов и выводов.

Поскольку количество изображений очень мало, точность обучения и точность проверки сильно колебались. Следовательно, мы несколько раз обучали сеть видеть изменения, используя одни и те же гиперпараметры (сеть VGG + 2 слоя FC).

Как видите, точность обучения колеблется. Это может быть из-за меньшего количества обучающих выборок. Мы также обучили модель с различными комбинациями обучения и проверки, но с использованием той же сети и гиперпараметров.

Основываясь на этих результатах, мы можем сказать, что общая точность обучения составляет 0,85, а точность проверки — 0,91. Матрица эффективности модели классификации представлена ​​в таблице 4.

Эти цифры кажутся хорошими, но являются лишь индикатором. Эти цифры недостаточно надежны для практического использования, поскольку при изменении данных обучения цифры сильно различаются.

Ограничения

Объем используемых данных является нашим самым большим ограничением. Нам удалось получить данные только из [1]. Еще одно ограничение, которое мы заметили, заключается в том, что данные не помечены, в том смысле, что мы не знаем, через сколько дней после того, как у пациента был обнаружен COVID19, был сделан рентген. Другие сопутствующие данные пациента также неизвестны.

Вывод

Мы видим, что у нас есть хорошая матрица производительности для наших классификаторов, которая дает нам очень высокую точность в различении здоровых легких, пациентов с пневмонией и пациентов с COVID-19. Однако мы также видим огромные различия в результатах обучения по мере изменения наборов обучающих данных, что может быть связано с меньшим объемом доступных данных. Мы видели, как они стабилизировались в других задачах обработки изображений, поскольку в систему вводится больше данных для обучения.
Поскольку COVID-19 был объявлен глобальной пандемией, мы наблюдаем 5,7 миллиона случаев заболевания по всему миру. В текущем сценарии по-прежнему отсутствуют наборы инструментов тестирования для большинства стран и пациентов. Учитывая многообещающую надежность классификации, мы считаем, что рентгеновские лучи также могут использоваться в качестве раннего индикатора и инструмента тестирования для выявления пациентов с COVID-19. Это должно разгрузить наборы для лабораторного тестирования и позволить местным радиологическим лабораториям стать центрами тестирования. Аналогичные исследования в области компьютерной томографии также показали многообещающие результаты, но они дороже, а оборудование и центры труднее чистить после ухода пациента.
Мы надеемся, что с помощью этой статьи, ее многообещающих результатов и подчеркнутой ограниченности данных мы сможем побудить правительства, больницы и врачей начать делиться большим количеством рентгеновских снимков, компьютерных томограмм и других данных, основанных на изображениях. Классификация изображений — очень хорошо изученная область искусственного интеллекта и глубокого обучения. Имея больше данных о таких изображениях для COVID19, мы можем точно настроить наши модели, чтобы они стали более надежными и точными.

Будущая работа

Мы предлагаем создать автоматизированный инструмент для классификации COVID19, с помощью которого рентгенологи смогут напрямую передавать данные и получать почти мгновенные результаты о вероятности заражения. Такой инструмент может сэкономить драгоценные тестовые наборы и время врачей в неуверенных случаях, которым не придется вручную проводить множественные рентгеновские снимки и компьютерную томографию.

Если помеченные данные загружаются с разными стадиями пациентов, мы также можем использовать такие загруженные сканы для дальнейшей классификации и указания врачам, какие пациенты направляются на более серьезную стадию. Это сэкономит время врачам, а экономия нескольких минут на каждого врача сейчас тоже является преимуществом. Цель состоит в том, чтобы облегчить нагрузку на нашу перегруженную больничную систему, а также на врачей и медсестер, находящихся на передовой по всему миру, которые рискуют своими жизнями, чтобы сохранить нам жизнь.
Мы надеемся, что, если такие данные станут доступными, это откроет другие направления исследований для исследователей и специалистов по данным во всем мире.

использованная литература

  1. Набор данных COVID 19 https://github.com/ieee8023/covid-chestxray-dataset
  2. Набор данных Kaggle https://www.kaggle.com/paultimothymooney/chest-xray-pneumonia
  3. [Тао Ай и др.] Корреляция КТ грудной клетки и ОТ-ПЦР-тестирования при коронавирусной болезни 2019 (COVID-19) в Китае: отчет о 1014 случаях
  4. [Xie, et al] КТ органов грудной клетки при типичной пневмонии 2019-nCoV: связь с отрицательным результатом ОТ-ПЦР (https://pubs.rsna.org/doi/pdf/10.1148/radiol.2020200343)