Погружаюсь в машинное обучение для выявления пневмонии на рентгенограммах грудной клетки

Введение

Я шел в слепую, у меня не было опыта машинного обучения и практически не было опыта программирования, но мне было любопытно, смогу ли я создать модель, которая сможет обнаруживать заболевания на рентгеновских снимках с помощью машинного обучения. Я чувствовал, что машинное обучение окажет огромное влияние на рентгенологию, поскольку уменьшит нагрузку рентгенологов. Может показаться, что у рентгенологов не так много работы, как у врачей-радиологов, поскольку они проводят большую часть своего времени, анализируя изображения на компьютере, но, основываясь на том, что у них есть 3–4 секунды, чтобы просмотреть изображение (Краткий обзор новостей персонала, 2015 г.), они пропитанный работой. Дело доходит до того, что нехватка времени для анализа каждого изображения приводит к ошибкам, таким как ошибки типа 2 или диагностические ошибки (Miller & Zois, 2021), в результате чего на них подают в суд. Проблема настолько серьезна, что 31% рентгенологов столкнулись с судебными исками, и 75% этих судебных исков связаны с ошибками 2-го типа (Miller & Zois, 2021). Я хочу изучить, насколько сложно использовать машинное обучение, и оценить качество прогностической модели, которую я могу сделать для новичка.

Первое, что я понял, это то, что у меня была всего неделя, чтобы провести исследование и создать прогностическую модель, которая не является реалистичной временной шкалой. Поэтому я искал альтернативные способы сделать модель, которая держала бы меня за руки на протяжении всего процесса. Я наткнулся на несколько платформ, таких как H2O.ai, Data Robot и т. д., которые будут создавать модели машинного обучения. В конце концов, я выбираю Data Robot из-за его удобного пользовательского интерфейса и простоты использования. Самое главное, Data Robot бесплатен с ограничениями, позволяющими мне исследовать платформу с моей скоростью. Таким образом, я начал строить модель машинного обучения с помощью Data Robot.

Процесс

Подготовка изображений и файла для построения модели

Первое, что мне нужно было сделать, это найти рентгеновские данные с файлом CSV, связанным с описанием того, что было найдено на каждом изображении. К счастью, я нашел конкурс Kaggle, который был проведен 3 года назад с целью создать модель, которая лучше всего могла бы предсказывать, показывает ли изображение, что у кого-то пневмония или нет. Таким образом, я поздно принял участие в конкурсе и смог загрузить файлы, содержащие рентгенограммы грудной клетки и файл CSV с описанием больных пневмонией. Все рентгенограммы грудной клетки были в формате DCM, который не поддерживается Data Robot; следовательно, мне пришлось преобразовать его в файл PNG. В итоге я использовал приложение под названием MicroDicom для просмотра файлов и экспорта их в файлы PNG. Приложение довольно быстрое, но мне нужно было преобразовать в PNG около 30 000 изображений, поэтому на их преобразование ушло более 4 часов. Моему компьютеру было трудно преобразовать все изображения одновременно, поэтому мне пришлось разделить их на 6 папок, в каждой из которых было около 4500 изображений.

Затем я попытался импортировать все свои папки в Data Robot, но существует ограничение на размер файла, в результате чего модель обучается с помощью 1 из 6 папок. Следовательно, мне пришлось удалить имена изображений из строк в CSV-файле; затем я вставил их относительный путь как собственную функцию в тот же файл CSV, используя python. Добавление относительного пути было необходимо, поскольку именно так Data Robot связывал изображения с данными, найденными в CSV-файле. В конце концов, я взял папку с рентгеновскими снимками и CSV-файл, сжал их и импортировал в Data Robot.

Построение и тестирование модели

Я импортировал заархивированный файл в Data Robot, и он выбрал лучшую прогностическую модель. Затем я взял модель и настроил ее, проведя 10 перекрестных проверок и удвоив количество слоев. После того, как модель была построена, я использовал одну из папок, содержащих рентгеновские снимки, для проверки производительности моей модели.

Результаты и обсуждение

Было обнаружено, что полученная модель имеет площадь под кривой (AUC) 0,8984, что указывает на то, что модель имеет больше шансов угадать, есть ли у кого-то пневмония или нет, чем случайное подбрасывание монеты. Чем ближе к 1, тем лучше модель.

Когда тестовые данные использовались для проверки модели, было обнаружено, что AUC составляет 0,8117, что все еще хорошо для прогностической модели, но уступает тому, что было ранее обнаружено на рисунке 1. Демонстрация способности модели предсказывать правильный ответ. отличаются сложностью изображений. Кроме того, это может указывать на то, что для повышения точности следовало использовать больше изображений.

Чтобы подробнее понять, что ищет компьютер, делая эти догадки. Data Robot предоставляет образцы рентгеновских снимков, наложенных на тепловую карту, чтобы указать, куда смотрел компьютер, как показано на рисунках 3 и 4.

Для начинающих это очень полезно для понимания того, на что именно смотрит модель, чтобы сделать прогноз, и дает уверенность в том, что модель смотрит на правильную область, поскольку могут возникнуть ошибки типа 1 или типа 2. В этом случае, если модель смотрела на локоть или ключицу, чтобы принять решение, это могло привести к тому, что она полагала, что у человека пневмония, когда он в порядке, или наоборот. К сожалению, эта модель ИИ не дала пример ошибки Типа 1 или Типа 2, но, как вы можете видеть на Рисунке 1, было 132 ложных срабатывания, поэтому предполагалось, что 132 изображения показывают пациентов с пневмонией, но на самом деле ни у кого ее не было. и 420 ложноотрицательных результатов, то есть у 420 человек не было пневмонии, но она действительно была.

Размышляя над этим проектом, я понял, что было бы лучше, если бы я оптимизировал порог распределения, чтобы порог был более строгим, чтобы гарантировать, что будет меньше ложноотрицательных результатов, поскольку отсутствие лечения у кого-то с пневмонией может ухудшиться. их состояние, чем если бы они лечились от пневмонии, но не болели ею, так как последствия были бы более тяжелыми для пациента с нелеченной пневмонией.

У меня не возникло проблем при использовании платформы Data Robot; импорт файла прошел без проблем, а создание самой модели заняло всего пару минут. Кроме того, использование внешних данных для тестирования модели прошло гладко. Единственный барьер, с которым я столкнулся, — это непонимание того, что означают результаты, поскольку я не знал, что означают некоторые слова, поэтому мне пришлось копаться в информационном руководстве, которое предоставляет Data Robot, чтобы понять все термины и то, что цифры означают. Самая большая проблема, с которой я столкнулся до использования Data Robot, заключалась в преобразовании файлов X-ray DCM в файлы PNG с помощью MicroDicom. Это произошло из-за сбоя программного обеспечения, когда одновременно конвертировалось слишком много фотографий, в результате чего на конвертацию всех фотографий ушло более 4 часов.

Простота использования платформ машинного обучения, таких как Data Robot, дает много возможностей радиологам, у которых нет времени на создание модели с нуля из-за низкой кривой обучения, но они хотят изучить технологию, чтобы улучшить свои возможности диагностики пациентов. Рентгенологи могли бы использовать его в качестве помощника, когда изображения сначала будут проходить через модель, а изображения с наибольшей уверенностью в том, что они предсказаны моделью, будут рассматриваться в течение более короткого промежутка времени, что позволит радиологам тратить больше времени на изображения с меньшая достоверность, которая потребует больше времени для обеспечения точного диагноза. Побочным эффектом использования модели в качестве помощника является уменьшение количества судебных исков, через которые проходят рентгенологи; экономия денег для больниц. Более того, это также может повысить качество жизни рентгенологов, поскольку им не придется работать долгие часы, как они работают.

Цитирование

- Сводка новостей персонала (2015, 12 августа). Колесо песчанки рентгенолога: интерпретация изображений каждые 3-4 секунды восемь часов в день в клинике Майо. Получено 14 августа 2021 г. с сайта https://appliedradiology.com/articles/the-radiologist-s-gerbil-wheel-interpreting-images-every-3-4-seconds-eight-hours-a-day-at- Клиника Майо"

- Зойс и Милл. (2021). Ошибки рентгенолога. Получено 14 августа 2021 г. с сайта https://www.millerandzois.com/malpractice-lawsuits-against-radiologist.html#:~:text=Do. На радиологов подали в суд хотя бы раз в своей карьере.

Погружаюсь в машинное обучение для выявления пневмонии на рентгенограммах грудной клетки

Введение

Процесс

Результаты и обсуждение

Вопросы по теме