Nodulee - результат сотрудничества Ашиша Малхотры и Джована Сардиньи

Фон

Рак легких - один из наиболее распространенных видов рака (как у мужчин, так и у женщин) в Канаде и США [1] [2]. Большинство случаев рака легких диагностируется на поздних стадиях (2–4), когда выживаемость составляет всего 17% [3]. Раннее выявление рака легких имеет решающее значение, поскольку дает один из лучших шансов на выживание.

Технология низкодозной компьютерной томографии (КТ) показала, что при раннем обнаружении вероятность смерти снижается на 20% [4]. Однако компьютерная томография ранних случаев приводит к высокому уровню ложноположительных результатов, составляющему около 25% [5].

Эта проблема

Можем ли мы использовать машинное обучение, чтобы помочь радиологам выявлять признаки и прогнозировать вероятность рака на ранней стадии с меньшим количеством ложноположительных результатов?

Наш подход

На следующей диаграмме представлен обзор нашего подхода:

Более подробная версия этого подхода будет представлена ​​в следующих сообщениях блога. Весь наш код находится в открытом доступе здесь.

Используемые технологии

Это решение было построено с использованием Tensorflow 1.0 (с включенным графическим процессором), pydicom, pylidc и XgBoost с использованием Python 3.

Мы использовали экземпляр NC12 в Azure: 12-ядерный ЦП, 2 x K80 GPU (1 физическая карта), 2 ТБ на жестком диске.

Используемые наборы данных

Набор данных LIDC-IDRI: состоит из компьютерных томографов для диагностики и скрининга рака легких с размеченными аннотированными очагами.

Набор данных LUNA16: подмножество данных LIDC-IDRI, которые использовались для обучения модели идентификации конкреций.

Набор данных Data Science Bowl 2017: содержит компьютерную томографию с вероятностью рака 1 стадии.

Метрика оценки: как мы измеряем успех

Основным показателем, используемым для оценки общей производительности модели, были два класса потери журнала, как определено ниже:

куда,

n: количество пациентов в тестовой выборке

y: метка правды (1 для рака, 0 для не рака)

ŷ: прогнозируемая вероятность того, что изображение принадлежит больному раком. (1 для рака, 0 в противном случае)

log () - натуральный логарифм по основанию e

Эта метрика использовалась, поскольку она сильно наказывает чрезвычайно уверенные ложные срабатывания и ложные отрицания в задаче многоклассовой классификации. Такая метрика вынуждает необобщенные модели предсказывать близкие к наивным оценкам.

Следите за обновлениями в следующих статьях, в которых мы расскажем, как мы построили различные части конвейера, и идеи, которые мы достигли в процессе.

[1] «Лица рака легких». Лица рака легкого - Канада. Рак легких, Канада, 1 ноября 2015 г. Web. 13 марта 2017 г.

[2] «Информационный бюллетень о раке легких». Американская ассоциация легких, 10 января 2017 г. Интернет, 10 марта 2017 г.

[3] Сигел Р.Л., Миллер К.Д., Джемал А. «Статистика рака», 2016 г. Калифорния: Онкологический журнал для клиницистов. 2–16; 66: 7–30.

[4] Аберл Д. Р., Адамс А. М., Берг С. Д. и др. «Снижение смертности от рака легких с помощью низкодозовой компьютерной томографии». N Engl Med. 2011; 265: 395–409

[5] КТ с низкой дозой исторически приводила к высокому уровню ложноположительных результатов, составляющему около 25% (Aberle, et. al., New England J Med, 2011, 365: 395–409)