Nodulee - результат сотрудничества Ашиша Малхотры и Джована Сардиньи
Фон
Рак легких - один из наиболее распространенных видов рака (как у мужчин, так и у женщин) в Канаде и США [1] [2]. Большинство случаев рака легких диагностируется на поздних стадиях (2–4), когда выживаемость составляет всего 17% [3]. Раннее выявление рака легких имеет решающее значение, поскольку дает один из лучших шансов на выживание.
Технология низкодозной компьютерной томографии (КТ) показала, что при раннем обнаружении вероятность смерти снижается на 20% [4]. Однако компьютерная томография ранних случаев приводит к высокому уровню ложноположительных результатов, составляющему около 25% [5].
Эта проблема
Можем ли мы использовать машинное обучение, чтобы помочь радиологам выявлять признаки и прогнозировать вероятность рака на ранней стадии с меньшим количеством ложноположительных результатов?
Наш подход
На следующей диаграмме представлен обзор нашего подхода:
Более подробная версия этого подхода будет представлена в следующих сообщениях блога. Весь наш код находится в открытом доступе здесь.
Используемые технологии
Это решение было построено с использованием Tensorflow 1.0 (с включенным графическим процессором), pydicom, pylidc и XgBoost с использованием Python 3.
Мы использовали экземпляр NC12 в Azure: 12-ядерный ЦП, 2 x K80 GPU (1 физическая карта), 2 ТБ на жестком диске.
Используемые наборы данных
Набор данных LIDC-IDRI: состоит из компьютерных томографов для диагностики и скрининга рака легких с размеченными аннотированными очагами.
Набор данных LUNA16: подмножество данных LIDC-IDRI, которые использовались для обучения модели идентификации конкреций.
Набор данных Data Science Bowl 2017: содержит компьютерную томографию с вероятностью рака 1 стадии.
Метрика оценки: как мы измеряем успех
Основным показателем, используемым для оценки общей производительности модели, были два класса потери журнала, как определено ниже:
куда,
n: количество пациентов в тестовой выборке
y: метка правды (1 для рака, 0 для не рака)
ŷ: прогнозируемая вероятность того, что изображение принадлежит больному раком. (1 для рака, 0 в противном случае)
log () - натуральный логарифм по основанию e
Эта метрика использовалась, поскольку она сильно наказывает чрезвычайно уверенные ложные срабатывания и ложные отрицания в задаче многоклассовой классификации. Такая метрика вынуждает необобщенные модели предсказывать близкие к наивным оценкам.
Следите за обновлениями в следующих статьях, в которых мы расскажем, как мы построили различные части конвейера, и идеи, которые мы достигли в процессе.
[1] «Лица рака легких». Лица рака легкого - Канада. Рак легких, Канада, 1 ноября 2015 г. Web. 13 марта 2017 г.
[2] «Информационный бюллетень о раке легких». Американская ассоциация легких, 10 января 2017 г. Интернет, 10 марта 2017 г.
[3] Сигел Р.Л., Миллер К.Д., Джемал А. «Статистика рака», 2016 г. Калифорния: Онкологический журнал для клиницистов. 2–16; 66: 7–30.
[4] Аберл Д. Р., Адамс А. М., Берг С. Д. и др. «Снижение смертности от рака легких с помощью низкодозовой компьютерной томографии». N Engl Med. 2011; 265: 395–409
[5] КТ с низкой дозой исторически приводила к высокому уровню ложноположительных результатов, составляющему около 25% (Aberle, et. al., New England J Med, 2011, 365: 395–409)