ConvNets для выявления аномалий на маммограммах DDSM

Вступление

Рак груди - второй по распространенности рак у женщин во всем мире. Примерно у 1 из 8 женщин США (около 12,4%) в течение жизни разовьется инвазивный рак груди. Пятилетняя выживаемость при раке молочной железы стадии 0 или стадии 1 близка к 100%, но на более поздних стадиях показатели резко снижаются: 93% для стадии II, 72% для стадии III и 22% для стадии IV. Восприятие человека для выявления повреждений оценивается в диапазоне от 0,75 до 0,92 [1], что означает, что до 25% аномалий могут первоначально остаться незамеченными.

DDSM - это хорошо известный набор данных нормальных и аномальных сканирований и один из немногих общедоступных наборов данных маммографической визуализации. К сожалению, размер набора данных относительно невелик. Чтобы увеличить объем обучающих данных, мы извлекаем области интереса (ROI) из каждого изображения, выполняем увеличение данных, а затем обучаем ConvNets на расширенных данных. ConvNets были обучены предсказывать, было ли сканирование нормальным или ненормальным.

Связанных с работой

Существует множество исследований по применению глубокого обучения для медицинской диагностики, но отсутствие доступных данных для обучения является ограничивающим фактором. [1, 4] используют ConvNets для классификации предварительно обнаруженных новообразований груди по патологии и типу, но не пытаются обнаружить новообразования при сканировании. [2, 3] обнаруживают отклонения, используя комбинации региональных CNN и случайных лесов.

Наборы данных

Набор данных MIAS - это очень небольшой набор изображений маммографии, состоящий из 330 сканированных изображений всех классов. Сканы стандартизированы до размера 1024x1024 пикселей. Размер набора данных сделал его непригодным для обучения, но он использовался для исследовательского анализа данных и в качестве дополнительного набора тестовых данных.

DDSM [6] - это база данных из 2620 сканированных маммографических исследований. Он содержит нормальные, доброкачественные и злокачественные заболевания с подтвержденной информацией о патологии. DDSM сохраняется как JPEG без потерь, архаичный формат, который не поддерживался в течение нескольких десятилетий.

Коллекция CBIS-DDSM [8] включает подмножество данных DDSM, отобранных и обработанных обученным маммографом. Изображения CBIS-DDSM были предварительно обработаны и сохранены как изображения DiCom, и поэтому имеют лучшее качество, чем изображения DDSM, но этот набор данных содержит только сканы с отклонениями. Чтобы создать набор данных, который можно использовать для прогнозирования наличия аномалий, области интереса были извлечены из набора данных CBIS-DDSM и объединены с нормальными изображениями, взятыми из набора данных DDSM.

Предварительная обработка

Чтобы создать обучающий набор данных адекватного размера, который включал как нормальные, так и аномальные сканирования, изображения из набора данных CBIS-DDSM были объединены с изображениями из набора данных DDSM. Хотя набор данных CBIS-DDSM включал обрезанные и увеличенные изображения областей интереса (ROI), чтобы иметь больший контроль над данными, мы сами извлекли ROI, используя маски, предоставленные с набором данных.

Для изображений CBIS-DDSM маски использовались для выделения и извлечения области интереса из каждого изображения. Для изображений DDSM мы разделили изображения на несколько перекрывающихся плиток, за исключением плиток, которые содержали непригодные для использования данные.

Для увеличения размера наборов данных использовалось как офлайновое, так и онлайн-расширение данных.

Наборы данных для обучения

Было создано несколько наборов данных с использованием различных методов извлечения ROI и объемов увеличения данных. Наборы данных варьировались по размеру от 27 000 обучающих изображений до 62 000 обучающих изображений.

Наборы данных с 1 по 5 не разделяли данные обучения и тестирования должным образом, и поэтому в этой работе не упоминаются.

Набор данных 6 состоял из 62 764 изображений. Этот набор данных был создан как можно больше, и каждая область интереса извлекается несколько раз несколькими способами с использованием обоих методов извлечения области интереса, описанных ниже. Каждая область интереса была извлечена с фиксированным контекстом, с заполнением, с исходным размером, и если область интереса была больше, чем наше целевое изображение, она также извлекалась как перекрывающиеся плитки.
Набор данных 8 состоял из 40 559 изображений. В этом наборе данных использовался метод извлечения 1, описанный ниже, чтобы обеспечить более широкий контекст для каждой области интереса. Этот набор данных был создан с целью классификации ROI по их типу и патологии.
Набор данных 9 состоял из 43 739 изображений. В предыдущих наборах данных использовались увеличенные изображения ROI, что было проблематично, так как требовалось предварительно идентифицировать и изолировать ROI. Этот набор данных был создан с использованием метода извлечения 2, описанного ниже.

Поскольку набор данных 9 был единственным набором данных, который не изменял размер изображений в зависимости от размера ROI, мы чувствовали, что он вносит наименьшее количество искусственных манипуляций в данные, что заставило нас сосредоточиться на обучении с этим набором данных.

Методы извлечения ROI для изображений CBIS-DDSM

Сканы CBIS-DDSM были относительно большого размера, со средней высотой 5295 пикселей и средней шириной 3131 пикселей. Были предоставлены маски, выделяющие ROI. Маски использовались для определения квадрата, полностью закрывающего ROI. Некоторое заполнение было добавлено к ограничивающей рамке для обеспечения контекста, а затем области интереса были извлечены в размере 598x598, а затем уменьшены до 299x299, чтобы их можно было ввести в ConvNet.

Области интереса имели средний размер 450 пикселей и стандартное отклонение 396. Мы разработали наши ConvNets для приема изображений 299x299 в качестве входных данных. Чтобы упростить создание изображений, мы извлекли каждую область интереса в плитку 598x598, которая затем была уменьшена вдвое по каждому измерению до 299x299. 598x598 было достаточно большим, чтобы в него могло уместиться большинство рентабельности инвестиций.

Чтобы увеличить размер обучающих данных, каждая область интереса извлекалась несколько раз с использованием методологий, описанных ниже. Размер и разнообразие данных также были увеличены за счет случайного горизонтального переворачивания каждой плитки, случайного вертикального поворота каждой плитки, случайного поворота каждой плитки и случайного позиционирования каждой области интереса внутри плитки.

Метод извлечения рентабельности инвестиций 1

Анализ данных UCI показал, что края аномалии важны для определения ее патологии и типа, и это было подтверждено рентгенологом. Леви и др. [1] также сообщают, что включение контекста было важным фактором для мультиклассовой точности.

Чтобы обеспечить максимальный контекст, каждая рентабельность инвестиций извлекалась несколькими способами:

Рентабельность инвестиций была извлечена с исходным размером 598x598.
Размер всей области интереса был изменен до 598x598 с заполнением для обеспечения контекста.
Если один размер ROI имел размер более чем в 1,5 раза больше другого, он извлекался в виде двух плиток, центрированных в центре каждой половины ROI по самому большому измерению.

Метод извлечения рентабельности инвестиций 2

Метод 1 полагался на размер ROI, чтобы определить, как его извлечь, что требует предварительной идентификации ROI. Хотя это позволило получить очень четкие изображения каждой аномалии, использование размера ROI для ее извлечения внесло элемент искусственности в данные, из-за чего их нельзя было хорошо обобщить для классификации необработанных сканированных изображений. Этот метод был разработан, чтобы устранить эту искусственность, никогда не изменяя размер изображений, а просто извлекая область интереса по ее центру.

Размер области интереса использовался только для определения того, сколько заполнения нужно добавить к ограничивающей рамке перед извлечением. Если ROI был меньше целевого значения 598x598, мы добавляли больше отступов, чтобы обеспечить большее разнообразие при взятии случайных культур. Если ROI был больше 598x598, в этом не было необходимости.

Если ROI был меньше плитки 598x598, он извлекался с 20% -ным заполнением с каждой стороны.
Если область интереса была больше плитки 598x598, она была извлечена с 5% отступом.
Затем каждая область интереса была случайным образом обрезана три раза с использованием случайного переворачивания и вращения.

Сегментация обычных изображений

Обычное сканирование из набора данных DDSM не имело ROI, поэтому обрабатывались по-другому. Поскольку эти изображения не были предварительно обработаны, как изображения CBIS-DDSM, они содержали артефакты, такие как белые границы, наложенный текст и белые пятна пикселей, используемые для сокрытия идентифицирующей личной информации. Каждое изображение было обрезано на 7% с каждой стороны, чтобы удалить белые границы.

Чтобы обычные изображения оставались такими же, как изображения CBIS-DDSM, для каждого созданного набора данных выполнялась различная предварительная обработка. Поскольку наборы данных 6 и 8 изменяли размер изображений в зависимости от размера области интереса, чтобы создать изображения DDSM для этих наборов данных, каждое изображение было случайным образом уменьшено со случайным коэффициентом от 1,8 до 3,2, а затем сегментировано на плитки 299x299 с переменным шагом от 150 до 200. Затем каждую плитку произвольно поворачивали и переворачивали.

Для набора данных 9 каждое изображение DDSM было разрезано на плитки 598x598 без изменения размера. Затем размер каждой плитки был уменьшен до 299x299.

Чтобы избежать включения изображений, которые содержали вышеупомянутые артефакты или которые в основном состояли из черного фона, каждая плитка затем добавлялась в набор данных только в том случае, если она соответствовала верхнему и нижнему порогам по среднему значению и дисперсии. Пороговые значения были выбраны путем случайной выборки плиток и корректировались до тех пор, пока большинство бесполезных плиток не было включено.

Баланс данных

На самом деле только около 10% маммограмм являются аномальными. Чтобы максимизировать отзывчивость, мы более серьезно отнесли наш набор данных к ненормальным сканированиям, с балансом на 83% нормальных и 17% ненормальных.

Набор данных CBIS-DDSM уже был разделен на данные обучения и тестирования, на 80% обучение и 20% тест. Поскольку каждая область интереса была извлечена в несколько изображений, чтобы предотвратить появление разных изображений одной и той же области интереса как в обучающем, так и в удерживающем наборах данных, мы сохранили это разделение. Набор тестовых данных был разделен поровну между контрольными и тестовыми данными, что гарантирует, что в обоих наборах данных появится не более одного изображения одной области интереса.

Нормальные изображения не перекрывались, поэтому были перемешаны и разделены между данными обучения, тестирования и проверки. Заключительные разделы: обучение на 80%, проверка на 10% и проверка на 10%. Было бы предпочтительнее иметь большие наборы данных для валидации и тестирования, но мы чувствовали, что проще использовать существующие подразделения и быть уверенными в отсутствии дублирования.

Все изображения были помечены как 0 для отрицательного / нормального и 1 для положительного / ненормального.

Архитектура ConvNet

Нашей первой мыслью было обучить существующие ConvNets, такие как VGG или Inception, на наших наборах данных. Эти сети были разработаны и обучены данным ImageNet, которые содержат изображения, которые полностью отличаются от медицинских изображений. Набор данных ImageNet содержит 1000 классов изображений, которые имеют гораздо большее количество деталей, чем наши отсканированные изображения, и мы чувствовали, что большое количество параметров в этих моделях может привести к тому, что они быстро переоценивают наши данные и плохо обобщают. Отсутствие вычислительных ресурсов также сделало обучение этих сетей на наших данных непрактичным. По этим причинам мы разработали собственные архитектуры специально для этой задачи.

Мы начали с простой модели, основанной на VGG, состоящей из сложенных сверточных слоев 3x3, чередующихся с максимальными пулами, за которыми следуют три полностью связанных слоя. В нашей модели было меньше сверточных слоев с меньшим количеством фильтров, чем у VGG, и полносвязные слои меньшего размера. Мы также добавили пакетную нормализацию [15] после каждого слоя. Затем эта архитектура подвергалась итерационной оценке и корректировке, при этом каждая итерация вносила одно и только одно изменение, а затем оценивалась. Мы также оценили методы, включая ветки в стиле начала [16, 17, 18] и остаточные связи [19].

Чтобы компенсировать несбалансированный характер набора данных, использовалась взвешенная функция кросс-энтропии, в которой положительные примеры взвешивались выше, чем отрицательные. Вес считался гиперпараметром, для которого оценивались значения от 1 до 7.

Наиболее эффективная архитектура будет подробно описана ниже.

Полученные результаты

Архитектура

Наилучшей производительностью была модель 1.0.0.35, состоящая из девяти сверточных слоев и трех полностью связанных слоев. Сверточные слои использовали философию VGG, со свертками 3x3, сложенными и чередующимися с максимальными пулами.

Графики также включали увеличение онлайн-данных и регулировку контрастности, которые были оценены.

Модели 1.0.0.29 и 1.0.0.45 имели ту же архитектуру, что и 1.0.0.35, но с другим масштабированием входных данных. Модель 1.0.0.29 принимает необработанные значения пикселей в качестве входных данных, 1.0.0.45 центрирует входные данные без их масштабирования, а 1.0.0.35 центрирует и масштабирует входные данные.

Уменьшенные версии VGG-16 и Inception v4 также были обучены на наборах данных. Обучение полных моделей потребовало больше времени и вычислений, чем было доступно, поэтому мы скорректировали архитектуры, уменьшив количество фильтров в каждом слое, а также настроив модели, чтобы они принимали изображения 299x299 в качестве входных данных.

Производительность

В таблице 1 показана точность и отзывчивость тестового набора данных для выбранных моделей, обученных бинарной классификации. Наиболее частая базовая точность для наборов данных составляла 0,83. Следует отметить, что отзыв 1,0 с точностью около 0,17 означает, что модель предсказывает все как положительное, в то время как точность около 0,83 с очень низким отзывом указывает, что модель предсказывает все как отрицательное.

На рисунке 3 показаны показатели обучения для модели 1.0.0.35, обученной на наборе данных 9 для двоичной классификации. Эта модель была обучена с кросс-энтропийным весом 6, что компенсирует несбалансированный характер набора данных и побуждает модель сосредоточиться на положительных примерах.

Таблица 2 показывает точность и отзывчивость выбранных моделей в наборе данных MIAS. Если вспомнить, что набор данных MIAS был полностью отделен от наборов данных DDSM и не связан с ними, эти результаты должны указывать на то, насколько хорошо модель будет работать на совершенно несвязанных изображениях.

Влияние кросс-энтропийного веса

Взвешенная кросс-энтропия использовалась для улучшения запоминания и противодействия несбалансированному характеру нашего набора данных. Увеличение веса улучшило отзывчивость за счет точности. При кросс-энтропийном весе от 1 до 3 наши модели сначала учились классифицировать положительные примеры, но через 15–20 эпох начали предсказывать все как отрицательные. Кросс-энтропийный вес от 4 до 7 позволил модели продолжать предсказывать положительные примеры и значительно снизил изменчивость результатов проверки. Перекрестные энтропийные веса выше 7 привели к улучшению отзыва за счет точности.

Эффект порога принятия решения

Бинарный классификатор softmax имеет порог по умолчанию 0,50. Мы использовали кривые pr во время обучения, чтобы оценить влияние корректировки порога. Мы обнаружили, что можем легко найти компромисс между точностью и отзывом, регулируя порог, что позволяет нам достичь точности или отзыва, близкого к 1,0. Мы также можем увидеть влияние использования разных пороговых значений на отзыв на рисунке 8.

На рисунке 4 представлена кривая для модели 1.0.0.35b.98 после 40 эпох обучения. Точки на линиях указывают порог 0,50. Точность указана по оси y, а отзыв - по оси x.

Заключение

Хотя мы смогли достичь лучших, чем ожидалось, результатов по наборам данных 6 и 8, искусственный характер этих наборов данных привел к тому, что модели не были обобщены на данные MIAS. Модели, обученные на наборе данных 9, который был построен специально, чтобы избежать этих проблем, не достигли такой высокой точности или отзывчивости, как модели, обученные на других наборах данных, но лучше обобщены для данных MIAS.

В то время как мы смогли добиться отзыва, превышающего человеческие возможности по данным DDSM, отзыв по данным MIAS был значительно ниже. Однако в качестве доказательства концепции мы считаем, что продемонстрировали, что ConvNets можно успешно обучить предсказывать, являются ли маммограммы нормальными или ненормальными.

Следует отметить, что мы не можем исключить возможность того, что сеть использовала информацию с каждого изображения, не связанную с наличием аномалий. Тот факт, что положительные и отрицательные изображения взяты из разных наборов данных, делает возможным то, что такие характеристики, как контраст изображений или самые высокие значения пикселей, играли важную роль. В настоящее время мы пытаемся решить эту проблему.

Принцип жизни и смерти диагностики рака создает множество препятствий для внедрения такой системы на практике. Мы считаем, что использование системы для вывода вероятностей, а не прогнозов, позволило бы такой системе предоставлять дополнительную информацию радиологам, а не заменять их. Кроме того, возможность регулировки порога принятия решения позволит рентгенологам сосредоточиться на более неоднозначных сканированиях, уделяя меньше времени сканированию с очень низкой вероятностью.

Дальнейшая работа будет включать создание системы, которая будет принимать в качестве входных данных полное неизмененное сканирование и анализировать его на предмет отклонений. В настоящее время мы работаем над применением семантической сегментации к сканированным изображениям, используя маски в качестве меток. Другие варианты включают раздвижные окна, FCN, YOLO и т. Д.

Исходный код

Исходный код для исследовательского анализа данных и создания наборов данных доступен в этом репозитории GitHub: https://github.com/escuccim/mias-mammography

Исходный код, используемый для создания и обучения моделей, доступен здесь: https://github.com/escuccim/mammography-models

Набор обучающих данных, не упомянутый в этой работе, но созданный с использованием описанных методов, доступен на Kaggle. Этот набор данных аналогичен набору данных 9, но с ослабленными критериями, используемыми для исключения плиток, что приводит к включению плиток, которые действительно содержат фон. Https://www.kaggle.com/skooch/ddsm-mammography

использованная литература

[1] Д. Леви, А. Джайн, Массовая классификация груди по маммограммам с использованием глубоких сверточных нейронных сетей, arXiv: 1612.00542v1, 2016

[2] Н. Дангел, Дж. Карнейро и А. П. Брэдли. Автоматическое массовое обнаружение на маммограммах с использованием каскадного глубокого обучения и случайных лесов. В «Вычислении цифровых изображений: методы и приложения» (DICTA), Международная конференция 2015 г., стр. 1–8. IEEE, 2015.

[3] Н. Дунгель, Дж. Карнейро, А. П. Брэдли. Глубокое обучение и структурированное прогнозирование для сегментации массы на маммограммах. В Международной конференции по медицинской обработке изображений и компьютерному вмешательству, страницы 605–612. Издательство Springer International, 2015.

[4] Х. Аревало, Ф. А. Гонсалес, Р. Рамос-Поллан, Х. Л. Оливейра и М. А. Г. Лопес. Репрезентативное обучение для классификации массовых поражений при маммографии с помощью сверточных нейронных сетей. Компьютерные методы и программы в биомедицине, 127: 248–257, 2016.

[5] Дуа, Д. и Карра Танискиду, Э. (2017). Репозиторий машинного обучения UCI [http://archive.ics.uci.edu/ml]. Ирвин, Калифорния: Калифорнийский университет, Школа информационных и компьютерных наук.

[6] Цифровая база данных для скрининговой маммографии, Майкл Хит, Кевин Бойер, Дэниел Копанс, Ричард Мур и У. Филип Кегельмейер, в материалах Пятого международного семинара по цифровой маммографии, MJ Yaffe, ed., 212–218, Medical Physics Издательство, 2001. ISBN 1–930524–00–5.

[7] Текущее состояние цифровой базы данных для скрининговой маммографии, Майкл Хит, Кевин Бойер, Дэниел Копанс, У. Филип Кегельмейер, Ричард Мур, Кьонг Чанг и С. Муниш Кумаран, в Digital Mammography, 457–460, Kluwer Academic Publishers , 1998; Материалы Четвертого международного семинара по цифровой маммографии.

[8] Ребекка Сойер Ли, Франсиско Хименес, Ассаф Хоги, Даниэль Рубин (2016). Курированная подмножество DDSM для визуализации груди. Архив изображений рака.

[9] Кларк К., Вендт Б., Смит К., Фрейманн Дж., Кирби Дж., Коппель П., Мур С., Филлипс С., Маффитт Д., Прингл М., Тарбокс Л., Прайор Ф. Архив визуализации рака (TCIA): обслуживание и эксплуатация Репозиторий общественной информации, Журнал цифровых изображений, том 26, номер 6, декабрь 2013 г., стр. 1045–1057.

[10] О. Л. Мангасарян и В. Х. Вольберг: «Диагностика рака с помощью линейного программирования», SIAM News, том 23, номер 5, сентябрь 1990 г., стр. 1 и 18.

[11] Уильям Х. Вольберг и О.Л. Мангасарян: «Многоповерхностный метод разделения паттернов для медицинской диагностики, применяемый в цитологии груди», Труды Национальной академии наук США, том 87, декабрь 1990 г., стр. 9193–9196.

[12] О. Л. Мангасарян, Р. Сэтионо, У. Х. Вольберг: «Распознавание образов посредством линейного программирования: теория и применение в медицинской диагностике», в: «Крупномасштабная численная оптимизация», Томас Ф. Коулман и Юин Ли, редакторы, SIAM Publications, Филадельфия, 1990, стр. 22–30.

[13] К. П. Беннетт и О. Л. Мангасарян: «Устойчивое линейное программирование различения двух линейно неразделимых множеств», Оптимизационные методы и программное обеспечение 1, 1992, 23–34 (Gordon & Breach Science Publishers).

[14] К. Симонян, А. Зиссерман, Очень глубокие сверточные сети для распознавания крупномасштабных изображений, arXiv: 1409.1556, 2014

[15] С. Иоффе и К. Сегеди. Пакетная нормализация: ускорение глубокого обучения сети за счет уменьшения внутреннего ковариантного сдвига. В материалах 32-й Международной конференции по машинному обучению, страницы 448–456, 2015 г.

[16] Ч. Сегеди, В. Лю, Ю. Цзя, П. Серманет, С. Рид, Д. Ангелов, Д. Эрхан, В. Ванхауке и А. Рабинович. Углубляем извилины. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 1–9, 2015.

[17] К. Сегеди, В. Ванхаук, С. Иоффе, Дж. Шленс и З. Война. Переосмысление начальной архитектуры компьютерного зрения. Препринт arXiv arXiv: 1512.00567, 2015.

[18] К. Сегеди, С. Иоффе, В. Ванхаук, Inception-v4, Inception-ResNet и влияние остаточных соединений на обучение, arXiv: 1602.07261v2, 2016

[19] К. Хе, Х. Чжан, С. Рен, Дж. Сун, Глубокое остаточное обучение для распознавания изображений, arXiv: 1512.03385, 2015

[20] Дж. Редмон, С. Диввала, Р. Гиршик, А. Фархади, You Only Look One: Unified, Real-Time Object Detection, arXiv: 1506.02640, 2015

[21] Р. Гиршик, Дж. Донахью, Т. Даррелл, Дж. Малик, Богатые иерархии функций для точного обнаружения объектов и семантической сегментации, arXiv: 1311.2524, 2013