Как настроить глубокие нейронные сети для решения задач анализа медицинских изображений

Глубокие нейронные сети захватили мир штурмом в последние годы, и сейчас существует множество успешных приложений для решения задач анализа изображений. Нейронные сети часто создаются на «естественных» изображениях; повседневные изображения, снятые обычными камерами RGB. В последнее время глубокие нейронные сети также были адаптированы и развернуты для обнаружения аномалий на медицинских изображениях, таких как рентгеновские снимки, КТ и МРТ, с большим успехом. Однако между этими двумя областями есть некоторые ключевые различия: медицинские изображения часто содержат количественную информацию, а объекты не имеют канонической ориентации. Учет этих различий и соответствующая корректировка алгоритмов может значительно повысить производительность.

Глубокие нейронные сети захватили мир штурмом в последние годы, и теперь существует множество успешных приложений для решения проблем в анализе изображений. Инструменты для систем безопасности и обнаружения пешеходов в беспилотных автомобилях могут сделать мир более безопасным и снизить количество аварий. Еще одна область, в которой ИИ может иметь огромное положительное влияние, - это мир медицины.

Несмотря на то, что проблемы внешне схожи, исследования по анализу изображений для естественных и медицинских изображений традиционно разделились. Анализ естественного изображения часто относится к таким проблемам, как обнаружение объектов, распознавание лиц и 3D-реконструкция с использованием изображений с обычных камер RGB. Анализ медицинских изображений влечет за собой такие задачи, как обнаружение заболеваний на рентгеновских изображениях, количественная оценка аномалий на МРТ, сегментация органов при компьютерной томографии и т. Д.

Методы глубокого обучения для классификации печально известны тем, что требуют данных. Что касается проблем естественного анализа изображений, это часто решается путем извлечения большого количества фотографий из социальных сетей и привлечения неспециалистов к аннотации с помощью краудсорсинга [1]. Что касается медицинских проблем, эти данные часто труднее получить, и для маркировки требуются дорогие специалисты, а это означает, что методы глубокого обучения требуют больше времени, чтобы найти свой путь к анализу медицинских изображений. В результате многие алгоритмы классификации создаются на основе естественных данных и впоследствии корректируются с учетом медицинских проблем.

Между естественными и медицинскими данными есть несколько ключевых различий. Наиболее очевидным является формат данных: естественные изображения обычно представляют собой двухмерные (пространственные) изображения RGB, тогда как медицинские данные могут иметь любую форму, такую ​​как двухмерная шкала серого, двухмерная с 4 каналами, трехмерные объемы и даже четырехмерные (объемы меняются с течением времени). Однако есть и более тонкие различия. Их учет может подтолкнуть производительность к продуктам, пригодным для клинического использования.

Дисперсия и инвариантность

Глубокие нейронные сети генерируют иерархическое представление данных. Если это сделано правильно, окончательное представление будет подпространством, которое сохраняет все соответствующие источники вариации для задачи классификации (или регрессии) и игнорирует все остальное, то есть становится инвариантным для нерелевантных источников. Если мы хотим отличить кошек от собак, например, мы должны смотреть на источники вариаций, такие как форма ушей, их шерсть, размер хвоста и т. Д., Но обеспечивать инвариантность в отношении таких факторов, как точная интенсивность изображения, ориентация и размер животного.

В традиционных системах компьютерного зрения люди долго и упорно думали, чтобы придумать сложные алгоритмы обработки изображений, которые позволили бы создать подобное отображение. Глубокие нейронные сети могут научиться генерировать такое представление на основе обучающих данных, экономя огромное количество инженерных работ. Однако, чтобы изучить подходящее сопоставление, мы все равно должны убедиться, что архитектура и способ представления данных действительно позволяют модели игнорировать нерелевантные факторы и сосредотачиваться на соответствующих частях.

Различия в интенсивности

Для большинства задач классификации естественных изображений точная интенсивность изображения не имеет значения: кошка - это кошка на переэкспонированном или недоэкспонированном изображении. Поэтому в традиционных решениях таких проблем интенсивность и насыщенность часто игнорируются, а функции основаны на краях или градиентах: различиях между значениями пикселей.

Вариация интенсивности сыграла роль в одной из первых систем распознавания лиц. Метод, предложенный Терк и Пентланд [2], использует PCA для уменьшения размерности данных изображения и проецирования их на подпространство более низкой размерности. Эти «собственные лица» впоследствии используются для классификации с помощью простого «неглубокого» классификатора.

Поскольку интенсивность часто является одним из самых больших источников вариации в наборе данных естественных изображений и поскольку размеры подпространства, генерируемого PCA, обычно упорядочиваются по их дисперсии, первая пара измерений часто будет представлять интенсивность. Игнорирование этого значительно улучшит работу всего конвейера.

Поскольку глубокие нейронные сети изучают все эти преобразования из данных, ожидается, что они будут генерировать представление, инвариантное к изменениям интенсивности (если этого требует домен). При визуализации того, что изучается в глубоких сверточных нейронных сетях, мы часто видим, что первые несколько сверточных слоев состоят из краевых фильтров, подобных экстракторам признаков, которые использовались в традиционной системе компьютерного зрения, которые не реагируют на абсолютные изменения интенсивности. Кроме того, такие методы, как пакетная нормализация, способствуют инвариантным представлениям интенсивности, удаляя некоторые локальные изменения интенсивности.

Интенсивность в медицинских изображениях

Рентген - самый старый и самый распространенный метод медицинской визуализации. Он работает, посылая ионизирующее излучение через часть тела и подсчитывая количество фотонов, не поглощенных тканью. Низкое количество фотонов означает плотную ткань, тогда как большое количество фотонов указывает на более пористую область. Используя некоторые предположения, маммограммы (и, возможно, другие двумерные рентгеновские изображения) могут быть преобразованы в представление, в котором пиксели передают приблизительную информацию о плотности, и используются для количественной оценки объемной плотности груди, фактора риска рака [6].

Помимо создания 2D-изображений, рентгеновский снимок также может использоваться для создания 3D-объемов. КТ-сканирование создает такой объем, вращая датчик и детектор вокруг интересующей части тела и используя некоторый интеллектуальный алгоритм реконструкции. Поскольку рентгеновские лучи отправляются под любым углом, это дает гораздо более подробное представление и имеет дополнительное преимущество, заключающееся в том, что создание количественного представления является более простым и точным.

Обычно для представления этой информации используется шкала Хаунсфилда [7]. В этой шкале воздух имеет значение -1000, жир имеет значение между [-90, 130], разные типы костей имеют разные значения, разные типы крови имеют разные значения и т. Д.

Как упоминалось выше, для естественных изображений точное значение пикселя обычно не передает никакой информации. Для медицинских изображений это может быть наоборот: зная точное значение пикселя, КТ-изображение даст нам информацию о ткани, которую оно представляет. Удаление этой информации эффективно удалит части данных, которые могут иметь отношение к классификации определенных заболеваний или сегментированию частей изображения.

Это важно учитывать при обучении или настройке глубоких нейронных сетей на медицинские данные. Методы предварительной обработки, такие как стандартизация, не должны быть проблемой, если все выборки в обучающих и тестовых данных подчиняются одним и тем же константам нормализации. Однако уровни пакетной нормализации, где коэффициенты масштабирования зависят от пакетов, а не от всего обучающего набора, могут удалять часть информации и, как известно, снижают производительность в областях анализа медицинских изображений, таких как КТ.

Варианты местоположения

При обнаружении собак или кошек на изображениях их местоположение обычно не имеет значения: кошка остается кошкой, независимо от того, находится ли она в верхнем левом или нижнем правом углу изображения. Опять же, относительное местоположение может дать ключ к разгадке. Когда животное из семейства кошачьих обнаруживается рядом с телевизором, это скорее домашняя кошка, чем гепард.

При анализе изображений часто различают классификацию и обнаружение. В первом случае входом является изображение, а выходом - метка, во втором случае входом является изображение, а выходом - место с меткой. Большинство глубоких нейронных сетей для классификации имеют некоторую встроенную инвариантность трансляции, вызванную слоями max-pooling. Однако окончательная карта функций по-прежнему содержит относительную информацию: верхний левый пиксель в окончательной карте функций соответствует верхней левой части исходного изображения, верхний правый пиксель - верхней правой части и т. Д.

Ни традиционные системы обнаружения объектов, такие как детектор лиц Виолы-Джонса, ни более современные архитектуры обнаружения объектов, такие как R-CNN [3] и большинство его вариантов, не учитывают местоположение интересующей области. Это означает, что при использовании этих архитектур явная информация о местоположении теряется.

Расположение на медицинских изображениях

Точно так же, как интенсивность и масштаб, местоположение может быть признаком характера области на медицинском изображении. Опухоли чаще возникают в определенных частях груди; Поражения при рассеянном склерозе (РС) чаще всего появляются в определенных частях мозга. Таким образом, учет этой информации может улучшить производительность. Архитектуры обнаружения, работающие с медицинскими данными, обычно добавляют элементы местоположения вручную где-нибудь в модели [8], создавая систему координат и вычисляя местоположение обнаружений относительно ориентиров на изображении.

Различия в масштабе

Если мы хотим отличить собак от кошек, на самом деле не имеет значения, насколько они велики на изображении: кошка - это кошка, как крупным планом, так и вдалеке. Для большинства приложений компьютерного зрения это справедливо, потому что расстояние от объекта до камеры и такие вещи, как параметры камеры, как правило, не стандартизированы. Конечно, есть некоторые нюансы - кошки очень похожи на гепардов, если текстура шерсти не очень четкая, размер может быть сигналом, но только тогда, когда окружающие элементы могут быть использованы для оценки размера.

Масштабное пространство - это основа для анализа многомасштабного изображения (или сигнала в целом). Чтобы сгенерировать масштабное пространство, изображение сворачивается с использованием некоторой функции ядра с параметром масштабирования. Изменяя этот параметр масштабирования, можно выделить различные элементы изображения. В основополагающей статье Кендеринк [4] показал, что при некоторых разумных предположениях лучшим ядром для сокращения функции изображения является гауссовский

где дисперсия контролирует масштаб.

Популярные классические методы, такие как SIFT (масштабно-инвариантное преобразование признаков) [5], используют концепцию масштабного пространства для обнаружения и описания точек интереса на изображении, инвариантных к масштабированию. На этапе обнаружения используются свертки для определения основных точек изображения. На этапе описания вокруг этих точек создается небольшое окно, которое преобразуется в вектор признаков. Подобно операциям максимального объединения, которые генерируют некоторую пространственную инвариантность, мы можем использовать операцию max в пространстве масштабирования для создания масштабной инвариантности.

Точно так же, как интенсивность, учитывая разнообразный набор данных и правильные условия обучения, мы можем ожидать, что глубокая нейронная сеть сгенерирует внутреннее представление, инвариантное к масштабированию, если этого требует проблема.

Масштаб медицинских изображений

Масштаб - это еще один тип количественной информации, часто присутствующей при анализе медицинских изображений. Например, размер пикселя на рентгеновских изображениях обычно указывается в заголовке DICOM. Зная количество пикселей, которые занимает аномалия, и размер пикселей из заголовка, мы можем вычислить размер поражения на изображении.

Этот точный размер может быть важной характеристикой. Например, в маммографии (рентгеновские снимки груди) рак не инвариантен к масштабу: увеличение размера небольшого рака не приводит к реалистичной большой опухоли.

В архитектурах обнаружения объектов, таких как R-CNN [3], интересующие области извлекаются из изображения с использованием детектора кандидатов, такого как выборочный поиск, и затем вокруг этих областей интереса генерируются ограничивающие прямоугольники. Чтобы передать их в глубокую нейронную сеть, ящики деформируются до фиксированного размера, эффективно удаляя информацию о форме и масштабе.

В более поздних мета-архитектурах для обнаружения объектов, таких как Fast и Faster R-CNN, эта операция была заменена объединением областей интереса (ROI), которое выполняется в пространстве функций и может меньше страдать от той же проблемы. Однако этот тип кадрирования и изменения размера - обычная операция, с помощью которой можно удалить любую количественную информацию о размере аномалии, которая может быть важна для решения медицинских проблем.

Различная ориентация

В отличие от вышеупомянутых источников вариаций, ориентация может иметь значение для некоторых проблем компьютерного зрения. Большинство объектов в реальном мире имеют некоторую каноническую ориентацию: у пешеходов обычно голова вверху, а ноги внизу; автомобили имеют колеса близко к земле. Это даже более важно в задачах распознавания символов, таких как знаменитый набор данных MNIST: поворот шести на 180 градусов приведет к девяти, другому классу.

Глубокие нейронные сети и архитектуры обнаружения объектов обычно не изучают представления, инвариантные к ориентации, если этого не требуют обучающие данные.

Ориентация в медицинских изображениях

В отличие от естественных изображений, ориентация обычно не является важной характеристикой медицинских данных, а объекты на медицинских изображениях не имеют канонической ориентации. Например, срезы тканей на цифровых изображениях патологии помещаются на стекло без предварительного совмещения. То же самое касается опухолей груди, груди или головного мозга и многих других заболеваний. Несмотря на то, что фоновая ткань может иметь определенную структуру, зависящую от ориентации, сами аномалии этого не делают.

Вместо того, чтобы изменять нашу архитектуру, чтобы учесть этот источник вариаций, мы можем изменить ее, чтобы сделать ее менее восприимчивой к нему. Это сделано в недавней работе Коэна и Веллинга [9], которые вводят G-свертки, обобщение оператора свертки, которое не только эквивариантно (что означает, что результат операции ведет себя предсказуемым образом) по отношению к трансляции. , но также к дискретным операциям вращения и переворачивания. Эта модель показала отличную производительность при решении различных задач анализа медицинских изображений.

Заключение

Алгоритмы глубокого обучения - это мощные инструменты, которые из-за большей доступности обучающих данных обычно разрабатываются для естественных изображений (изображений повседневных объектов, записанных с помощью RGB-камер). В последнее время модели также были адаптированы и применены к задачам анализа медицинских изображений, таким как обнаружение рака на рентгеновских изображениях и сегментация тканей при МРТ.

В отличие от естественных изображений, медицинские данные часто содержат количественную информацию, которая может быть использована для улучшения работы нейронных сетей. Точная интенсивность пикселя, масштаб аномалий и их расположение на сканированном изображении могут быть важными подсказками. И наоборот, в отличие от анализа естественного изображения, ориентация часто не актуальна для задач анализа медицинских изображений. Изменение архитектур, разработанных для естественных изображений, и учет этих различий может значительно улучшить производительность алгоритма и подтолкнуть к созданию клинически жизнеспособных продуктов.

Благодарности

Большое спасибо Роберту, Расмусу, Джону, Марку, Маркусу и Джеку за их корректуру и предложения.

Ссылки

[1] Классификация ImageNet с глубокими сверточными нейронными сетями - Крижевский и др., NIPS 2012

[2] Терк, Мэтью А. и Пентленд, Алекс П. [Распознавание лиц с использованием собственных лиц]. Компьютерное зрение и распознавание образов, 1991. Труды {CVPR’91.}, {IEEE} Конференция компьютерного общества, 1991 г.

[3] Гиршик, Р., Донахью, Дж., Даррелл, Т. и Малик, Дж., 2014. Богатые иерархии функций для точного обнаружения объектов и семантической сегментации. В Труды конференции IEEE по компьютерному зрению и распознаванию образов (стр. 580–587).

[4] Кендеринк, Ян « Структура изображений », Биологическая кибернетика, 50: 363–370, 1984.

[5] Лоу, Д.Г., 1999. Распознавание объектов по локальным масштабно-инвариантным функциям. В Компьютерное зрение, 1999. Труды седьмой международной конференции IEEE по (Том 2, стр. 1150–1157). Ааааааааааааааааааааааа.

[6] ван Энгеланд, С., Снерен, П.Р., Хьюисман, Х., Бетес, К. и Карсемейер, Н., 2006. Оценка объемной плотности груди по цифровым маммограммам с полным полем обзора. Транзакции IEEE по медицинской визуализации, 25 (3), pp.273–282.

[7] Принс, Джерри Л. и Джонатан М. Линкс. Сигналы и системы медицинской визуализации. Река Аппер Сэдл, Нью-Джерси: Pearson Prentice Hall, 2006.

[8] Коой, Т., Литенс, Г., ван Гиннекен, Б., Губерн-Мерида, А., Санчес, К.И., Манн, Р., ден Хитен, А., и Карсемейер, Н., 2017. Крупные масштабы глубокое обучение для компьютерного обнаружения маммографических поражений. Анализ медицинских изображений, 35, стр.303–312.

[9] Коэн, Т., Веллинг, М .: Групповые эквивариантные сверточные сети. В: Int. Конф. по машинному обучению. (2016) 2990–2999