Ускорение глубокого обучения в области медицинской визуализации

Авторы Исаак Мадан и Дэвид Динди

Идея применения методов глубокого обучения к наборам данных медицинской визуализации - увлекательная и быстро развивающаяся область. Фактически, в недавнем выпуске журнала IEEE Transactions on Medical Imaging есть фантастическая гостевая редакция о глубоком обучении в области медицинской визуализации, в которой дается обзор текущих подходов, в которых эта область движется, и какие возможности существуют. Таким образом, мы вытащили некоторые из наших любимых самородков из этой статьи и резюмируем / расширяем их в форме вопросов и ответов, чтобы их было легче усваивать.

Почему глубокое обучение ценно в области медицинской визуализации?

Большинство интерпретаций медицинских изображений выполняется врачами; однако интерпретация изображений людьми ограничена из-за ее субъективности, больших различий между интерпретаторами и усталости.

Какие проблемы возникают при применении сверточных нейронных сетей для медицинской визуализации?

  • CNN требует большого количества помеченных данных. Большие наборы медицинских данных недоступны, потому что многие наборы данных являются собственностью и / или их трудно получить из-за соображений конфиденциальности.
  • Чаще всего наборы данных не аннотируются всесторонне из-за дороговизны и недостатка экспертных аннотаций в области медицины.
  • Более того, редкие заболевания в силу своей редкости недопредставлены в наборах данных. Если не учитывать должным образом, возникающий в результате классовый дисбаланс (т. Е. Ярлык болезни представлен недостаточно, а ярлык здорового - чрезмерно) может привести к смещению модели для прогнозирования ярлыка здорового.
  • Более того, в ситуациях, когда функции сильно коррелированы, а нормальный класс представлен чрезмерно, многие обучающие выборки являются избыточными и неинформативными.
  • Во многих приложениях для постановки обоснованного диагноза требуется нечто большее, чем просто медицинское изображение (например, лабораторные данные, демографические данные, предыдущая история болезни). Получение доступа и связывание этих данных с изображениями представляет собой еще одно препятствие.
  • Нестандартизированные показатели оценки, использование разрозненных наборов данных и различия в формулировке учебных задач - все это затрудняет отслеживание и сравнение достижений в данной области.

Как решаются проблемы?

Один из способов - это трансферное обучение, которое использовалось для преодоления нехватки больших наборов маркированных данных в медицинской визуализации. При трансферном обучении отдельная CNN обучается другой задаче с использованием другого набора данных. Функции, извлеченные из этой отдельной задачи, затем повторно используются для обучения CNN интересующей задаче медицинской визуализации. При повторном использовании функций таким образом требуется меньше примеров для достижения хорошей производительности. Одно из основных предостережений при переносе обучения состоит в том, что переработанные функции должны быть в целом полезными для решения двух отдельных задач.

Могу я попробовать это? Где я могу найти общедоступные данные?

Общедоступные наборы данных:

  • Проблема извлечения визуальных концепций в радиологии (VISCERAL). Аннотированные вручную рентгенологические данные нескольких анатомических структур (например, почки, легкого, мочевого пузыря и т. Д.) Из нескольких различных методов визуализации (например, КТ и МРТ). Они также предоставляют экземпляр облачных вычислений, который любой может использовать для разработки и оценки моделей по сравнению с эталонными тестами.
  • Архив изображений рака. Наборы данных визуализации рака для различных типов рака (например, карциномы, рака легких, миеломы) и различных методов визуализации.
  • Грандиозные задачи в области биомедицинского анализа изображений. Набор задач биомедицинской визуализации для облегчения сравнения новых и существующих решений за счет стандартизации критериев оценки. Вы также можете создать свой собственный вызов. На момент написания этой статьи существует 92 задачи, которые предоставляют загружаемые наборы данных.
  • Коллекция изображений Консорциум баз данных изображений легких (LIDC-IDRI). Коллекция диагностических и скрининговых КТ грудной клетки с аннотированными поражениями.
  • Каггловская диабетическая ретинопатия. Изображения сетчатки с высоким разрешением, аннотированные врачами по шкале тяжести от 0 до 4, для выявления диабетической ретинопатии. Этот набор данных является частью завершенного конкурса Kaggle, который обычно является отличным источником общедоступных наборов данных.
  • Международный симпозиум по биомедицинской визуализации 2015. Восемь грандиозных задач представлены на ISBI.
  • Задача Сегментация поражений при рассеянном склерозе, 2008 г. Коллекция снимков МРТ головного мозга для выявления очагов рассеянного склероза.
  • Проблема мультимодальной сегментации опухолей головного мозга (BRATS). Большой набор данных магнитно-резонансного сканирования опухолей головного мозга. С 2012 года они ежегодно расширяют этот набор данных и ставят перед ними задачи.
  • Coding4Cancer. Новая инициатива Фонда национальных институтов здоровья и биосетей Sage Bionetworks по проведению ряда задач по улучшению скрининга рака. Первый - для показаний цифровой маммографии. Второй - для выявления рака легких. Задачи еще не запущены.

Почему сложно построить большие общедоступные наборы данных медицинских изображений?

Как мы знаем, глубокое обучение извлекает выгоду из огромных объемов обучающих данных из больших наборов данных. Однако такие общедоступные наборы медицинских данных сложно построить. Это потому, что, как говорится в статье:

  • Получить финансирование для создания наборов данных сложно.
  • Для качественного аннотирования данных медицинской визуализации необходимы скудные и дорогостоящие медицинские услуги.
  • Из-за проблем с конфиденциальностью делиться медицинскими данными труднее, чем естественными изображениями.
  • Широта приложений в медицинской визуализации требует сбора множества различных наборов данных.

Задачи науки о данных (такие как вышеупомянутые большие вызовы) - которые дают точное определение задачи, которую необходимо решить, и определяют одну или несколько показателей оценки, которые обеспечивают справедливое и стандартизованное сравнение предлагаемых алгоритмов - помогают собрать массивные аннотированные данные. устанавливает, а также продвигает область вперед через стандартизацию.

Тем не менее, не всегда возможно получить аннотации значимого качества, особенно в специализированных, редких или экспертных случаях использования. Таким образом, это помогает нарисовать картину одного из многих интересных будущих направлений для этой области: вполне вероятно, что для того, чтобы использовать действительно большие данные, для которых ручные аннотации недоступны или трудно поддаются обработке, поле необходимо будет больше двигаться в сторону полуфабриката. -обучение с учителем и без учителя.

Куда мы отправимся отсюда? Открытые вопросы и будущие возможности:

  • Насколько важным и значимым будет переход к 3D-анализу по сравнению с 2D-анализом с точки зрения повышения производительности?
  • «На самом деле в большинстве работ используется обучение с учителем». Насколько значимым будет усовершенствование неконтролируемых и частично контролируемых подходов с точки зрения повышения производительности?
  • Сколько данных потребуется для решения определенных типов проблем? Что может сделать исследовательское сообщество, чтобы сделать большие наборы данных более высокого качества, критерии оценки и подходы доступными для других людей в этой области?

Авторы Исаак Мадан и Дэвид Динди. Исаак - инвестор Venrock (электронная почта). Дэвид является соучредителем компании по созданию скрытого ИИ (электронная почта). Если вы заинтересованы в глубоком обучении или поработаете над чем-то в этой области, мы будем рады получить от вас известие.

Подпишитесь на нашу электронную рассылку новостей здесь.

Запросы для стартапов - это информационный бюллетень о предпринимательских идеях и перспективах инвесторов, операторов и влиятельных лиц. Если вы думаете, что есть кто-то, кого мы должны упомянуть в следующем выпуске, назначьте его, отправив Айзеку электронное письмо.