Разработка инструментов глубокого обучения для классификации медицинских изображений

Вызов:

  • Разработайте алгоритмы глубокого обучения для классификации трехмерных медицинских изображений для более чем 20 потенциально одновременных заболеваний носовых пазух.
  • Создание алгоритмов и инструментов сегментации области интереса, регистрации и тепловой карты
  • Создание конвейеров приема, очистки, преобразования и предварительной обработки изображений для 3D CT в формате DICOM.
  • Разрабатывайте инструменты для достижения точности медицинского уровня, подходящие для приложений, требующих одобрения FDA.

Конвейеры глубокого обучения для медицинской визуализации

Для многих организаций использование всех возможностей и эффективности искусственного интеллекта начинается с изучения и создания эффективной дорожной карты. Поскольку ИИ сам может создавать новые предложения, продукты и услуги, здесь мы рассматриваем возможность развертывания машинного обучения и других инструментов на данных медицинских изображений для систематического улучшения диагностических инструментов. Проблемы со здоровьем являются фундаментальными проблемами для людей во всем мире, и улучшение услуг, методов доставки и точности диагностики имеет решающее значение для улучшения результатов в отношении здоровья. Сбор и автоматизация данных о здоровье играют не менее важную роль в решении проблем со здоровьем, поскольку отрасль работает над созданием автоматизированных систем диагностики и поддержки для улучшения ухода за пациентами.

Изучение проблем медицинской визуализации

Методы глубокого обучения, основанные на нейронных сетях и других алгоритмах, обладают огромным потенциалом для влияния на практику радиологии и медицинской визуализации в целом. В отличие от многих других областей медицины, почти все первичные данные, собираемые в медицинской визуализации, теперь являются цифровыми, и благодаря достижениям в области современных электронных медицинских карт, облачных сетей, инфраструктуры и распределения клинических данных эти цифровые данные поддаются анализу с помощью искусственного интеллекта. .

В результате появляется все больше и больше данных изображений, доступных для ответа на клинически значимые вопросы и для разработки передовых медицинских приложений. Модели глубокого обучения в сочетании с обработкой изображений можно использовать для обнаружения, диагностики, сегментации и моделирования с использованием необработанных данных МРТ, КТ, рентгена и цифровых патологий. Этот бум инноваций отчасти связан со значительным прогрессом в вычислительной обработке очень больших наборов данных. NVIDIA находится в авангарде этого вычислительного ренессанса благодаря своей архитектуре графических процессоров, и в совокупности эти достижения представляют собой разрушительную силу, которая создаст новые рынки и будет стимулировать трансформацию для многих медицинских устройств, поставщиков и организаций плательщиков, а также традиционных технологических компаний, входящих в пространство здравоохранения.

В последнее время было достигнуто несколько успехов в применении глубокого обучения к задачам медицинской визуализации, особенно в проектах по разработке алгоритмов для обнаружения диабетической ретинопатии, обнаружения рака молочной железы с помощью КТ, обнаружения поражений кожи с помощью дерматоскопических изображений, обнаружения метастазов рака в патологии и обнаружения. многочисленных анатомических состояний и переломов костей на рентгеновских снимках. Медицинская визуализация — это оптимальная возможность для успеха, основанного на глубоком обучении, потому что часто существует прямое сопоставление входных данных пикселей изображения с конкретным диагнозом и все более широкое одобрение регулирующими органами инструментов на основе ИИ. Кроме того, раннее выявление часто является основным фактором лечения и прогноза, поэтому выполнение рутинных обследований более дешевым и автоматизированным способом может значительно повлиять на результаты в отношении здоровья в долгосрочной перспективе.

SFL Scientific сотрудничает с организациями, чтобы ускорить разработку этих новых инструментов, сочетая анализ медицинских изображений и глубокое обучение. SFL Scientific объединилась с InformAI, хьюстонской ИИ-компанией, чтобы сосредоточиться на применении ориентированных на данные стратегий и технологических решений для создания инструментов поддержки принятия клинических решений с точностью медицинского уровня. Цель состояла в том, чтобы создать решения, отвечающие стандартам надежности и согласованности, необходимые для строгого использования в здравоохранении, а также перейти к одобрению FDA. Эти инструменты помогут клиницистам с расширенным интеллектом, обеспечивая скорость, фильтрацию и диагностические возможности, а также помогая смягчить мистицизм черного ящика ИИ.

InformAI и SFL Scientific повезло работать над приложениями, которые имеют клиническое значение и улучшают результаты лечения пациентов. Эти две компании находятся на вершине айсберга рынка для ученых, врачей и исследователей, чтобы извлекать информацию о неотложной помощи из все более доступных неструктурированных данных.

Медицинские приложения для глубокого обучения

Каждый год проводится более 700 000 хирургических процедур для лечения заболеваний, связанных с носовыми пазухами, и в Соединенных Штатах ежегодно тратится 10 миллиардов долларов на такое медицинское обслуживание. Использование компьютерной томографии (КТ) является основным методом визуализации, используемым для диагностики этих состояний, и операции выполняются для лечения состояний, связанных с воспалением мягких тканей, искривлениями носа, переломами и тканевыми образованиями. Вместе с командой исследований и разработок InformAI SFL Scientific работала над разработкой решений для классификации и прогнозирования таких состояний и болезненных состояний, связанных с носовыми пазухами, на основе 3D-КТ головы. Цель состояла в том, чтобы создать набор диагностических инструментов, основанных на классификаторах изображений с глубоким обучением, чтобы прогнозировать возникновение определенных заболеваний и помогать радиологам и врачам, ускоряя процесс диагностики.

Приложения глубокого обучения часто полагаются на чрезвычайно большие наборы данных, чтобы учиться и быть полностью репрезентативными для реальных условий, однако доступность наземных достоверных данных, аннотированных экспертами-радиологами и врачами, не всегда доступна по многим причинам, включая проблемы конфиденциальности, аспекты коммерциализации, соображений времени и рабочей силы и, конечно же, стоимости. Проще говоря, аннотирование медицинских данных дорого, утомительно и требует специальной команды с доступом к архивным случаям пациентов. Для некоторых редких заболеваний практически невозможно собрать достаточно репрезентативных примеров данных для использования в обучающих наборах данных.

В конце 2017 года InformAI и SFL Scientific начали совместную работу по разработке основанной на глубоком обучении системы для компьютерной диагностики, которая выводит на новый уровень интеллектуальные возможности устаревших решений для визуализации и клиник. Для достижения этих целей компания InformAI собрала одни из крупнейших в отрасли наборов данных изображений пациентов для разработки моделей обучения ИИ. Одной из самых больших проблем, с которыми сталкиваются специалисты в области медицинской радиологии, является операционная усталость, связанная с информационной перегрузкой и визуальным напряжением, связанным с просмотром медицинских изображений. По сути, эта проблема представляет собой «слабое звено» медицинского диагноза, которое часто замедляет принятие решений и, кроме того, может влиять как на объем, так и на качество этих медицинских решений. Ситуация усложняется тем, что во многих частях мира не хватает квалифицированного клинического персонала для диагностики этих показаний в местных сообществах. По всем этим причинам компьютерные диагностические инструменты могут повлиять на общий успех лечения пациентов и потенциально уменьшить количество медицинских ошибок, работая в качестве беспристрастного «вспомогательного инструмента» для снижения вариабельности и повышения специфичности показаний. Количество информации, доступной клиницистам, огромно, поэтому системы должны быть нацелены на сокращение времени, необходимого для выявления аномалий, и помочь повысить производительность врачей и связанную с этим точность диагностики. Точно так же автоматизация рутинного исследования изображений позволяет снизить нагрузку на медицинский персонал, который и без того ограничен во времени, особенно в неотложных или хирургических сценариях.

Как научить машину вести себя как рентгенолог и доверять ей как вспомогательному инструменту в клинических условиях? Когда рентгенологи изучают снимки пациентов, они учитывают историю болезни и внешние переменные, используя многолетнее обучение и опыт для выявления закономерностей в медицинских изображениях, которые исторически указывают на медицинскую проблему. Сегодня существуют обширные архивы историй болезни пациентов, которые можно использовать для такого алгоритмически управляемого проекта; это хранилище нормальных и аномальных точек в медицинской карте и соответствующие тесты изображений используются в качестве обучающих входных данных для создания пользовательских алгоритмов ИИ. Используя свое уникальное положение в отношении своих клиентов, InformAI работала с партнерами из Техасского медицинского центра над созданием библиотеки изображений, состоящей из 18 миллионов изображений, и с привлечением экспертов структурировала медицинскую маркировку более 20 000 КТ-исследований пациентов. Джим Хавелка, генеральный директор, считает, что это самая большая в своем роде библиотека помеченных изображений и аннотированных наборов данных, включающих состояния придаточных пазух носа.

Классификация болезней в 3D

Для машинного обучения хорошая производительность прогнозирования зависит от базовых критериев, качества данных и определений аннотаций. Была создана структура для просмотра и сегментации более 23 заболеваний на сканированных пазухах в определенные области и группы, что значительно уменьшило интересующую область результирующего стека 3D-изображений. Немасштабируемость содержания группы экспертов и объем данных, необходимых для этого, побудили к разработке методов обучения, которые могут использовать слабо помеченные обучающие наборы с глобальными и бинарными метками в этих областях для создания алгоритмов для быстрой дифференциации аномалий. из здорового состояния. Путем передачи все более сложных наборов данных в нейронную сеть, предварительной обработки, субдискретизации и использования методов увеличения для вычислительного получения большего объема данных со временем эти алгоритмы начинают вести себя как обученный рентгенолог, быстро выявляя аномалии и предоставляя доверительные интервалы для областей. что потребует второго, человеческого мнения. Несмотря на эти недавние достижения, автономные инструменты, не требующие участия врача и использующие прямое применение машинного обучения в здравоохранении, остаются проблемой, связанной с целью создания персонализированных прогнозов на основе больших объемов зашумленных, предвзятых и неструктурированных данных.

Тщательный исследовательский анализ данных имеет решающее значение, и проверка доступных изображений должна предшествовать разработке решения; понимание изменчивости, размера изображения, заболеваемости, модальностей и других параметров, непосредственно влияющих на окончательные решения.

Вместо обычных оттенков серого, которые человек-рентгенолог видит на КТ, компьютер представляет каждое изображение в виде матрицы чисел, представляющих яркость пикселя. Традиционные методы компьютерного зрения обычно включают в себя вычисление наличия числовых шаблонов в этой матрице, таких как границы для низкоуровневых функций, и применение алгоритмов машинного обучения, предназначенных для различения изображений на основе этих функций. Требуются значительный опыт и время, чтобы разработать лучшие функции для различения конкретных условий и разделения классов изображений. Эта проблема оптимизации различения признаков традиционно сложна, но является основой глубокого обучения; он использует иерархические абстракции и различные функциональные уровни для изучения представлений и признаков из данных. Сверточные нейронные сети (CNN) очень успешно используются для классификации изображений и других типов задач визуализации. Операции свертки, которые извлекают функции изображения, создают матрицы, а эти «слои» в CNN генерируют выходные матрицы, сложенные в объем. Затем этот объем может служить входными данными для другого слоя, который может обнаруживать более сложные функции на входном изображении. Затем каждый слой может быть рассчитан и преобразован в выходных узлах сети в вероятности для классификации. Поскольку предварительно обученные глубокие сети не доступны для наборов данных 3D-изображений для КТ или МРТ для базового тестирования, CNN для этих изображений необходимо обучать на необработанных данных пациентов с большими наборами размеченных данных для достижения желаемого процесса обучения/прогнозирования.

InformAI собрала большие объемы 3D-КТ-изображений в формате изображений DICOM из своей партнерской сети медицинских центров в Хьюстоне и наняла опытных рентгенологов для помощи в аннотации и диагностике. SFL Scientific работала с InformAI над преобразованием входных изображений и созданием обучающего набора данных, проделав обширную работу по настройке расположения зон заболевания в ответ на отзывы групп рентгенологов и клинических исследователей. Чтобы начать процесс создания функционального конвейера глубокого обучения, был разработан набор инструментов для проведения анонимных исследований пациентов, аннотирования и обработки необработанных данных DICOM в подходящем формате для разработки модели ИИ. Были разработаны инструменты для автоматизации извлечения целевых сегментов 3D-изображения из серии 3D-сканирований компьютерной томографии для подготовки и загрузки в модели CNN Tensorflow. Извлеченные сегменты соответствовали областям, которые рентгенологи используют для постановки диагноза на различных фронтальных, сагиттальных и аксиальных проекциях головы человека. Программные инструменты также уменьшили размер сканирования, сегментировали интересующую область заболевания, уменьшили шум изображения для повышения точности прогнозирования модели ИИ, а также снизили требования к памяти и время, необходимое для обучения. Поскольку эти размеры вокселей довольно велики, при сканировании примерно 400 x 400 x 300 пикселей, требуемая память превышала то, что обычно доступно для потребительского оборудования GPU.

Преодоление сложности данных 3D-изображения

В рамках предварительной обработки этого изображения были разработаны алгоритмы регистрации для точного выравнивания анатомических особенностей в интересующих областях, передискретизации и нормализации данных в процессе. Поскольку признаки болезни очень малы, иногда всего несколько вокселей, обучение CNN для обнаружения и начала обобщения конкретного заболевания в объеме, примерно в 300 000 раз превышающем размер болезни, требует многих эпох обучения и вычислительной масштабируемости; использование типичной вычислительной платформы для обучения этих больших CNN нецелесообразно. SFL Scientific объединила партнеров NVIDIA и Microsoft Azure для защиты экземпляров NC24s_v3 (24 ЦП/448 ГБ памяти), что позволило использовать сеть графических процессоров NVIDIA V100 в качестве вычислительной платформы, позволяющей разрабатывать проекты. Учитывая требования к приему и передаче данных для этого большого объема данных, команды использовали облачное хранилище блогов Microsoft Azure в качестве центрального репозитория, поскольку использование других схем хранения было нецелесообразно для поддержания высокой пропускной способности данных, необходимой во время операций обучения. Разрабатывая весь код и программное обеспечение изначально на Python и Tensorflow, системы поддерживают переносимость, простоту развертывания и работают в легко настраиваемых средах в разных местах.

Вместе InformAI и SFL Scientific разработали стек технологий глубокого обучения, включающий трехмерные модели CNN, состоящие примерно из 400 миллионов параметров, для определения целевого списка заболеваний. Поскольку точность окончательной модели зависит от качества набора данных, используемого для обучения глубокой нейронной сети, расширенное курирование, сборка и разработка предварительной обработки были критически важны при рассмотрении производительности. Чтобы уточнить модель InformAI, SFL Scientific провела обширный исследовательский анализ данных (EDA) в наборах данных, чтобы понять частоту и взаимосвязь заболеваний, и пришла к выводу, что, несмотря на наличие тысяч доступных аннотированных сканов, определенные дисбалансы классов, редкие состояния, и положительные примеры представляющих интерес состояний по-прежнему будут недопредставлены и не позволят достичь необходимой точности для жизнеспособности в реальных клинических условиях.

Чтобы решить эту проблему, SFL Scientific использовала методы увеличения данных для увеличения эффективного размера обучающих наборов за счет использования всех симметрий трехмерного пространства с использованием случайных поворотов, случайных преобразований, случайного масштабирования на небольшие величины, зеркального отображения и т. д. Как правило, есть два типы увеличения данных, которые могут быть развернуты: без потерь и с потерями. Учитывая трехмерный характер данных, увеличение без потерь относится к симметрии куба, где повороты, настройки яркости/контрастности или добавление шагов устранения шума сохраняют точность данных изображения. Увеличение с потерями состоит из небольших поворотов (менее 90 градусов), масштабирования и понижения дискретизации этих данных для нескольких представлений. В то время как аугментация без потерь может быть создана быстро за счет использования вычислительной мощности графических процессоров, когда данные считываются в сеть, аугментация с потерями требует медленных операций, которые создают новые данные в хранилище, поскольку каждое 3D-преобразование необходимо индивидуально вычислять и применять к каждому воксель.

Для обеспечения высокой пропускной способности данные с потерями необходимо генерировать заранее и сохранять независимо, что эффективно увеличивает объем хранимых данных. Создавая эти различные активы данных с меньшими входными данными и функциями, обучение по учебной программе может затем использоваться для постепенного обучения модели таким же образом, как люди изучают все более сложные задачи, постепенно усложняя процесс. В частности, эффективность обучения обычно намного выше, когда примеры представлены в обучении не случайным образом, а в осмысленном порядке, который постепенно иллюстрирует более сложные концепции и создает гораздо более надежную стратегию обучения. Кроме того, обучение по учебной программе можно рассматривать как общую стратегию глобальной оптимизации невыпуклых функций.

Для этих новых и сложных задач идентификации построение архитектуры сети и обучение с нуля — единственный способ достичь самых современных результатов и создать клинически жизнеспособные продукты. Каждый процесс может занять от нескольких недель до месяцев и потребовать многочисленных итераций между предварительной обработкой, качеством аннотаций и меток, а также бенчмаркингом сети по различным наборам параметров, изображений или заболеваний. Настройка гиперпараметров сложна для моделей глубокого обучения, потому что количество итераций в сочетании со временем итерации делает проблему неразрешимой. Полуавтоматические методы, которые постепенно перебирают различные комбинации, начинают разрабатываться, однако ничто не заменит глубокое понимание математических вариантов и использование передовых методов, аналогичных выполнению традиционных процессов НИОКР.

«Возможность сочетать большие наборы данных медицинских изображений от наших ведущих партнеров в области здравоохранения с исключительной вычислительной производительностью графических процессоров NVIDIA V100 и новой разработкой модели глубокого обучения от SFL Scientific сыграла решающую роль в создании нашего портфолио приложений для классификации изображений на основе ИИ».

— Джим Хавелка, генеральный директор InformAI

Модели можно развертывать в виде облачных сервисов или локально вместе с кабинетами для скрининга и хирургическими кабинетами. Если организации выбирают облачное решение (все основные поставщики облачных услуг имеют обширные ресурсы графических процессоров и могут поддерживать конвейеры данных и среды глубокого обучения), общая парадигма для эффективного решения проблемы масштабирования заключается в размещении модели, обучении, выводах, цикле обратной связи модели и т. д. и удаленное управление версиями модели. Затем каждое разработанное модельное решение может стать периферийным развертыванием лучшей обученной модели. Как правило, такие решения для развертывания на периферии устраняют потенциальные ограничения задержки, а также ограничения масштабируемости: необходимое периферийное программное обеспечение устанавливается локально, а масштабируемость может быть достигнута с помощью надлежащей облачной конфигурации, позволяющей эластично реагировать на использование по запросу.

InformAI работал со своими партнерами в области здравоохранения, чтобы собрать библиотеку изображений, состоящую из 18 миллионов изображений и структурированных медицинских маркировок более чем 20 000 исследований пациентов. InformAI сосредоточен на создании инструментов с поддержкой ИИ, которые помогают организациям здравоохранения повышать эффективность работы, результаты лечения пациентов и медицинскую диагностику. Работая в качестве вспомогательного инструмента, разработанный InformAI Sinus Classifier может помочь рентгенологам и врачам ускорить оценку и сортировку 3D-КТ, от рабочего процесса до фильтрации и диагностики заболеваний пазух с помощью средства просмотра изображений/алгоритма AI в точке. заботы.

SFL Scientific — консалтинговая фирма по обработке и анализу данных, работающая над обменом и развитием деловых и корпоративных инициатив, а также предоставлением технических идей, разработки моделей и вычислительных возможностей, необходимых для создания сложных продуктов и услуг. Являясь привилегированным поставщиком услуг NVIDIA, AWS и Microsoft, SFL Scientific создает гибкие архитектуры данных и вычислений корпоративного уровня, где мы можем собирать и развертывать инструменты в производстве. SFL Scientific обладает опытом мирового уровня в области здравоохранения и биотехнологий, используя знания предметной области и новые технологии для проектирования, прототипирования, интеграции и управления сложными системами искусственного интеллекта.

Для получения дополнительной информации об этом проекте и о том, как развивать возможности ИИ в радиологии, цифровой патологии или других методах медицинской визуализации, обращайтесь по адресу [email protected]