Как уроки, извлеченные из приложений компьютерного зрения в географии, повлияют на анализ биологических изображений

Автор: Ник Вейр (старший специалист по анализу данных, In-Q-Tel CosmiQ Works), Джей Джей Бен-Джозеф (член технического персонала, In-Q-Tel B.Next) и Дилан Джордж ( Вице-президент, технический персонал, In-Q-Tel B. Далее)

Это вторая часть сотрудничества между CosmiQ Works и B.Next, и она опубликована в обоих блогах.

Введение

В предыдущем посте было исследовано, почему автоматизированный анализ изображений (компьютерное зрение) изо всех сил пытается перейти от повседневных фотографий к спутниковым снимкам, и в этом посте мы исследуем, применимы ли эти уроки к быстрорастущей области автоматизированного анализа медицинской микроскопии. Оказывается, многие проблемы, связанные со спутниковыми изображениями (например, относительный размер, количество и изменчивость объектов, размер изображений, отсутствие хорошо размеченных данных), справедливы и для получения биологических изображений, особенно для данных микроскопии. Однако есть и явные различия (т. Е. Динамика рынка, более высокие пороги объяснимости, нормативные вопросы, связанные с диагнозами), которые напрямую повлияют на рост автоматизированного анализа медицинских изображений. Несмотря на эти критические различия, биологические изображения часто намного больше похожи на спутниковые изображения, чем на естественные сцены. Посмотрите сами (рисунок 1) - одна из этих вещей не похожа на другую:

Что такое биологическая визуализация?

Биологическая визуализация позволяет визуализировать организмы или составные структуры для понимания биологических процессов и используется для фундаментальных исследований или медицины. Медицинская визуализация - это разновидность биологической визуализации, которая фокусируется на клиническом использовании изображений для диагностики и мониторинга клинических состояний. Возможность отображать наше внутреннее тело было провозглашено одним из самых влиятельных достижений медицины за последнюю тысячу лет. Часто, если мы видим это, мы можем понять это, что было огромным благом для продвижения биологических и медицинских знаний. Биологическая визуализация включает в себя набор технологий, которые примерно делятся на две категории: визуализация в масштабе органа или тела (магнитно-резонансная томография (МРТ), компьютерная томография (КТ), рентгеновская визуализация, ультразвук и т. Д.) И микромасштабная визуализация. (гистопатологические слайды, флуоресцентная микроскопия, диагностическая микроскопия и т. д.). Вместе эти методы используются в целом ряде медицинских дисциплин, среди которых радиология, патология, гистология, дерматология и офтальмология. В целях нашего сообщения в блоге мы сосредоточимся в основном на изображениях, полученных с помощью микроскопии, чтобы подчеркнуть сходство со спутниковыми изображениями. Сравнение со спутниковыми изображениями будет поучительным и позволит нам использовать опыт IQT CosmiQ Works в возможностях и проблемах применения компьютерного зрения к изображениям сверху (рис. 1).

Чем биологические изображения похожи на спутниковые? Если говорить упрощенно, как при микроскопии, так и при использовании спутниковых изображений, вы смотрите на мир через соломинку. Соломинка (или, скорее, линза) либо находится на орбите, вращаясь вокруг нашей планеты, либо парит на относительно небольшом расстоянии над очень маленьким объектом, зажатым между двумя кусочками стекла на предметном стекле. Спутник или микроскоп позволяет нам видеть вещи, которые кажутся очень маленькими из-за расстояния или реального размера. В целом микроскопические изображения похожи на спутниковые изображения с точки зрения размера изображения, количества объектов, размера набора данных и наличия (или отсутствия таковых) высококачественных меток изображений.

Масштаб и количество объектов на микроскопических и спутниковых снимках

Интересующие объекты обычно очень малы как на спутниковых изображениях (например, здания, автомобили и т. Д.), Так и на микроскопических изображениях (например, клетки и субклеточные компоненты). Это резко контрастирует с повседневными изображениями, которые вы можете найти в Интернете. Мы посчитали количество ячеек на изображение в популярном наборе данных сотовых изображений HeLa_S3 (рисунок 2) и обнаружили, что они имеют примерно такую ​​же среднюю плотность объектов, как и здания в наборе данных космических изображений SpaceNet (см. Предыдущую запись в блоге), и более чем в 14 раз превышают плотность объектов набор данных естественных изображений COCO. Подразумевается, что аналогичные подходы к управлению плотностью объектов могут применяться как к спутниковым изображениям, так и к микроскопии.

Отсутствие четко размеченных данных

Как и во всех приложениях искусственного интеллекта, данные остаются критическим компонентом для разработки алгоритмов. Для обоих типов изображений не хватает высококачественных, легко доступных маркированных данных с открытым исходным кодом.

Во-первых, нехватка общедоступных изображений. Медицинские организации сохранили большое количество медицинских изображений от прошлых случаев. К сожалению, эти изображения нелегко распространить, сделать доступными или доступными для использования в исследованиях или разработке алгоритмов, отчасти из-за проблем с подбором наборов данных для машинного обучения. Наборы данных спутниковых снимков, такие как SpaceNet, представляют собой отличный шаблон для тщательно отобранных, хорошо размеченных наборов данных. Лицензия с открытым исходным кодом, бесплатная загрузка и четкая структура наборов данных SpaceNet, а также проблемы науки о данных, которые решаются параллельно с выпуском наборов данных, помогли большему количеству исследователей погрузиться в приложения компьютерного зрения для спутниковых изображений. Производители наборов данных для микроскопии могли бы реализовать многие из изученных там принципов. В то время как аналогичная работа проводится в биологии Medical ImageNet, хорошо организованным хранилищем радиологических изображений, и другими - см. Раздел ресурсов для других примеров хранилищ биологических изображений для приложений искусственного интеллекта - остаются проблемы.

Так же, как пять лет назад это было верно для геопространственных изображений, сегодня многие наборы данных микроскопии хранятся в эзотерических, а иногда и в частных форматах, с нечеткой каталогизацией содержимого и непоследовательными методами маркировки. Наборы данных несовместимы по качеству и количеству, с переменными метками и иногда с небольшим количеством обучающих примеров. Лицензирование часто запрещает или строго ограничивает коммерческое использование. Для многих наборов данных доступ должен утверждаться в индивидуальном порядке, а ИП и проект должны быть четко сформулированы. Напротив, обычные наборы данных повседневных изображений можно бесплатно загрузить с веб-сайта одним нажатием кнопки с понятными учебными пособиями для получения. В результате обычные исследователи машинного обучения избегают копаться в медицинских наборах данных из-за сложности получения. Предоставление бесплатного доступа к анонимным медицинским изображениям для исследовательских, правительственных и коммерческих целей со стандартизованными форматами данных и протоколами доступа ускорило бы инновации. Это может увеличить количество студентов, небольших стартапов и крупных коммерческих предприятий, разрабатывающих новые решения сложных медицинских проблем. IQT CosmiQ Works отметила такой рост интереса к приложениям геопространственного компьютерного зрения после выпуска своих наборов данных SpaceNet.

Выявление и внедрение средств обмена изображениями для использования в исследованиях и разработке машинного обучения ускорит разработку быстрых и точных средств анализа данных микроскопии и, следовательно, должно стать приоритетом.

Во-вторых, отсутствует хорошо маркированная медицинская визуализация из-за затрат и времени, связанных с экспертной маркировкой медицинских изображений для ИИ. Для маркировки биологических изображений необходимы высококвалифицированные специалисты - специалисты с биологической или медицинской подготовкой. Как правило, медицинская визуализация в ключевых областях - радиологии, патологии, гистологии, дерматологии, офтальмологии - полагается на экспертную качественную оценку изображений. Наличие обученных специалистов по маркировке изображений во многом будет определять полезность хранилищ изображений для разработки алгоритмов количественной оценки. Однако экспертная маркировка стоит дорого, требует много времени и часто недоступна для создателей наборов данных. Пытаясь преодолеть эти препятствия, многие создатели наборов данных обращаются к «краудсорсингу» или привлечению к работе над проектом большого количества людей. Многие краудсорсинговые подходы реализуются онлайн и асинхронно с использованием пула неспециалистов. Краудсорсинговые подходы использовались для разработки геопространственных карт, особенно во время кризиса, такого как стихийное бедствие. Эти подходы могут быть эффективными, хотя они по-прежнему требуют серьезной проверки со стороны экспертов, а попытки краудсорсинга меток спутниковых изображений без тщательной проверки постфактум привели к некачественным наборам данных. Скорее всего, это будет еще более верно в медицинской сфере. Это указывает на то, что опять же, применение краудсорсинговых подходов к медицинской визуализации будет ограничено наличием обученных с медицинской точки зрения валидаторов, хотя это может сократить время, необходимое этим экспертам для получения высококачественных данных.

Наем обученных людей для маркировки - альтернативный подход, хотя он очень дорогостоящий. SpaceNet использует этот подход для своих наборов данных спутниковых снимков, стоимость которых составляет примерно 10 000–25 000 долларов США на здания и дорожные обозначения города. В результате получился очень полный высококачественный набор этикеток, но он обходится значительно дороже, чем краудсорсинговые решения. DARPA использовало аналогичный подход для маркировки экспертных ультразвуковых данных для разработки моделей искусственного интеллекта. Ультразвук представляет собой классический пример, когда понимание эксперта принципиально важно для создания высококачественных этикеток с изображениями, которые можно легко преобразовать в другие типы медицинских изображений. Короче говоря, маркировка или проверка экспертами могут иметь важное значение для создания ценных наборов данных микроскопии, хотя присущие им затраты огромны.

Технологические подходы разрабатываются для автоматизации маркировки данных в других областях. Необходимо будет проверить, можно ли будет успешно использовать эти подходы для получения изображений биологических объектов. Независимо от метода маркировки, данные с маркировкой качества важны для разработки алгоритмов компьютерного зрения. Варианты и технологии для быстрой маркировки изображений значительно продвинули бы эту область и должны стать приоритетной областью для развития.

Нехватка специалистов по машинному обучению с опытом работы в области медицинской визуализации или биологии

Хотя количество специалистов по обработке данных, инженеров машинного обучения и экспертов в области искусственного интеллекта быстро растет, остается нехватка экспертов в предметной области, которые также могут предоставить экспертные знания в области машинного обучения в некоторых областях. Это представляет собой серьезный барьер для геопространственных исследований, в которых необходимо разбираться в системах географических координат, деталях спутниковой коллекции и других предметных областях, чтобы эффективно проводить исследования компьютерного зрения. То же самое, вероятно, еще более верно в исследованиях медицинской микроскопии, где понимание фенотипов заболеваний и клеточной физиологии имеет решающее значение для определения объема и реализации решения для компьютерного зрения. Быть двуязычным - говорить о биотехнологиях И машинном обучении - уникально и ценно. Дафна Коллер, генеральный директор компании Insitro, специализирующейся на машинном обучении и биологии единорогов, описывает двуязычие способности своей команды как их секретный соус. Этот секретный соус окупился, потому что в начале 2019 года Insitro собрала раунд серии A на 100 миллионов долларов, что дало им много ресурсов. Наличие талантов в обеих областях - машинном обучении и биологии - будет определять, как быстро приложения искусственного интеллекта будут разрабатываться и применяться в биологии в целом и в области визуализации биологических объектов в частности.

Отсутствие легкодоступных данных

Доступность помеченных наборов данных - еще одна важная проблема для разработки алгоритмов. В настоящее время академические и открытые (общедоступные код и методы, без каких-либо частных ограничений) исследовательские сообщества опередили многие правительственные и коммерческие решения в области прикладных программ компьютерного зрения. Это было верно на ранних этапах исследований геопространственного компьютерного зрения (и, возможно, остается верным сегодня в некоторых областях), и предоставление открытых наборов данных, таких как SpaceNet, позволило этим сообществам быстро улучшить методы анализа. По аналогии, предоставление легкодоступных, хорошо маркированных наборов данных микроскопии с открытым исходным кодом может улучшить критически важные академические медицинские исследования. Кроме того, компании, занимающиеся микроскопическим анализом, начали использовать сообщество компьютерного зрения с открытым исходным кодом через соревнования Kaggle, которые полагаются на высококачественные наборы данных с открытым исходным кодом. Однако см. Раздел о вопросах конфиденциальности, связанных с медицинскими данными ниже. Короче говоря, обмен медицинскими данными может быть проблематичным с учетом правил конфиденциальности.

Чем биологическое изображение НЕ похоже на геопространственное изображение?

Есть несколько причин, по которым получение биологических изображений не похоже на геопространственные изображения, в том числе ограничения на совместное использование данных из-за правил конфиденциальности, более высокие пороговые значения для объяснимости в медицинских изображениях и размер рекламы рынки, стимулирующие развитие в соответствующих областях.

Конфиденциальность. Передача медицинских данных ограничена правилами конфиденциальности, и это также относится к медицинской визуализации. Большинство исследований машинного обучения медицинской визуализации основано на данных отдельных учреждений, поскольку правила конфиденциальности ограничивают возможность обмена медицинскими данными. Количество и разнообразие данных от отдельных организаций ограничат универсальность моделей, разрабатываемых таким образом. Поиск творческих подходов к обмену этими медицинскими данными между учреждениями поможет продвинуться вперед в этой области. Федеративные методы обучения, при которых модели и веса используются в разных учреждениях, но данные не передаются, могут быть способом преодоления препятствий для передачи данных из-за правил конфиденциальности. Необходимо изучить и протестировать дополнительные нормативные и технологические подходы.

Объяснимость: проблема черного ящика - то есть невозможность понять, как некоторые сложные модели ИИ принимают свои решения - возможно, более остро стоит для применения ИИ в медицине, чем в геопространственных изображениях. . Например, алгоритм компьютерного зрения может идентифицировать рак на слайде с патологией, но не сообщать патологу, почему и какие особенности приводят к такому результату. Поскольку такое непонимание снижает уверенность в результатах, особенно когда модели дают неверные прогнозы, это, вероятно, затруднит внедрение ИИ врачами и вызовет опасения среди регулирующих органов. Напротив, применение ИИ для создания рекомендаций по фильмам или книгам может иметь высокую устойчивость к плохим результатам или пониманию причин рекомендаций. Понятно, однако, что в медицине, если модель порождает решение, которое не может быть понято специалистом-человеком, тогда меньше людей примут рекомендации или подход к моделированию, особенно в строго регулируемых областях, таких как медицина. Разрабатываются методы объяснимого искусственного интеллекта (XAI), чтобы выделить участки или особенности изображения, которые имели решающее значение для результатов модели. Например, подходы XAI позволили бы алгоритму компьютерного зрения идентифицировать рак на слайде с патологией И продемонстрировать особенности слайда, которые были важны для результата. Достижения XAI будут особенно полезны для медицинских приложений.

Рынки: Мировой рынок медицинской визуализации в настоящее время составляет более 30 миллиардов долларов и будет продолжать расти примерно на 5,1% в течение следующих пяти лет. Компьютерное зрение может улучшить диагностику широкого спектра заболеваний и повлияет на отрасль здравоохранения в целом, которая в США оценивалась в более чем 3 триллиона долларов в 2018 году. Это заметно больше, чем глобальный рынок спутниковых изображений и дистанционного зондирования, который, по оценкам внутреннего рынка IQT CosmiQ Works, составляет около 3 миллиардов долларов с годовым ростом примерно 8,4% - на основе анализа рынка IQT CosmiQ Works. Учитывая соответствующие размеры рынка, можно было бы наивно ожидать, что для достижений в области применения машинного обучения для медицинской визуализации будет доступно больше ресурсов, чем для геопространственных изображений. Размер рынков повышает вероятность того, что крупные игроки в сфере ИИ, такие как Google, Microsoft, Facebook и Amazon, продолжат поиск существенных инвестиций в здравоохранение.

Действительно, относительно ограниченные инвестиции, которые некоторые из этих групп сделали в геопространственное, оказали большое влияние на сообщество, подчеркивая, насколько мощными могут быть такие усилия.

Вывод:

Чему ИИ на спутниковых снимках может научить нас в продвижении ИИ в области биологической визуализации?

В целом, получение биологических изображений похоже на спутниковые изображения и поможет нам рассмотреть проблемы и возможности, связанные с применением компьютерного зрения к биологическим изображениям. Медицинский микроскопический анализ сталкивается со многими из тех же препятствий, что и геопространственная аналитика: отсутствие хорошо размеченных наборов данных для разработки моделей, расхождение с повседневными фотографиями, ограничивающее полезность трансферного обучения, и существенные требования к знаниям в предметной области. Дополнительные нормативные препятствия, которые ИИ для медицинских приложений должен преодолеть, еще больше замедлят развитие; С другой стороны, коммерческая ценность медицинских методов искусственного интеллекта будет стимулировать предпринимателей, медицинские компании и фармацевтические компании вкладывать средства в развитие этих технологий.

Ресурсы:

1. SpaceNet - https://spacenet.ai, https://www.cosmiqworks.org

2. Medical ImageNet - https://aimi.stanford.edu/research/medical-imagenet

3. Клинический центр NIH опубликовал 32 000 изображений компьютерной томографии - DeepLesion - https://www.nih.gov/news-events/news-releases/nih-clinical-center-releases-dataset-32000-ct-images; Https://nihcc.app.box.com/v/DeepLesion

4. Клинический центр NIH опубликовал набор данных рентгеновского снимка грудной клетки: https://www.nih.gov/news-events/news-releases/nih-clinical-center-provides-one-largest-publicly-available-chest- рентгеновские наборы-научное сообщество ; Https://nihcc.app.box.com/v/ChestXray-NIHCC

5. Архив изображений рака - https://www.cancerimagingarchive.net