Часто самой сложной частью обучения модели машинного обучения является получение правильных данных. Это еще более верно для областей, где данные особенно конфиденциальны и конфиденциальны, таких как здравоохранение. Вот почему команды специалистов по обработке и анализу данных сейчас обращаются к синтетическим медицинским данным, чтобы иметь возможность создавать необходимые данные на лету.

В этой статье мы представим синтетические медицинские данные, а также рассмотрим некоторые из их наиболее многообещающих проектов, приложений и будущих возможностей.

Если у вас уже есть медицинские данные и вы хотите их пометить, ознакомьтесь с нашим Введением в маркировку медицинских изображений или нашим Руководством по форматам медицинских файлов. Затем попробуйте Ango Hub, ведущую в отрасли платформу аннотирования медицинских данных, совершенно бесплатно. Или поговорите с нами о том, как мы можем помочь решить ваши потребности в маркировке, предоставив в ваше распоряжение полностью управляемую рабочую силу для медицинской маркировки.

Потребность в синтетических медицинских данных

Данные являются основным действующим лицом в любом проекте машинного обучения, однако данные, специфичные для ваших нужд, трудно получить, особенно аннотированные данные. В медицинской сфере проблема нехватки данных для конкретных случаев использования стоит на порядок выше из-за многочисленных проблем, связанных с производством, передачей и использованием медицинских данных.

Таким образом, наборы медицинских данных редко встречаются в общедоступных репозиториях. Ниже приведены некоторые из многих причин, которые способствуют этому.

  • Время и доступность медицинских специалистов стоят дорого.
  • Создание медицинских данных требует дорогостоящего и специализированного оборудования.
  • Конфиденциальность касается данных и конфиденциальности пациентов.
  • Формат данных и протоколы передачи относительно неясны по сравнению с другими доменами.

Из-за этого затруднения создание синтетических данных может значительно облегчить доступность и стоимость медицинских данных. По сути, синтетические данные генерируются искусственными источниками, а не обязательно из реального мира. В мире машинного обучения синтетические наборы данных можно использовать независимо в сочетании с реальными данными для обучения моделей.

Генеративно-состязательные сети

Хотя существуют различные способы генерации синтетических данных, наиболее многообещающим подходом является использование генеративно-состязательных сетей (GAN). По сути, GAN предлагают жизнеспособный подход к созданию качественных синтетических изображений.

Однако следует отметить, что помимо создания синтетических данных, GAN могут использоваться для различных других задач, таких как адаптация домена, шумоподавление и передача модальности. Однако в рамках этой статьи мы сосредоточимся на создании синтетических данных.

GAN состоят из двух важных частей (отдельных моделей):

  • Генератор: при получении входного вектора генерируется выходной вектор (изображение). Упрощенно, цель генератора состоит в том, чтобы генерировать изображения, максимально похожие на реальные входные изображения.
  • Дискриминатор: при наличии тестового образца и реального образца он определяет, является ли тестовый образец реальным или нет. Дискриминатор наказывает генератор за неправдоподобные результаты.

Со временем, когда пара, Генератор и Дискриминатор, дополняют друг друга в обучении, каждый из них становится лучше в создании и различении синтетических изображений соответственно. Следовательно, сгенерированные изображения становятся достаточно реалистичными, чтобы их почти невозможно было отличить от реальных данных.

Эти данные, которые очень похожи на реальные данные, затем используются в качестве синтетических данных, которые можно использовать для множества приложений машинного обучения.

GAN для создания синтетических медицинских данных

Синтетические изображения глазного дна сетчатки

Описание: Медицинское сканирование сетчатки глаза с выделением кровеносных сосудов. Используется для выявления различных проблем с глазами и зрением.

Модальность: визуализация глазного дна сетчатки.

Репозитории:

Документы:

В приведенном выше примере входной вектор в генератор — это просто маска кровеносных сосудов сетчатки. С учетом этой маски генератор создает реалистичные изображения сетчатки глаза.

Синтетические поражения кожи

Описание: аномалии на поверхности кожи. Используется дерматологами и часто используется для раннего выявления рака кожи.

Модальность: изображения/фотографии (RGB).

Репозитории:

Документы:

В частности, в приведенном выше случае, учитывая маску, представляющую область поражения кожи, GAN генерирует реалистичные изображения, представляя, как поражения будут выглядеть на реальном пациенте.

Синтетические маммограммы

Описание: рентгеновское сканирование молочной железы для различных диагностических целей, таких как обнаружение рака молочной железы.

Модальность: рентген.

Статья: Синтез маммограмм высокого разрешения

Изображение выше представляет собой искусственно созданные маммограммы. Авторы постепенно обучают GAN генерировать маммограммы с более высоким разрешением, начиная с изображений 16 × 16 до 1280 × 1024.

Синтетический рентген грудной клетки

Описание: простой рентген, регенерация в основном сосредоточена на рентгенографии органов грудной клетки.

Модальность: рентген.

Бумага: Рентгеновский синтез

Авторы генерируют синтетические рентгеновские изображения с использованием масок легких. Авторы также утверждают, что сгенерированные изображения настолько реалистичны, что в тесте Тьюринга (классифицирующем изображения как настоящие или поддельные) клиницист достигает точности только 66%.

Синтетические МРТ головного мозга

Описание: МРТ головного мозга в основном используется для выявления опухолей и других аномалий.

Методичность: МРТ.

Статья: Искусственная магнитно-резонансная томография головного мозга на основе GAN

Используя маски опухолей, авторы обучают GAN выводить реалистичные МРТ головного мозга, которые содержат такие опухоли в определенных местах.

Еще несколько многообещающих примеров

Хотя приведенные выше примеры показывают удобство использования GAN для создания синтетических медицинских изображений, существует гораздо больше исследований, которые продвигают эту границу. Следующие статьи представляют собой интересное место для начала дальнейших исследований.

  1. Синтез МРТ в КТ с использованием GAN перевода изображений.
  2. Создание наборов данных сегментации с использованием имеющихся данных.
  3. Синтез изображения простаты
  4. Синтез изображения хирургического инструмента

Примечания и ограничения синтетических медицинских данных

Удобство использования изображений, сгенерированных GAN, выходит за рамки машинного обучения. Многие применения этих синтетических наборов данных были в обучении врачей. Это очень помогло бы с проблемами конфиденциальности, когда данные для обучения врачей ограничены.

Ведутся активные исследования генеративных моделей, и GAN — не единственный способ создания синтетических изображений. Например, вариационные автоэнкодеры, модели на основе потока, модели диффузии и т. д., и все они могут помочь в создании синтетических медицинских данных.

Преимущество GAN в производительности модели не совсем очевидно. Согласно этой бумаге, для случая использования автором синтетические медицинские данные не дали огромного преимущества в производительности. Производительность с/без синтетических данных остается одинаковой. Однако были проведены такие эксперименты, как этот эксперимент с синтетическим рентгеном грудной клетки, в которых авторы зафиксировали повышение точности.

Интересным примечанием является то, что визуально сгенерированные GAN изображения очень похожи на исходные изображения, и врачи часто не проходят тест Тьюринга, чтобы отличить сгенерированные машиной изображения от исходных, как указано здесь и здесь.

Одно фундаментальное ограничение заключается в том, что архитектуры GAN, как известно, чувствительны к гиперпараметрам, как указано здесь, что чрезвычайно затрудняет получение полезных синтетических данных, часто они выводят изображения, превосходящие номинал. Кроме того, разрешение изображения остается проблемой для изображений, сгенерированных GAN, поскольку, кроме этой бумаги, большинство сгенерированных изображений лежат ниже порога 1000 × 1000.

Заключение

Хотя это чрезвычайно многообещающее направление, многое еще предстоит изучить, чтобы сделать синтетические медицинские данные более пригодными для основных проектов машинного обучения. Тем не менее, темпы развития GAN феноменальны, и в следующие несколько десятилетий мы можем увидеть замечательное использование синтетических медицинских данных.

До этого периода данные, собранные и аннотированные квалифицированными специалистами, остаются наиболее приемлемой формой обучающих данных. В Ango AI мы гарантируем, что потребности всех наших партнеров в обучающих данных будут удовлетворены наилучшим образом, предоставляя индивидуальные наборы данных для их моделей, сохраняя при этом самые высокие стандарты качества.

Автор: Баладж Салим
Технический корректор: Онур Айдын

Первоначально опубликовано на https://ango.ai 26 июля 2022 г.