Рак кожи является наиболее распространенным видом рака. Меланома, в частности, является причиной 75% смертей от рака кожи. Раннее и точное выявление может сделать лечение более эффективным. Этот пост посвящен обнаружению меланомы с использованием изображений поражений кожи.

Обнаружение меланомы представляет собой задачу бинарной классификации с двумя классами: доброкачественные и злокачественные. Был использован сильно несбалансированный Набор данных классификации меланомы SIIM-ISIC, содержащий образцы доброкачественных и злокачественных. Набор данных содержит около 32 000 доброкачественных образцов и только 584 злокачественных образца. Кроме того, имеется около 10 000 тестовых образцов. Простой метод обучения классификатора CNN — просто передать эти изображения. Однако модели глубокого обучения смещены в сторону большинства классов. Передискретизация образцов изображений класса меньшинств с использованием увеличения данных становится важной.

Чтобы устранить дисбаланс классов, мы обычно используем увеличение данных для класса меньшинства. Злокачественные образцы можно вращать, переворачивать и случайным образом обрезать, чтобы создать больше таких образцов. Однако мы также можем использовать генеративные модели, такие как GAN, для создания выборки меньшинства. В этом посте CycleGAN использовались для создания синтетических злокачественных образцов. CycleGAN — это вариант GAN, который выполняет преобразование изображения в изображение. Пары доброкачественных и злокачественных образцов вводятся в модель, и она учится преобразовывать доброкачественные образцы в вредные образцы и наоборот.

Используя CycleGAN, сгенерированные новые образцы, набор данных сбалансирован. Бинарный классификатор обучается путем точной настройки весов EfficientNet. Производительность аугментации данных на основе CycleGAN сравнивалась с традиционными методами аугментации данных (вращение, отражение, случайное кадрирование).

Детали архитектуры CycleGAN и функции потерь следующие:

  1. Генератор — три сверточных слоя с понижающей дискретизацией, за которыми следуют девять остаточных блоков и три сверточных слоя с повышающей дискретизацией.
  2. Остаточные блоки — два сверточных слоя и соединение с пропуском.
  3. Дискриминатор — дискриминатор PatchGAN с пятью свёрточными слоями.
  4. Функция потерь — потеря GAN — потеря MSE, потеря цикла — потеря L1, потеря дискриминатора — потеря MSE
  5. Двоичный классификатор – переносное обучение EfficientNet с потерей двоичной кросс-энтропии.

CycleGAN был обучен для 720 эпох с начальной скоростью обучения 0,0002 и λ = 10. После создания синтетических «злокачественных» выборок в общей сложности было доступно около 32 000 «злокачественных», таким образом уравновешивая набор данных. Теперь предварительно обученные веса EfficientNet были настроены для задачи бинарной классификации и протестированы на тестовом наборе из примерно 10 000 изображений. Никакой дополнительной аугментации данных здесь не производилось. На рис. 1 показаны некоторые синтетические «злокачественные» образцы, полученные из «доброкачественных» образцов с использованием предложенных методов. В дополнение к этому было введено сглаживание меток, чтобы улучшить качество генерируемых изображений.

Сравнительный анализ различных методов увеличения данных показан в таблице ниже. Метрика ROC AUC (площадь рабочих характеристик приемника под кривой) использовалась для оценки на тестовом наборе.

При использовании CycleGAN и сглаживания меток показатель ROC AUC для тестового набора вырос с 0,79 до 0,89, что указывает на то, что генеративные модели, такие как CycleGAN, могут быть эффективным методом для увеличения данных. Это также решает проблему дисбаланса классов, которая распространена в медицинской визуализации. Кроме того, сгенерированные изображения различаются, как показано на следующем рисунке.

Вот ссылка на репозиторий Github — https://github.com/sm823zw/Melanoma-Image-Augmentation-and-classification.