"Начиная"

Лучшие 10 проектов для начинающих в области компьютерного зрения и медицинской визуализации

Подробное практическое руководство для начинающих в области компьютерного зрения и машинного обучения

(ИИ) и информатика, которая позволяет автоматизированным системам видеть, т. Е. Обрабатывать изображения и видео по-человечески, чтобы обнаруживать и идентифицировать важные объекты или области, прогнозировать результат или даже преобразовывать изображение в желаемый формат [1] . Наиболее популярные варианты использования в области CV включают автоматическое восприятие автономного привода, дополненной и виртуальной реальности (AR, VR) для моделирования, игр, очков, электронной коммерции, ориентированной на недвижимость и моду или красоту. Обработка медицинских изображений (МИ), с другой стороны, включает в себя гораздо более подробный анализ медицинских изображений, которые обычно имеют оттенки серого, такие как МРТ, КТ или рентгеновские изображения, для автоматического обнаружения патологии - задача, для обнаружения которой требуется глаз обученного специалиста. Наиболее популярные варианты использования в области инфаркта миокарда включают автоматическую маркировку патологий, локализацию, ассоциацию с лечением или прогнозом и персонализированную медицину.

До появления методов глубокого обучения решения для обработки двумерных сигналов, такие как фильтрация изображений, вейвлет-преобразования, регистрация изображений, а затем модели классификации [2–3] широко применялись в рамках решений. Решения для обработки сигналов по-прежнему остаются лучшим выбором для определения базовой модели из-за их низкой задержки и высокой универсальности для наборов данных. Однако решения и фреймворки для глубокого обучения стали новым фаворитом из-за сквозного характера, который полностью исключает необходимость разработки функций, выбора функций и определения пороговых значений вывода. В этом руководстве мы рассмотрим «10 лучших проектов для новичков в областях CV и MI и предоставим примеры с данными и начальным кодом для самостоятельного обучения. .

Структуры решений CV и MI можно анализировать в трех сегментах: Данные, Процесс и Результаты [4]. Важно всегда визуализировать данные, необходимые для таких структур решений, чтобы они имели формат «{X, Y}», где X представляет данные изображения / видео, а Y представляет собой цель данных или метки. Хотя естественных немаркированных изображений и видеопоследовательностей (X) может быть много, получение точных меток (Y) может быть дорогостоящим процессом. С появлением нескольких платформ аннотации данных, таких как [5–7], изображения и видео могут быть помечены для каждого варианта использования.

Поскольку модели глубокого обучения обычно полагаются на большие объемы аннотированных данных для автоматического изучения функций для последующих задач обнаружения, домены CV и MI часто страдают от проблем с небольшими данными, когда количество образцов, доступных для обучения модели машинного обучения на несколько порядков меньше количества параметров модели. Проблема малого объема данных, если ее не решить, может привести к переобучению или неполному соответствию моделям, которые могут не распространяться на новые невидимые наборы тестовых данных. Таким образом, процесс разработки структуры решения для областей CV и MI всегда должен включать ограничения сложности модели, при этом модели с меньшим количеством параметров обычно предпочтительны для предотвращения неполного соответствия модели. Наконец, результаты структуры решения анализируются как качественно с помощью решений визуализации, так и количественно с точки зрения хорошо известных показателей, таких как точность, отзыв, точность и коэффициенты F1 или Dice [8–9].

Перечисленные ниже проекты имеют разный уровень сложности (уровни сложности легкий, средний, жесткий) в отношении предварительной обработки данных и построения моделей. Кроме того, эти проекты представляют собой различные варианты использования, которые в настоящее время преобладают в исследовательском и инженерном сообществах. Проекты определяются с точки зрения: цели, методов и результатов.

Проект 1: MNIST и Fashion MNIST для классификации изображений (уровень: легкий)

Цель: обработать изображения (X) размером [28x28] пикселей и классифицировать их по одной из 10 выходных категорий (Y). Для набора данных MNIST входные изображения представляют собой рукописные цифры в диапазоне от 0 до 9 [10]. Наборы обучающих и тестовых данных содержат соответственно 60 000 и 10 000 помеченных изображений. Вдохновленный проблемой распознавания рукописных цифр, был запущен другой набор данных, называемый набором данных Fashion MNIST [11], цель которого - классифицировать изображения (размером [28x28]) по категориям одежды, как показано на рис. 1.

Методы: Когда входное изображение маленькое ([28x28] пикселей) и изображения являются полутоновыми, модели сверточной нейронной сети (CNN), где количество сверточных слоев может варьироваться от одного до нескольких слоев, являются подходящей классификацией. модели. Пример построения модели классификации MNIST с использованием Keras представлен в файле colab:

Файл MNIST colab

Другой пример классификации набора данных Fashion MNIST показан в:

Модный файл MNIST Colab

В обоих случаях ключевые параметры для настройки включают количество уровней, отсев, оптимизатор (предпочтительны адаптивные оптимизаторы), скорость обучения и размер ядра, как показано в приведенном ниже коде. Поскольку это мультиклассовая проблема, функция активации softmax используется на последнем уровне, чтобы гарантировать, что только один выходной нейрон получит больший вес, чем другие.

Результаты. По мере увеличения количества сверточных слоев с 1 до 10 точность классификации также увеличивается. Набор данных MNIST хорошо изучен в литературе с точностью испытаний в диапазоне 96–99%. Для набора данных Fashion MNIST точность тестирования обычно находится в диапазоне 90–96%. Пример визуализации результата классификации MNIST с использованием моделей CNN показан на рисунке 2 ниже.

Проект 2: Классификация патологий для медицинских изображений (уровень: легкий)

Цель: Классифицировать медицинские изображения (полученные с помощью оптической когерентной томографии, ОКТ) как нормальные, диабетический макулярный отек (DME), друзы, хориоидальная неоваскуляризация (CNV), как показано в [12]. Набор данных содержит около 84000 обучающих изображений и около 1000 тестовых изображений с метками, и каждое изображение имеет ширину от 800 до 1000 пикселей, как показано на рисунке 2.

Методы: Глубинные модели CNN, такие как Resnet и CapsuleNet [12], были применены для классификации этого набора данных. Размер данных необходимо изменить до [512x512] или [256x256], чтобы их можно было использовать в стандартных классификационных моделях. Поскольку медицинские изображения имеют меньшие различия в категориях объектов для каждого кадра изображения по сравнению с немедицинскими изображениями на открытом воздухе и в помещении, количество медицинских изображений, необходимых для обучения больших моделей CNN, оказывается значительно меньше, чем количество немедицинских изображений. В работе [12] и OCT code base показано переобучение слоя ResNet для передачи обучения и классификации тестовых изображений. Параметры, которые необходимо настроить здесь, включают оптимизатор, скорость обучения, размер входных изображений и количество плотных слоев в конце слоя ResNet.

Результаты: Для модели ResNet точность теста может варьироваться от 94 до 99% за счет изменения количества обучающих изображений, как показано в [12]. Рис. 3. Качественно демонстрирует работу классификационной модели.

Эти визуализации создаются с использованием библиотеки Gradcam, которая объединяет активации слоя CNN с исходным изображением, чтобы понять области интереса или автоматически обнаруженные важные особенности для задачи классификации. Ниже показано использование Gradcam с библиотекой tf_explain.

Проект 3. Объяснение искусственного интеллекта для классификации изображений с несколькими метками (уровень: простой)

Цель: модели CNN обеспечивают сквозную доставку, что означает, что нет необходимости разрабатывать и ранжировать функции для классификации, и результат модели является желаемым результатом процесса. Однако часто бывает важно визуализировать и объяснить характеристики модели CNN, как показано в более поздних частях Проекта 2. Некоторыми хорошо известными библиотеками визуализации и объяснения являются tf_explain и Локальные интерпретируемые, не зависящие от модели объяснения (LIME). В этом проекте цель состоит в том, чтобы достичь классификации с несколькими метками и объяснить, что модель CNN рассматривает как функции для классификации изображений определенным образом. В этом случае мы рассматриваем сценарий с несколькими метками, в котором одно изображение может содержать несколько объектов, например, кошку и собаку в Colab for LIME.

Здесь вводятся изображения с кошкой и собакой, и цель состоит в том, чтобы определить, какие области соответствуют кошке или собаке соответственно.

Метод. В этом проекте каждое изображение подвергается суперпиксельной сегментации, которая делит изображение на несколько подобластей с аналогичными характеристиками цвета и текстуры пикселей. Количество разделенных подобластей можно указать вручную в качестве параметра. Затем вызывается модель InceptionV3, чтобы присвоить вероятность каждой субрегионе суперпикселей принадлежать к одному из 1000 классов, на которых изначально обучается InceptionV3. Наконец, вероятности объектов используются в качестве весов для соответствия модели регрессии, которая объясняет ROI, соответствующие каждому классу, как показано на рисунке 4 и приведенном ниже коде.

Результаты. Используя предложенный метод, можно объяснить области интереса на большинстве немедицинских изображений. Качественная оценка и объяснимость, показанные здесь, особенно полезны в критических случаях или в ситуациях, когда модель неправильно классифицирует или пропускает интересующие объекты. В таких ситуациях объяснение того, на что смотрит модель CNN, и повышение рентабельности инвестиций в соответствии с корректировкой общих характеристик классификации может помочь значительно уменьшить искажения, вызванные данными.

Проект 4. Перенос обучения для обнаружения двухмерных ограничивающих рамок на новых объектах (уровень: средний)

Цель. Следующим шагом после классификации изображений является обнаружение интересующих объектов путем размещения вокруг них ограничивающих рамок. Это серьезная проблема в области автономного вождения, позволяющая точно идентифицировать движущиеся объекты, такие как автомобили и пешеходов, от статических объектов, таких как дорожные заграждения, уличные знаки, деревья и здания. Основное отличие этого проекта от предыдущих - это формат данных. Здесь метки Y обычно имеют форму [x, y, w, h] для каждого интересующего объекта, где (x, y) обычно представляют верхний левый угол ограничивающей рамки, а w и h соответствуют ширине и высоте ограничивающей рамки вывода. В этом проекте цель состоит в том, чтобы использовать предварительно обученный классификатор для его возможностей извлечения признаков, а затем повторно обучить его на небольшом наборе изображений, чтобы создать плотно ограничивающую рамку вокруг нового объекта.

Метод: В коде Bounding Box colab мы можем расширить предварительно обученный детектор объектов, такой как детектор одиночного выстрела (SSD), с помощью пропускаемых соединений Resnet50 и функции пирамидальной сетевой магистрали, которая предварительно обучена. для обнаружения объектов в наборе данных MS-COCO [13] для обнаружения совершенно невидимой новой категории объектов, в данном случае резиновой утки. В этой настройке трансферного обучения уже изученные веса из ранних слоев детектора объектов полезны для извлечения локальной структурной и текстурной информации из изображений, и только последний слой классификатора требует переобучения для нового класса объектов. Это позволяет переобучить детектор объектов для нового класса, такого как резиновая уточка в этом случае использования, используя всего 5–15 изображений нового объекта. Настраиваемые параметры включают оптимизатор, скорость обучения, размер входного изображения и количество нейронов в последнем слое классификатора.

Результаты: Одно из основных различий между детекторами объектов и предыдущими моделями классификаторов на основе CNN, показанными выше, - это дополнительная выходная метрика, называемая Intersection over Union (IoU) [11], которая измеряет степень перекрытия между фактическими ограничениями. прямоугольник и предполагаемый ограничивающий прямоугольник. Кроме того, модель детектора объекта обычно состоит из классификатора (который предсказывает класс объекта) и регрессора ограничивающего прямоугольника, который прогнозирует размеры ограничивающего прямоугольника вокруг объекта. Пример API Google для обнаружения объекта на новом невидимом изображении показан на рис. 5 и в коде ниже.

В этих проектах показаны расширения детектора ограничивающей рамки 2D до ограничивающей рамки 3D специально для автономного привода.

Проект 5: Персонализированная медицина и объяснимость (уровень: средний)

Цель: В этом проекте цель состоит в том, чтобы автоматически сегментировать ROI от нескольких патологических участков, чтобы классифицировать степень анемии-подобной бледности у пациента и отслеживать бледность с течением времени [13]. Два основных отличия этого проекта от предыдущих заключаются в том, что: 1) бледность должна быть обнаружена на нескольких участках изображения, таких как конъюнктива (под глазом) и язык, чтобы предсказать одну метку, как показано на рис. 6, 2) соответствующие области интереса бледность необходимо отображать и отслеживать с течением времени.

Методы: В этом проекте модели на основе характеристик и классификаторы на основе CNN применяются с большим объемом данных с помощью генератора Imagedata в Keras. Чтобы объединить результаты из нескольких участков патологии, можно применять раннее, среднее и позднее слияние. В работе [13] применяется позднее слияние, когда слой перед классификатором, который считается оптимальным представлением признаков изображения, используется для слияния признаков на нескольких патологических участках. Наконец, алгоритм Deepdream, как показано в Deepdream Colab, применяется к исходным изображениям глаз и языка для визуализации ROI и объяснения степени патологии. Параметры для настройки в этом проекте включают параметры из Проекта 2 вместе с дополнительным коэффициентом градиента для визуализаций Deepdream.

Результаты: Данные по этой работе доступны для бенчмаркинга. Визуализации с использованием алгоритма Deepdream показаны на рис. 7, где мы наблюдаем более высокую концентрацию признаков, соответствующих бледности, в кровеносных сосудах под глазом, чем где-либо еще в глазу. Точно так же мы наблюдаем различия в чертах между внутренним и внешним сегментами языка. Эти оценки полезны для создания персонализированной системы отслеживания патологий для пациентов с анемией.

Проект 6: Сегментация облака точек для обнаружения объектов. (Уровень: жесткий)

Цель: В этом проекте входными данными является поток облаков точек, то есть выходные данные датчиков лидара, которые обеспечивают разрешение по глубине. Основное различие между облаками точек лидара и изображением заключается в том, что облака точек обеспечивают трехмерное разрешение, поэтому каждый воксель (трехмерный эквивалент пикселя) представляет местоположение объекта из источника лидара и высоту объекта относительно источника лидара. Основными проблемами, создаваемыми моделями данных облака точек, являются: i) вычислительная сложность модели при использовании трехмерных сверток и ii) инвариантность преобразования объекта, что означает, что повернутый объект должен определяться как сам объект, как показано в [13].

Метод. Набор данных для этого проекта представляет собой эталонный тест классификации форм ModelNet40, который содержит более 12 000 3D-моделей из 40 классов объектов. Каждый объект подвергается субдискретизации для извлечения фиксированного количества точек с последующим увеличением, чтобы удовлетворить множественные преобразования формы. Следующие одномерные свертки используются для изучения особенностей формы ness с использованием библиотеки Pytorch в Pointnet colab, как показано ниже.

Параметры для настройки включают оптимизатор, скорость обучения и функцию потерь.

Результаты: Результат модели можно обобщить, используя рис. 8 ниже. С помощью этого метода можно достичь точности обучения классификации объектов до 89%, который также может быть расширен до трехмерной семантической сегментации. Расширения этой работы могут быть полезны для обнаружения трехмерной ограничивающей рамки для сценариев использования автономных приводов.

Проект 7: семантическая сегментация изображений с использованием U-net для двоичных и мультиклассовых. (Средний)

Цель. До сих пор модели CNN применялись для автоматического изучения функций, которые затем могут использоваться для классификации. Этот процесс известен как кодирование функций. В качестве следующего шага мы применяем блок декодера с такой же структурой, что и кодер, чтобы обеспечить создание выходного изображения. Эта комбинация пары кодер-декодер позволяет входу и выходу иметь одинаковые размеры, то есть вход - это изображение, а выход - также изображение.

Методы: Комбинация кодер-декодер с остаточными пропусками соединений широко известна как U-net [15]. Для двоичных и мультиклассовых задач данные должны быть отформатированы таким образом, что если X (входное изображение) имеет размеры [m x m] пикселей, Y имеет размеры [m x m x d], где «d» - количество классов, которые необходимо спрогнозировать. Параметры для настройки включают оптимизатор, скорость обучения и глубину модели U-net, как показано в [15] и на рис. 9 ниже.

Результаты: Модель U-net может научиться генерировать двоичные семантические карты и многоклассные семантические карты из больших и малых наборов данных [16–17], но оказывается, что она чувствительна к дисбалансу данных. Таким образом, выбор правильного набора данных для обучения очень важен для достижения оптимальных результатов. Другие расширения к этой работе будут включать подключения DenseNet к модели или другие сети кодировщика-декодера, такие как MobileNet или сети Exception [17].

Проект 8: Машинный перевод для классификации позы и намерений (уровень: сложный)

Цель: Автоматическое определение позы или жеста часто включает идентификацию ключевых точек (например, определение структуры скелета) в видеороликах, которые могут привести к идентификации позы (стоя, ходьба, движение) или намерения пешеходов (переход дорога, не переход) и т. д. [18–19], как показано на Рис. 10 ниже. Для этой категории проблем информация о ключевых кадрах из нескольких последующих видеокадров обрабатывается коллективно для создания прогнозов, связанных с позой / намерением.

Методы. В этом проекте применяемый класс моделей известен как модели от последовательности к последовательности, где последовательность кадров изображения из видео обрабатывается для прогнозирования намерения пешехода, если собираются они переходить улицу или нет. Процесс начинается с двухмерного детектора ограничивающей рамки для изоляции пешеходов, за которым следует отслеживание в реальном времени для отслеживания одной и той же ограничивающей рамки на всех кадрах. Наконец, функции отслеживаемых ограничивающих рамок и элементы скелета используются для обучения модели DenseNet, которая предсказывает, будет ли пешеход двигаться впереди движущейся машины или нет. К настраиваемым параметрам относятся параметры детектора ограничивающей рамки из Проекта 4, количество слоев модели Densenet и количество точек скелета, подходящих для каждого движения пешехода. Чем больше количество точек скелета, тем выше вычислительная сложность.

Результаты: Качественные результаты описанного выше метода показаны на рис. 11 ниже, где красный прямоугольник указывает пешеходов, которые будут переходить улицу, а зеленые прямоугольники указывают пешеходов, которые не будут пересекать дорогу приближающемуся транспортному средству. Работа в [18–19] и файлы Colab могут быть использованы для тестирования составных моделей, которые используют элементы внутри ограничивающих рамок и скелетные элементы в качестве ранней настройки слияния на любом новом наборе данных для создания прогнозов, связанных с позой, из последовательности. рамок изображений.

Проект 9: Генеративные состязательные сети (GAN) для увеличения объема данных (с использованием модели Pix2pix) (уровень: жесткий)

Цель. Популярным вариантом использования моделей CNN является их использование для автоматического создания поддельных изображений с помощью GAN. В таких установках обучаются две модели CNN: 1) Генератор, целью которого является создание реалистичных поддельных изображений из шума и некоторых ограничений, 2) Дискриминатор, цель которого - идентифицировать поддельные изображения от реальных. Базовый набор данных требует парных изображений и карт семантической сегментации {X, Y} для обучения, как показано на рис. 12 и в GAN Colab.

Методы:. В этом проекте установка pix2pix основана на условных сетях GAN для обучения генератора на основе CNN (который является модифицированной моделью U-net) для создания поддельных изображений, которые трудно отличить / классифицировать от реальных изображений. В моделях GAN обычно используется функция потерь, которая представляет собой комбинацию минимаксных потерь или потерь GAN вместе со средней абсолютной ошибкой между фактическим и поддельным изображениями. Параметры для настройки включают оптимизатор, скорость обучения, размер патча функции (обычно PatchGAN предпочитает ширину и высоту 30–70 пикселей), размер входного изображения и сложность модели Generator, как показано ниже.

Результаты: Метод pix2pix можно использовать для создания цветных изображений из изображений в градациях серого, изображений карт из наземных изображений и изображений RGB из линейно нарисованных изображений. Эта модель позволяет генерировать данные от низкой до высокой размерности, что имеет решающее значение для пополнения наборов обучающих данных и решения проблемы с небольшими данными.

Проект 10: Использование CycleGAN для преобразования изображений (Уровень: Жесткий)

Цель: Хотя pix2pix позволяет преобразовывать изображения, для него требуются парные метки изображения и цели, то есть изображение и соответствующая ему семантическая сегментация необходимы для целей обучения. Однако в случаях, когда парный ввод и метки недоступны, могут быть полезны CycleGAN [17]. В моделях CycleGAN используются два набора комбинаций генератора / дискриминатора. Если цель состоит в том, чтобы преобразовать изображение в домене A в домен B, то Generator_1 / Discriminator_1 используется для преобразования изображения A в B, а Generator_2 / Discriminator_2 используется для преобразования изображения B обратно в изображение A. Итак, в конце цикла , получается дважды преобразованная версия изображения A. Функция общих потерь направлена ​​на уменьшение несоответствия между следующим: 1) сгенерированное изображение A в конце полного цикла и фактическое изображение A, 2) сгенерированное изображение B от середины цикла до фактического изображения B. Примеры вывода CycleGAN: показано на рис.13.

(Верхняя строка), Generator_1 / Discriminator_1 принимает изображение лошади в качестве входных данных для создания поддельного изображения зебры, (Нижняя строка) Generator_2 / Discriminator_2 принимает изображение зебры в качестве входных данных для создания поддельного изображения лошади.

Методы: Используя CycleGAN Colab, мы наблюдаем, что основное различие между моделями CycleGAN и условной GAN (cGAN) заключается в функции потерь, которая состоит из потерь GAN, определенных в Проекте 9 для каждой пары генератор / дискриминатор. наряду с потерей согласованности прямого и обратного цикла, которая представляет собой среднюю ошибку между поддельным и исходным изображениями для преобразований A- ›B и преобразований B-› A. Другие параметры для настройки включают сложность генератора, оптимизатор, скорость обучения, размер входного изображения и функции потери цикла.

Результаты: CycleGAN использовался для функций преобразования области изображений, таких как преобразования дневного времени в ночное [18], которые могут быть полезны для повторного использования меток для автономных детекторов приводных объектов в дневное и ночное время соответственно. Эти модели также можно использовать для художественных преобразований, шумоподавления изображений и преобразований AR / VR.

Заключение

Для разработки комплексных решений для проблем CV и MI могут применяться несколько различных типов модельных структур на основе CNN. Соображения, которые необходимо принять во внимание, чтобы изменить такие структуры на основе CNN для соответствия индивидуальным наборам данных и вариантам использования, следующие: 1) параметры, которые необходимо настроить, 2) изменения в функциях потерь, 3) количество помеченных данных для обучение модели 4) соображения по дисбалансу данных.

При расширении любого из 10 проектов, показанных здесь, идеальной стратегией было бы сначала реплицировать существующую кодовую базу для имеющегося набора данных путем форматирования набора данных в формате, аналогичном приведенному в примерах выше. Как только процесс обучения будет успешным, следующим шагом будет изменение / предварительная обработка данных с последующей настройкой параметров модели и качественной и количественной отчетностью о результатах. Примечательно, что выходные метрики могут варьироваться в зависимости от области изображения и варианта использования. Например, в случаях использования автономного привода обнаружение ложных срабатываний объекта может испортить впечатление от вождения из-за чрезмерного звукового сигнала и беспокойства водителя, поэтому в этом случае следует минимизировать количество ложных срабатываний. В качестве альтернативы в случаях использования обнаружения патологии медицинских изображений пропустить патологию намного хуже, чем автоматическое чрезмерное обнаружение, поскольку специалист в конечном итоге будет смотреть на изображения пациента, чтобы отбросить ложные срабатывания. Таким образом, вес ложноположительных и ложноотрицательных результатов не всегда одинаков, и это несоответствие между вариантами использования следует учитывать при составлении отчетов о результатах для решений CV и MI.

Проекты и ресурсы, представленные в этом блоге, должны помочь всем новичкам и энтузиастам CV, MI начать свой путь самообучения для своих собственных наборов данных.

Ссылки

[1] Технопедия [Онлайн]: https://www.techopedia.com/definition/32309/computer-vision

[2] Ройчоудхури, Сохини, Дара Д. Кузеканани и Кешаб К. Пархи. «МЕЧТА: анализ диабетической ретинопатии с использованием машинного обучения». Журнал IEEE по биомедицинской и медицинской информатике 18.5 (2013 г.): 1717–1728.

[3] Ван И-Цин. «Анализ алгоритма распознавания лиц Виолы-Джонса». Обработка изображений онлайн 4 (2014): 128–148.

[4] С. Ройчоудхури, Учебное пособие для инженера по машинному обучению по передаче обучения для мультиклассовой сегментации изображений с помощью U-net, к DataScience [Online]: https://towardsdatascience.com/a-machine-learning-engineers-tutorial-to- передача-обучения-для-сегментации-изображений-нескольких классов-b34818caec6b

[5] А. Dutta et. al. Аннотатор изображений VGG [Онлайн]: https://www.robots.ox.ac.uk/~vgg/software/via/

[6] Беркли Дип Драйв. Scalabel.ai. [Онлайн] https://www.scalabel.ai/

[7] Программа обработки изображений GNU [Онлайн] https://www.gimp.org/about/

[8] Э. Solutions, Точность, точность, отзывчивость и оценка F1: интерпретация показателей производительности, [Онлайн]: «https://blog.exsilio.com/all/accuracy-precision-recall-f1-score-interpretation-of-performance -меры/"

[9] E. Тиу, Метрики для оценки вашей модели семантической сегментации, [Online]: https://towardsdatascience.com/metrics-to-evaluate-your-semantic-segmentation-model-6bcb99639aa2

[10] Т. Канстрен Взгляд на точность, отзывчивость и F1-Score, Наука о данных [Интернет] https://towardsdatascience.com/a-look-at-precision-recall-and-f1-score-36b5fd0dd3ec

[11] У, Мин и Чжэнь Чжан. «Классификация рукописных цифр с использованием набора данных mnist». Курсовой проект CSE802: Классификация и анализ паттернов (2010).

[12] Ройчоудхури, Сохини и др. SISE-PC: субдискретизация изображений с частичным контролем для объяснимой патологии. Препринт arXiv arXiv: 2102.11560 (2021 г.). Https://github.com/anoopsanka/retinal_oct

[13] Roychowdhury, et. al. «Интеллектуальная система мониторинга на базе Azure для анемии бледности». Интернет будущего 9.3 (2017): 39.

[14] Н. Караев, Глубокое обучение облаков точек: реализация PointNet в Google Colab, На пути к науке о данных [Online]: https://towardsdatascience.com/deep-learning-on-point-clouds-implementing-pointnet-in-google- colab-1fd65cd3a263

[15] Ци, Чарльз Р. и др. «Pointnet: глубокое обучение по наборам точек для трехмерной классификации и сегментации». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017 г.

[16] Цюй, Янюн и др. «Усовершенствованная сеть устранения замораживания pix2pix». Материалы конференции IEEE / CVF по компьютерному зрению и распознаванию образов. 2019.

[17] Хармс, Джозеф и др. «Парная коррекция изображения на основе цикла GAN для количественной конусно-лучевой компьютерной томографии». Медицинская физика 46.9 (2019): 3998–4009.

[18] Чоудхури, Сохини Рой и др. «Автоматическое дополнение с обучением с подкреплением и гантами для надежной идентификации дорожных знаков с помощью изображений с фронтальной камеры». 53-я конференция Asilomar по сигналам, системам и компьютерам, 2019 г.. IEEE, 2019.