Аннотации к медицинским изображениям: полное руководство

Машинное обучение меняет мир медицины и здравоохранения, позволяя профессионалам диагностировать пациентов лучше и быстрее, чем раньше. Но для обучения моделей машинного обучения нам нужны качественные аннотированные медицинские изображения. Здесь в игру вступает аннотация медицинских изображений.

ML может произвести революцию во всем медицинском процессе, с момента поступления пациента в учреждение до момента его ухода.

Тем не менее, обучение нейронных сетей и моделей машинного обучения — непростая задача. Требуется большое количество высококачественных размеченных данных. Здесь важное значение приобретает маркировка медицинских данных. В этой статье мы расскажем вам все, что вам нужно знать об этом.

А если вы уже знаете все о маркировке медицинских изображений, то вы можете зарегистрироваться в Ango Hub и начать маркировать свои медицинские изображения прямо сейчас, совершенно бесплатно, без ограничения времени.

Что такое аннотация медицинских изображений?

У нас есть целый пост в блоге, посвященный объяснению того, что такое маркировка медицинских данных. Но если у вас мало времени, вот суть.

Маркировка медицинских данных — это процесс аннотирования медицинских данных, будь то данные изображений, такие как компьютерная томография, рентген, МРТ, УЗИ и снимки глазного дна сетчатки.

Отрасль здравоохранения также требует маркировки других типов данных, таких как данные документов, таких как медицинские записи в форматах PDF или PNG/JPG. Иногда маркировка медицинских данных может включать звуковые метки, такие как разговоры пациентов, звуки кашля и т. д. Однако в этой статье основное внимание будет уделено медицинской визуализации.

Затем команды ИИ используют эти помеченные данные для обучения своих моделей машинного обучения, которые после обучения могут автоматически определять то, что было помечено ранее.

Подготовка медицинских изображений к маркировке

Чтобы обучить модель машинного обучения, которая будет давать надежные результаты, ей необходимо показать приличный объем данных, помеченных как наивысшее качество. Зачастую данные, даже в неразмеченном состоянии, трудно найти. И даже когда у вас есть данные под рукой, нужно помнить пару вещей.

Разнообразие наборов данных

Важно, чтобы ваши данные не были получены из одного и того же источника и чтобы они не выглядели одинаково. Это потому, что мы хотим, чтобы модель была как можно более надежной для всех различных случаев, которые ей подкинет реальность.

Если модель была обучена только на подмножестве данных или на данных, которые все выглядят очень похожими, она не будет знать, что делать, когда мы покажем ей данные, которые выглядят по-разному.

Короче говоря, используйте данные, поступающие из разных источников или с разных этапов, учреждений или мест.

Процесс проверки набора данных

Мы рекомендуем разделить набор данных на три части: обучение, проверку и тестирование. Обучение составит около 80% ваших общих данных, а остальные разделят оставшиеся 20%.

Во-первых, обучите свою модель большинству данных, обучающему набору. После обучения оцените результаты на меньшем наборе проверки.

Посмотрите на результаты, которые выходят из набора проверки. Они вас удовлетворяют? Вероятно, им потребуется некоторая настройка. Настройте, затем снова обучите и снова проверьте. Повторяйте, пока не будете удовлетворены результатами проверки.

Когда вы будете довольны результатами проверки, проверьте свои результаты на тестовом наборе данных. Это будет ваш последний тест модели.

Размер вашего набора данных

Недавние разработки в мире машинного обучения показали, что качество так же важно, как и количество, когда речь идет об обучающих моделях. Это означает, что меньший по размеру, но качественный набор обычно будет работать так же или даже лучше, чем большой набор более низкого качества.

Тем не менее, если у вас есть возможность увеличить набор данных, мы настоятельно рекомендуем это сделать, так как результаты модели значительно улучшатся.

Формат вашего набора данных

Двумя наиболее распространенными форматами медицинских изображений являются DICOM и TIFF. DICOM является отраслевым стандартом для рентгенологов.

Файлы DICOM и TIFF могут дополнительно содержать несколько изображений или «срезов» и метаданные, касающиеся пациента и самого изображения.

Хорошие платформы для аннотирования медицинских изображений будут поддерживать оба формата, а Ango Hub также имеет возможность автоматически удалять идентифицирующую информацию как из метаданных, так и из самого изображения при загрузке.

Чем аннотация медицинских изображений отличается от обычной маркировки?

Маркировка изображений для здравоохранения — это совсем другое дело по сравнению с обычным аннотированием изображений. Вот некоторые вещи, которые отличаются:

Доступность данных

В то время как «обычные» изображения часто находятся в свободном доступе или находятся под стандартным соглашением о неразглашении, медицинские изображения обычно защищены строгими соглашениями об обработке данных. Это в основном для защиты частной жизни пациента. Получение данных медицинской визуализации обычно является более длительным процессом по сравнению с другими типами данных.

Технические отличия

Обычные изображения имеют только один слой, меньший размер и низкую разрядность. Медицинские изображения часто состоят из нескольких слоев (срезов), имеют больший размер и большую разрядность.

Кроме того, профили этикетировщика для обоих будут разными. В то время как обычные изображения помечаются универсальными аннотаторами, для медицинской визуализации требуются специализированные медицинские специалисты. Эти эксперты привыкли к определенным парадигмам UI и UX. Поэтому при выборе платформы маркировки данных важно учитывать, могут ли медицинские работники легко использовать ее элементы управления с клавиатуры и пользовательский интерфейс.

Выбор инструмента для аннотирования медицинских изображений для вас

На рынке предостаточно программ просмотра DICOM с возможностями аннотирования. Например, одним из примечательных вариантов с открытым исходным кодом является 3D Slicer.

Однако инструменты просмотра DICOM не оптимизированы для обучения модели машинного обучения. Иногда просто невозможно использовать метки от этих просмотрщиков в машинном обучении. Это связано с отсутствием идентификаторов экземпляров и отсутствием структурированных форматов экспорта.

Автоматизированная сегментация изображений легких на фронтальной рентгенографии грудной клетки на Ango Hub.

Для обучения и разработки нейронной сети вам понадобится профессиональный инструмент для маркировки медицинских изображений.

Выбранный вами инструмент аннотирования изображений должен удовлетворять определенным требованиям:

Поддерживает ли инструмент медицинские форматы, такие как DICOM и TIFF?
Поддерживает ли инструмент инструменты для маркировки, которые вы ищете?
Является ли UX инструмента простым в использовании и подходит ли он для медицинского использования?
Легко ли использовать формат экспорта инструмента при обучении модели машинного обучения?
Поставляется ли инструмент с услугой маркировки медицинских данных для повышения вашей собственной рабочей силы?

В Ango AI мы с гордостью можем предложить все вышеперечисленное и многое другое. Запланируйте звонок с нами сегодня, чтобы начать.

Первоначально опубликовано на https://ango.ai 30 июня 2022 г.