Введение в машинное обучение радиолога - серия из 10 частей

Часть 5

Авторы: Данило Пена, Dr. Тай Вашон

Редактор: Dr. Майкл Докси

Часть 1 | Часть 2 | Часть 3 | Часть 4

Существует множество алгоритмов машинного обучения, которые используются специалистами по обработке данных и компаниями по всему миру. Помните - цель машинного обучения - предсказывать будущие результаты, понимая всю сложность прошлой информации. Как вы знаете, есть чему поучиться на прошлых действиях, чтобы заново откалибровать будущие решения.

Как люди, мы делаем это каждый день - мы учимся на своих прошлых ошибках, чтобы не повторять их. С помощью машинного обучения это потенциально можно масштабировать до такой степени, что многие бизнес-решения могут приниматься автоматически и строго.

В этой статье мы рассмотрим некоторые общие элементы алгоритмов машинного обучения.

Мы могли бы напомнить о линейной регрессии, но вы слишком умны для этого. Вместо этого мы коснемся некоторых из наиболее важных алгоритмов машинного обучения.

Многие из этих определений взяты из этой журнальной статьи, в которой дается отличный обзор машинного обучения в применении к медицинской визуализации. Мы предлагаем проверить его или сохранить на своем компьютере для использования в будущем.

Классификация - присвоение метки класса изображению или строке данных. Например, изображение или его часть можно пометить как «ненормальное» или «нормальное». Затем классификатор может попытаться определить, представляет ли отмеченная часть доброкачественную или злокачественную ткань.

Помеченные данные - набор примеров (например, изображений), каждый с правильным «ответом». Слово «ответ» приводится в кавычках, потому что истина, как мы знаем, очень субъективна и в глазах смотрящего. Возвращаясь к соревнованию Kaggle, эти ярлыки - это доброкачественные или злокачественные опухоли в модальностях визуализации.

Обучение - этап, на котором система алгоритма машинного обучения дается, помеченный данными примера с ответами (т. е. ярлыками, как указано выше). Эти метки могут быть типом опухоли или правильной границей поражения. Набор весов или точек принятия решения для модели обновляется до тех пор, пока не будет достигнута точка остановки, определенная программистом.

Набор для проверки - набор примеров, используемых во время обучения для тестирования алгоритма с целью оценки таких вещей, как точность и ROC. Следует отметить, что исходный алгоритм никогда не видит особенностей этого набора данных.

Тестирование - в некоторых случаях третий набор примеров используется для «реального» тестирования. Поскольку система алгоритмов выполняет итерацию для повышения производительности с набором проверки, она может изучить уникальные особенности обучающего набора. Хорошая производительность с «невидимым» набором тестов может повысить уверенность в том, что алгоритм даст правильные ответы в реальном мире.

Теперь мы посмотрим на изображение ниже, чтобы закрепить эти определения. Пройдите часть, в которой говорится (а) Обучение.

Итак, перед вами общий конвейер шагов, который можно применить в большинстве случаев машинного обучения. Во-первых, у вас есть данные. Они помечены или помечены подлинной правдой. В этом примере авторы рассматривают изображения, на которых изображены доброкачественные или злокачественные опухоли. Их также можно назвать входными изображениями. Этот набор изображений может курировать медицинская организация и обычно деидентифицируется в исследовательских и / или коммерческих целях.

Поскольку существует два класса, мы называем эту проблему проблемой двоичной (двух) классификации.

Во-вторых, исследователь выделяет на изображении элементы, которые помогут при классификации. Этот процесс называется извлечением признаков. Улучшает ли он? Размер? Место нахождения? Все, что мы запоминаем для дифференциального диагноза. Извлечение признаков использует знания предметной области, чтобы обеспечить наиболее предсказуемые функции, которые выбирают специалисты по данным и / или врачи. В приведенном выше примере это может означать интенсивность пикселей, количественные значения, которые представляют края или формы изображений. Эти особенности помогут с конечной целью классифицировать доброкачественную или злокачественную опухоль.

В-третьих, исследователь затем обнаружит все эти особенности на каждом из изображений. В этом сценарии эти векторы признаков на самом деле представляют собой просто длинный список (или массив) числовых значений, представляющих изображение. Опять же, это могут быть такие вещи, как интенсивность определенного пикселя изображения.

Мы мыслим понятиями Т1 темный и Т2 яркий с усилением; компьютерные ученые переводят это в список функций, массив, организованный в векторы. В вашей голове должна начать формироваться таблица, в которой строки представляют собой наблюдение или изображение, а столбцы будут содержать числовые значения для функций. Это очень важно. Эти таблицы являются отправной точкой алгоритмов машинного обучения.

Наконец, эта таблица будет представлять входные данные для алгоритма машинного обучения, где значения «X» или независимые переменные будут всеми функциями. Значения «Y» будут обозначениями, о которых мы упоминали ранее - доброкачественные или злокачественные опухоли. Поле с надписью «Алгоритм машинного обучения» просто отображает набор алгоритмов, которые можно использовать для изучения тонкостей данных. Подобно знаку Риглера, выступающим граням или другим «тётушкам Минни», алгоритмы способны обрабатывать больше данных, быстрее и могут создавать целый новый список тётушек Минни, созданных с помощью машинного обучения.

Мы углубимся в часть (б) этого изображения в следующей статье.

Как вам хорошо известно, машинное обучение имеет много терминологии. Не волнуйтесь - каждый, кто плохо знаком с этой областью, чувствует себя подавленным и легко увязнуть в языке. Однако, если вы прочитаете эти статьи пару раз, вы обязательно научитесь. Это важные строительные блоки, которые будут иметь первостепенное значение для того, чтобы в конечном итоге вы узнали, что находится под капотом. А пока сделайте передышку, и мы вас поймаем в следующей статье!

Ссылки

  1. Эриксон, Б. Дж., Корфиатис, П., Аккус, З., и Клайн, Т. Л. (2017). Машинное обучение для получения медицинских изображений. RadioGraphics, 37 (2), 505–515. DOI: 10.1148 / rg.2017160130