(с помощью RapidMiner Studio)

24 сентября 2021 г., Нимра Акрам

— Знайте о раке молочной железы:

Рак молочной железы представляет серьезную угрозу для жизни людей и является сегодня второй по значимости причиной смерти женщин. Из-за увеличения продолжительности жизни, урбанизации и принятия неизвестного западного образа жизни заболеваемость раком молочной железы постоянно растет в этом развивающемся мире. Хотя существует множество методов лечения рака молочной железы, эти стратегии не могут устранить большинство случаев рака, которые развиваются в семьях низшего и низшего среднего класса, где рак молочной железы диагностируется на очень поздней стадии. В целях улучшения диагностики рака молочной железы и повышения выживаемости раннее выявление остается краеугольным камнем борьбы с раком молочной железы.

— Источник данных:



Мы фокусируемся на наборе данных о раке молочной железы и применяем четыре алгоритма интеллектуального анализа данных, чтобы предсказать наиболее точную модель диагностики рака молочной железы. Для целей этого исследования мы использовали RapidMiner в качестве программной платформы и оценили набор данных, используя методы классификации ANN, дерева решений, наивного Байеса и k-NN.

— Используемый инструмент:

RapidMiner — это программная платформа для обработки данных, разработанная одноименной компанией, которая обеспечивает интегрированную среду для подготовки данных, машинного обучения, глубокого обучения, анализа текста и прогнозной аналитики. Он используется для деловых и коммерческих приложений, а также для исследований, обучения, обучения, быстрого прототипирования и разработки приложений и поддерживает все этапы процесса машинного обучения, включая подготовку данных, визуализацию результатов, проверку модели и оптимизацию.

— Методология:

Интеллектуальный анализ данных — это процесс извлечения информации из огромного набора данных. Существует два основных типа задач интеллектуального анализа данных. Один включает в себя задачу, необходимую для понимания характеристик набора данных, т. е. описательный анализ данных, а другой используется для выполнения прогнозов на основе доступных наборов данных, т. е. прогнозный анализ данных. Здесь, в этом исследовании, мы фокусируемся на интеллектуальном анализе данных.

Набор данных, который мы использовали для проведения этого исследования, загружен с kaggle.com. Он состоит из 32 атрибутов, состоящих из I.D. номер, диагноз (M = злокачественный и B = доброкачественный) и другие 30 входных признаков с действительным знаком с распределением по классам 357 доброкачественных и 212 злокачественных клеток.

Мы использовали четыре метода интеллектуального анализа данных: искусственная нейронная сеть, наивный байесовский метод, дерево решений и kNN (k ближайший сосед). Наша цель — найти наиболее подходящий алгоритм для прогнозирования рака молочной железы.

— Алгоритмы майнинга:

Первый метод. Искусственные нейронные сети используют различные уровни математической обработки, чтобы разобраться в поступающей информации. то есть входной слой, скрытый слой и выходной слой. И его можно развернуть для классификации информации, прогнозирования результатов и кластеризации данных.

Второй метод Наивного Байеса основан на байесовском подходе, использующем простой, понятный и быстрый классификатор. Этот метод использовался для представления, использования и изучения вероятностных знаний, и в машинном обучении были достигнуты значительные результаты.

Третьим используемым методом является дерево решений, которое строит модели классификации или регрессии в виде древовидной структуры.

И четвертый метод k NN — это простой алгоритм, который хранит все доступные случаи и классифицирует новые случаи на основе мер подобия.

— Искусственная нейронная сеть:

В этой работе используется классификатор искусственной нейронной сети (ИНС), поскольку он является широко используемым классификатором для классификации рака молочной железы. Нейронная сеть, состоящая из простых элементов, вдохновленных биологическими нейронами, работает параллельно. Мы обучаем нейронную сеть выполнять определенную функцию, регулируя веса между элементами. Нейронная сеть обучается получать желаемый результат. Сеть корректируется на основе сравнения с выходом и соответствующей целью до тех пор, пока выход сети не совпадет с целью. Классификатор ANN основан на двух этапах: обучении и тестировании. Точность классификации зависит от подготовки.

— Дизайн RapidMiner:

— Результаты RapidMiner:

— Наивный байесовский метод:

Наивный байесовский метод — это простой метод построения классификаторов: моделей, которые присваивают метки классов экземплярам проблемы, представленным в виде векторов значений признаков, где метки классов берутся из некоторого конечного набора. Это не единый алгоритм обучения таких классификаторов, а семейство алгоритмов, основанных на общем принципе: все наивные байесовские классификаторы предполагают, что значение определенного признака не зависит от значения любого другого признака, заданного переменной класса. Например, фрукт можно считать яблоком, если он красный, круглый и имеет диаметр около 10 см.

— Дизайн RapidMiner:

— Результаты RapidMiner:

— Дерево решений:

Алгоритм дерева решений предполагает, что каждый атрибут является категориальным, то есть содержит только дискретные данные, в отличие от непрерывных данных, таких как возраст, рост и т. д. Принцип алгоритма дерева решений следующий. Дерево строится сверху вниз рекурсивным способом. В корне каждый атрибут проверяется, чтобы определить, насколько хорошо он сам по себе классифицирует транзакции. Затем выбирается «лучший» атрибут, и оставшиеся транзакции разделяются по нему. Затем он рекурсивно вызывается для каждого раздела (который представляет собой базу данных меньшего размера, содержащую только соответствующие транзакции и без атрибута разделения).

— Дизайн RapidMiner:

Результаты RapidMiner:

— k-NN (алгоритм k-ближайших соседей):

k-NN — это тип обучения на основе экземпляров или ленивое обучение, при котором функция аппроксимируется только локально, а все вычисления откладываются до классификации. Алгоритм k-NN является одним из самых простых из всех алгоритмов машинного обучения. Как для классификации, так и для регрессии может быть полезно присвоить вес вкладам соседей, чтобы более близкие соседи вносили больший вклад в среднее значение, чем более удаленные. Например, обычная схема взвешивания состоит в присвоении каждому соседу веса 1/d, где d — расстояние до соседа.

— Дизайн RapidMiner:

— Результаты RapidMiner:

— Сравнение результатов:

В этом исследовании мы предсказали точность четырех методов интеллектуального анализа данных. Цель состоит в том, чтобы иметь высокую точность помимо показателей точности и отзыва. Экспериментальные результаты методов приведены ниже:

Методы классификации:

— ИНСТРУКЦИЯ:

Точность: 97,19%, точность (положительный класс: B): 97,07%, отзыв (положительный класс: B): 98,60%

— Наивный байесовский метод:

Точность: 93,51%, точность (положительный класс: B): 93,96%, отзыв (положительный класс: B): 95,80%

— Дерево решений:

Точность: 92,98%, точность (положительный класс: B): 91,60%, отзыв (положительный класс: B): 97,76%

— k-NN:

Точность: 90,86 %, Точность (положительный класс: B): 91,78 % Отзыв (положительный класс: B): 93,84 %

В соответствии с нашим исследованием мы проанализировали, что ИНС обеспечивает наиболее точные результаты по сравнению с Наивным Байесом, деревом решений и методами классификации K-NN.

— Заключение и будущая работа:

Мы попытались проанализировать данные о раке молочной железы, доступные на kaggle.com, с целью разработки точной модели прогнозирования с использованием методов интеллектуального анализа данных. Для целей этого исследования мы использовали RapidMiner в качестве программной платформы и оценили набор данных, используя методы классификации ANN, дерева решений, наивного Байеса и k-NN. Экспериментальные результаты показывают, что предлагаемые алгоритмы значительно сокращают передачу данных и требуют лишь небольших постоянных циклов передачи данных. Экспериментальные результаты демонстрируют превосходство контролируемого алгоритма — искусственной нейронной сети, которая достигает почти оптимальной производительности в различных условиях.

В этом исследовании были описаны, обсуждены и проанализированы наилучшие методы прогнозирования типа опухоли в организме человека на основе набора данных, доступных на Kaggle. Наш анализ не включает записи, содержащие нулевые или недействительные данные. Для наших будущих заданий мы хотели бы включить такие данные для лучшей экспозиции. В этом исследовании мы сосредоточились только на обнаружении типа рака молочной железы, тогда как в нашем будущем исследовании мы также хотели бы сосредоточиться на других аспектах исследования рака молочной железы, чтобы выяснить выживаемость рака, применяя различные методы интеллектуального анализа данных.

— Ссылки:

[1] https://www.kaggle.com/uciml/breast-cancer-wisconsin-data

[2] https://pdfs.semanticscholar.org/85f6/a72dfc83ee65597c844c779bd67ccac36f84.pdf

— Ссылка на GitHub:

https://github.com/animra/Breast-Cancer-Detection-Using-Data-mining-Techniques-RapidMiner-Tool