В этом проекте мы используем Висконсинскую (диагностическую) базу данных рака молочной железы для создания классификатора, который может помочь в диагностике пациентов. Здесь мы взяли данные, разделенные по удобству для тестирования и обучения. И окончательная модель показывает блестящую точность предсказания.

Давайте рассмотрим пошаговый процесс: -

ШАГ 1. Импорт важных библиотек. Все необходимые библиотеки импортируются для использования готовых функций.

ШАГ 2 Загрузка данных. Данные загружаются для выполнения необходимых манипуляций и использования данных для обучения и тестирования данных для получения желаемого дизайна модели

Шаг 3. Построение фрейма данных. Для нашего проекта нет необходимости преобразовывать данные в фрейм данных, но сделать это эффективно. С pandas DataFrame легко работать, так как легко реализовать предопределенные функции на DataFrames. (Этот проект возможен без использования концепции DataFarme.)

Здесь мы переименовали элементы столбца для нашего понимания, и сформирован DataFrame.

"Цель" шага 4 — это один из двух столбцов, используемых для меток, который имеет форму 0 и 1, где эти две категории являются категориями рака. Здесь 0 означает злокачественный тип, а 1 — доброкачественный тип.

Здесь мы находим количество злокачественных и доброкачественных опухолей

Шаг 5. Разделение данных. Разделите кадр данных на X (данные) и y (метки).

Шаг 6. Разделение теста поезда. Данные разделены на четыре раздела подданных: X_train, X_test, y_train и y_test. Эти разделы используются для обучения модели, а также самой модели. Сравнение этих параметров дает нам точность модели.

  • x_train — ввод данных для тренировки
  • x_test — ввод данных тестирования
  • y_train — выходные данные тренировки
  • y_test — вывод данных тестирования

Шаг 7. Реализация алгоритма. Нам нужен ML для реализации классификатора. Мы будем использовать алгоритм классификатора K-ближайших соседей. Алгоритм k-ближайших соседей (k-NN) – это непараметрический метод, предложенный Томасом Кавером и используемый для классификации и регрессии.

Шаг 8. Прогнозирование данных. Мы прогнозируем результаты на основе созданной нами модели. Результаты сохраняются в массиве.

Вычисление оценки на этапе 9. Мы сравниваем прогнозируемые данные с фактическими данными, чтобы получить оценку.

Шаг 10. Визуализация данных: постройте график точности обучения и тестирования для злокачественных и доброкачественных клеток.

Спасибо, что читаете мой блог, весь код проекта доступен на Github НАЖМИТЕ ЗДЕСЬ.