В этом проекте мы используем Висконсинскую (диагностическую) базу данных рака молочной железы для создания классификатора, который может помочь в диагностике пациентов. Здесь мы взяли данные, разделенные по удобству для тестирования и обучения. И окончательная модель показывает блестящую точность предсказания.
Давайте рассмотрим пошаговый процесс: -
ШАГ 1. Импорт важных библиотек. Все необходимые библиотеки импортируются для использования готовых функций.
ШАГ 2 Загрузка данных. Данные загружаются для выполнения необходимых манипуляций и использования данных для обучения и тестирования данных для получения желаемого дизайна модели
Шаг 3. Построение фрейма данных. Для нашего проекта нет необходимости преобразовывать данные в фрейм данных, но сделать это эффективно. С pandas DataFrame легко работать, так как легко реализовать предопределенные функции на DataFrames. (Этот проект возможен без использования концепции DataFarme.)
Здесь мы переименовали элементы столбца для нашего понимания, и сформирован DataFrame.
"Цель" шага 4 — это один из двух столбцов, используемых для меток, который имеет форму 0 и 1, где эти две категории являются категориями рака. Здесь 0 означает злокачественный тип, а 1 — доброкачественный тип.
Здесь мы находим количество злокачественных и доброкачественных опухолей
Шаг 5. Разделение данных. Разделите кадр данных на X (данные) и y (метки).
Шаг 6. Разделение теста поезда. Данные разделены на четыре раздела подданных: X_train, X_test, y_train и y_test. Эти разделы используются для обучения модели, а также самой модели. Сравнение этих параметров дает нам точность модели.
- x_train — ввод данных для тренировки
- x_test — ввод данных тестирования
- y_train — выходные данные тренировки
- y_test — вывод данных тестирования
Шаг 7. Реализация алгоритма. Нам нужен ML для реализации классификатора. Мы будем использовать алгоритм классификатора K-ближайших соседей. Алгоритм k-ближайших соседей (k-NN) – это непараметрический метод, предложенный Томасом Кавером и используемый для классификации и регрессии.
Шаг 8. Прогнозирование данных. Мы прогнозируем результаты на основе созданной нами модели. Результаты сохраняются в массиве.
Вычисление оценки на этапе 9. Мы сравниваем прогнозируемые данные с фактическими данными, чтобы получить оценку.
Шаг 10. Визуализация данных: постройте график точности обучения и тестирования для злокачественных и доброкачественных клеток.
Спасибо, что читаете мой блог, весь код проекта доступен на Github НАЖМИТЕ ЗДЕСЬ.