документация для улучшенной программы Python, которая с помощью машинного обучения классифицирует результаты патологии как раковые или нераковые:

Введение

Программа предназначена для классификации результатов патологии как раковых или нераковых с использованием алгоритма машинного обучения. Программа использует набор данных результатов патологии, который включает как результаты, так и соответствующие метки (раковые или нераковые). Набор данных загружается в кадр данных pandas, а затем разделяется на наборы для обучения и тестирования. Классификатор случайного леса обучается на обучающих данных, а затем используется для прогнозирования тестового набора. Затем программа оценивает производительность модели, используя различные показатели, такие как точность, воспроизводимость, полнота, оценка F1, матрица путаницы и площадь под кривой ROC.

Требования

  • Питон 3.х
  • панды
  • склерн
  • matplotlib

Применение

Чтобы запустить программу, просто выполните скрипт с помощью Python:

Код здесь: https://medium.com/@batuhanayrba/python-program-that-uses-a-machine-learning-algorithm-to-classify-pathology-results-as-either-a99c86437e5c

python pathology_results_classifier.py

Набор данных

Программа ожидает файл CSV с именем «pathology_results.csv» в том же каталоге, что и скрипт. Файл должен иметь следующий формат:

Первый столбец должен называться «раковый» и содержать метки (1 — раковый, 0 — нераковый).

Остальные столбцы должны содержать характеристики результатов патологии.

Метрики оценки

Точность: это доля правильно классифицированных случаев (как раковых, так и нераковых) от общего числа случаев.

Точность: это доля истинно положительных случаев среди общего числа положительных случаев, предсказанных моделью.

Напомним: это доля истинно положительных случаев среди общего числа фактических положительных случаев.

Оценка F1: это гармоническое среднее значение точности и полноты.

Матрица путаницы: таблица, показывающая количество истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов.

Площадь под кривой ROC (AUC): показатель того, насколько хорошо классификатор способен различать положительные и отрицательные классы. Чем ближе AUC к 1, тем лучше классификатор различает классы.

Кривая ROC: графическое представление диагностической способности системы бинарного классификатора при изменении ее порога различения.

Заключение

Программа использует классификатор случайного леса для классификации результатов патологии как раковых или нераковых. Программа оценивает производительность модели с использованием различных показателей, таких как точность, точность, полнота, оценка F1, матрица путаницы и площадь под ROC-кривой. Результаты оценки могут быть использованы для определения областей, требующих улучшения, и для точной настройки модели. Важно отметить, что производительность модели будет зависеть от качества данных и уместности используемого алгоритма.