документация для улучшенной программы Python, которая с помощью машинного обучения классифицирует результаты патологии как раковые или нераковые:
Введение
Программа предназначена для классификации результатов патологии как раковых или нераковых с использованием алгоритма машинного обучения. Программа использует набор данных результатов патологии, который включает как результаты, так и соответствующие метки (раковые или нераковые). Набор данных загружается в кадр данных pandas, а затем разделяется на наборы для обучения и тестирования. Классификатор случайного леса обучается на обучающих данных, а затем используется для прогнозирования тестового набора. Затем программа оценивает производительность модели, используя различные показатели, такие как точность, воспроизводимость, полнота, оценка F1, матрица путаницы и площадь под кривой ROC.
Требования
- Питон 3.х
- панды
- склерн
- matplotlib
Применение
Чтобы запустить программу, просто выполните скрипт с помощью Python:
Код здесь: https://medium.com/@batuhanayrba/python-program-that-uses-a-machine-learning-algorithm-to-classify-pathology-results-as-either-a99c86437e5c
python pathology_results_classifier.py
Набор данных
Программа ожидает файл CSV с именем «pathology_results.csv» в том же каталоге, что и скрипт. Файл должен иметь следующий формат:
Первый столбец должен называться «раковый» и содержать метки (1 — раковый, 0 — нераковый).
Остальные столбцы должны содержать характеристики результатов патологии.
Метрики оценки
Точность: это доля правильно классифицированных случаев (как раковых, так и нераковых) от общего числа случаев.
Точность: это доля истинно положительных случаев среди общего числа положительных случаев, предсказанных моделью.
Напомним: это доля истинно положительных случаев среди общего числа фактических положительных случаев.
Оценка F1: это гармоническое среднее значение точности и полноты.
Матрица путаницы: таблица, показывающая количество истинно положительных, истинно отрицательных, ложноположительных и ложноотрицательных результатов.
Площадь под кривой ROC (AUC): показатель того, насколько хорошо классификатор способен различать положительные и отрицательные классы. Чем ближе AUC к 1, тем лучше классификатор различает классы.
Кривая ROC: графическое представление диагностической способности системы бинарного классификатора при изменении ее порога различения.
Заключение
Программа использует классификатор случайного леса для классификации результатов патологии как раковых или нераковых. Программа оценивает производительность модели с использованием различных показателей, таких как точность, точность, полнота, оценка F1, матрица путаницы и площадь под ROC-кривой. Результаты оценки могут быть использованы для определения областей, требующих улучшения, и для точной настройки модели. Важно отметить, что производительность модели будет зависеть от качества данных и уместности используемого алгоритма.