Эта статья посвящена применению случайных лесов для классификации состояния плода (N = нормальное, S = подозрительное, P = патологическое) набора данных Cardiotocogaphy. Это третья часть моего проекта. Прочтите статью ниже, чтобы узнать больше о наборе данных и о том, как выполнить EDA.



UCI: «Набор данных кардиотокографии — Классификация состояния плода — Часть 1: Сводка данных и EDA
1. Сводка данных и описание задачи классификацииphuongdelrosario.medium.com»



1. Случайные леса (RF) для классификации

Чтобы иметь глубокое представление о классификации RF для 3 классов. Пожалуйста, ознакомьтесь с этой статьей:



Прежде чем применять RF для обучения наших данных, нам нужно разделить данные на наборы TRAIN и TEST и сбалансировать данные. Пожалуйста, прочитайте эту статью ниже, чтобы узнать, как это сделать:



В R для обучения данных newTRAIN применяется функция randomforest(), а затем для прогнозирования класса всех наблюдений в данных newTEST используется функция predict(). Два параметра, которые можно использовать для настройки модели RF, — это количество деревьев решений (ntree) и количество признаков, выбранных случайным образом на каждом этапе (mtry).

Количество функций, используемых в качестве потенциальных кандидатов для каждого разделения (mtry), обычно задается как sqrt(p). P — общее количество признаков в наборе данных. В этом наборе данных есть 21 функция; таким образом, mtry устанавливается как sqrt(21) = 5. Количество деревьев решений для этого исследования установлено как 100, 200, 300 и 400. На рисунке 15 показана степень точности newTRAIN и newTEST при различных ntrees = 100, 200, 300, 400. В таблицах 9, 10, 11 и 12 показаны матрицы путаницы тестовых данных при ntrees = 100 200 300 400.

На рисунке ниже мы видим, что самый высокий уровень точности данных поезда составляет 0,977 при ntrees = 300, а самый высокий уровень точности тестовых данных составляет 0,95 при ntrees = 200. Только исходя из глобального уровня точности, ntree = 200 является лучшим. ntree, так как он обеспечивает самую высокую точность тестовых данных. Однако, чтобы выбрать лучшее n-дерево, нам нужно внимательно изучить показатели точности каждого класса в матрицах путаницы разных n-деревьев и их практическое влияние.

На рисунке «Показатели точности по классам по сравнению с ntrees(K)» ниже показаны показатели точности каждого класса при разных ntrees = 100 200 300 400. Наивысший показатель точности нормального класса составляет 0,979 при 𝑛𝑡𝑟𝑒𝑒 = 200, в то время как в подозрительном классе он имеет показатель точности 0,949 при 𝑛𝑡𝑟𝑒𝑒𝑠 = 100 200 и показатель точности 0,945 при 𝑛𝑡𝑠 = 4,0,0𝑟𝑟 Для класса патологии самый высокий показатель точности составляет 0,903 при 𝑛𝑡𝑟𝑒𝑒𝑠 = 300 400, а самый низкий показатель точности составляет 0,891 при 𝑛𝑡𝑟𝑒𝑒 = 100.

В медицинской практике мы хотели бы выбрать значение ntrees, которое дает самый высокий уровень истинно положительных результатов и самый низкий уровень ложноотрицательных результатов. Это означает, что мы хотим предсказать подозрительные случаи и случаи патологии, когда их истинный класс — подозрительный и патологический, соответственно. Мы хотим свести к минимуму случаи, предсказание которых Нормально, но их истинный класс — Подозрение и Патология.

Глядя на 4 таблицы матрицы путаницы ниже, лучшее значение ntrees равно 200. Хотя класс P не имеет наивысшего уровня точности при ntree = 200, он имеет самый низкий ложный отрицательный результат при 𝑛𝑡𝑟𝑒𝑒 = 200. Кроме того, класс S также имеет самый низкий показатель точности. частота ложноотрицательных результатов и его наивысшая степень точности при 𝑛𝑡𝑟𝑒𝑒 = 200. Опять же, наилучшее значение выбранных ntrees равно 200.

2. Важность RF при ntry = 5 и лучших ntrees = 200

При лучшем 𝑛𝑡𝑟𝑒𝑒𝑠 = 200 и 𝑛𝑡𝑟𝑦 = 5 функция randomforest() применяется для обучения newTRAIN и создания классификатора RF, отмеченного как RF.200. После извлечения важных функций из RF.200 и их построения, как показано на рисунке ниже:

Мы видим, что функция ASTV имеет самую высокую среднюю точность уменьшения и среднее уменьшение Джини. ASTV оказывает наибольшее влияние на снижение точности прогнозов переменных из обучающей выборки в модели случайного леса. На этом рисунке также показано, что ASTV оказывает наибольшее влияние на уменьшение коэффициента Джини или примеси узлов, возникающее в результате разделения по ASTV, усредненному по всем деревьям метода случайного леса. Наиболее важной особенностью здесь является ASTV.

3. Гистограммы и KS-тест на важнейший признак (ASTV).

Глядя на гистограммы функции ASTV для каждого класса ниже, можно увидеть различия в распределении для каждого класса. Распределение класса N выглядит нормальным, в то время как распределение классов S и P смещено влево. Ks.test используется для сравнения гистограмм класса N и класса S, гистограмм класса N и класса P и гистограмм класса S и класса P для функции ASTV.

Все 3 p-значения ks.test между каждой парой гистограмм класса относительно малы и приближаются к нулевому значению. Поэтому для функции ASTV гистограммы каждого класса отличаются друг от друга. ks-различающая способность признака ASTV между классами приблизительно равна 1. Таким образом, это означает, что функция ASTV может хорошо различать три класса N, S, P.