rpart — это пакет в R, который используется для моделирования деревьев классификации и регрессии. С помощью пакета rpart мы рисуем дерево, где дерево разбито на разные ветки с помощью переменных. Теперь, чтобы предсказать результат, вы должны следить за сплитами и предсказывать наиболее частые результаты. Теперь здесь вы можете контролировать количество сплитов с помощью параметра «minbucket» в R.

Random Forest — это пакет в R, который также используется для моделирования деревьев классификации и регрессии. Random Forest использует алгоритм ансамблевого обучения для прогнозирования результатов. Random Forest строит несколько деревьев решений, затем собирает результаты всех деревьев решений, что в конечном итоге приводит к окончательному результату. Проще говоря, Random Forest строит несколько деревьев решений для предсказания.

Теперь в rpart, поскольку мы построили только одно дерево, результат легко интерпретировать. Но в Random Forest у нас много деревьев, и результат получается совместными усилиями всех деревьев, поэтому это не так интерпретируемо. Теперь, поскольку случайный лес использует алгоритм обучения ансамбля, точность здесь лучше, чем та, которую мы получаем с помощью пакета rpart. Предсказательная сила Random Forest лучше, чем у rpart.

Наконец, я просто хотел бы объяснить, как на самом деле работает случайный лес. Пусть количество признаков равно n. Затем случайным образом выберите m объектов из n, где m‹n. Для определенного узла (где происходит разделение) вычислите лучшую точку разделения среди m объектов. Разделите узел на два дочерних узла (в случае алгоритма классификации), используя наилучшее разделение, а затем повторите описанные выше шаги, пока не будет достигнуто количество m узлов. Постройте свой лес, повторяя описанные выше шаги, пока не будет достигнуто желаемое количество деревьев.

Если есть какие-либо ошибки, пожалуйста, поправьте меня.

Спасибо.