Что происходит в Random Forest — и пять простых и быстрых шагов для построения модели.

Этот блог является частью моего понимания методов случайного леса для контролируемого машинного обучения.

Случайный лес — один из наиболее часто используемых методов для задач классификации.

Деревья решений являются строительными блоками случайного леса.

В каждом узле Дерево решений спрашивает, какие функции позволят мне разделить результирующие группы на максимально разные. Например. Синий и красный цвета обозначают 1 и 0, первый узел разбивается на основе цвета «Это красный?», затем, если далее мы хотим классифицировать 0 или 1, дальнейший узел выделяется на основе «Это 0?»

Сплит производится на основе индекса Джини.

Случайный лес состоит из большого количества деревьев решений, которые работают как ансамбль. Каждое дерево представляет свой класс, и большинство голосов становится классом предсказания RF.

Лучшая часть деревьев решений этих людей заключается в том, что они работают на основе концепции упаковки, и они низко коррелированы, и, следовательно, каждое дерево защищает друг друга от их индивидуальных ошибок.

Низкая корреляция возможна, потому что - модель RF выбирает случайное наблюдение, поскольку обучающая выборка для каждого дерева также различна, признаки, выбранные каждым деревом, являются случайными.

Ниже приведены несколько быстрых контрольных шагов для применения модели случайного леса.

Шаг 1. С помощью библиотеки (randomForest) создайте модель randomforest(). Убедитесь, что целевая функция является фактором, или преобразуйте ее в функцию as.factor().

Шаг 2. Запустите модель и проверьте ошибки OOB (Out of Bag). OOB зависит от количества деревьев и количества функций, выбранных отдельным деревом. [Также можно построить график OOB]

Шаг 3. Чтобы повысить надежность (или точность) отдельных деревьев, проверьте наименьшую частоту ошибок и выберите размер случайных деревьев соответствующим образом.

Шаг 4. Настройте модель случайного леса с помощью функции tuneRF().

Шаг 5. Сделайте прогноз для тестового набора данных, используя функцию прогнозирования().

Я взял ссылку из «Понимание случайного леса» Тони Ю.

Для практического применения и того, как выполнить Random Forest для тематического исследования Titanic — Нажмите здесь.