Введение в деревья решений

Дерево решений было одной из наиболее известных моделей, когда дело доходит до машинного обучения или науки о данных. В этом сообщении блога мы узнаем, что такое ансамблевые методы и как они работают, используя дерево решений в качестве нашей базовой модели.

Примечание. В этой статье предполагается, что вы знакомы с алгоритмом дерева решений и принципами его работы. Вы можете обратиться по этой ссылке, чтобы освежить свои представления о том же: Упрощенное дерево решений

Хотя дерево решений - очень простой и мощный алгоритм, есть несколько проблем с деревьями решений. Одна из основных проблем заключается в том, что алгоритм имеет тенденцию переоснащаться, особенно когда глубина дерева велика. Есть ли способ побороть эту проблему? Как насчет того, чтобы вместо одного дерева решений построить несколько деревьев? Давайте узнаем об этом больше в следующем разделе.

Введение в ансамблевое обучение

А вот моделирование ансамбля на картинке. Ансамблевые модели - это не что иное, как совокупность ряда слабых учеников, модель работает лучше, чем случайное предположение. В большинстве случаев деревья решений используются как слабые ученики. то есть использование 10 или 100 различных деревьев решений, получение их результатов и объединение этих разных результатов для получения окончательного результата. Теперь поговорим о различных моделях ансамбля.

  1. RandomForestClassifier-

Random Forest - одна из наиболее часто используемых ансамблевых моделей, следующих за концепцией Bagging. Здесь мы рассматриваем несколько деревьев, берем 1000 деревьев решений, все независимые друг от друга, могут использовать весь / часть обучающего набора данных (распределение будет случайным) и производить разные предсказания. И используя эти результаты, и средний результат берется и рассматривается как окончательный прогноз модели. Это гарантирует, что модель не переоборудуется.

Пример - у нас есть 100 деревьев решений, из которых 60 предсказывают 1, а 40 предсказывают 0 (с учетом двоичной классификации). Поскольку 1 предикторов больше, следовательно, результат равен 1.

Ссылка на документацию: RandomForestClassifier

2. Машина для повышения градиента-

В отличие от классификатора случайного леса, который работает по концепции упаковки, GBM использует ускорение. Здесь мы также возьмем десятки деревьев решений, но они не будут независимыми. Эти деревья будут работать в последовательном порядке. Выходные данные одного дерева используются другими деревьями, чтобы сосредоточиться на ошибках и подгонять остатки. Обычная проблема заключается в том, что он очень скоро перерастет, поэтому сохраняйте сравнительно небольшое количество деревьев в соответствии с RFC.

Пример: у нас есть 5 деревьев решений. 1-е, пусть F1 принимает обучающие данные и производит выходные данные Y1. Теперь 2-е дерево, пусть H1, будет принимать X в качестве входных данных, но Y - Y1 (предсказывается деревом 1, F1). как цель. Комбинированный результат F1 и H1 - это конечный результат. Если количество деревьев больше, та же цепочка продолжается.

Y2 = F1 (X): цель - Y + H1 (X): цель - Y - Y1, где

X = входные / обучающие данные

Y = целевое значение

F1 = слабый ученик

H1 = Booster для F1, новой модели дерева решений

Y1 = вывод F1 (X)

Y2 = Улучшенные результаты

Теперь для следующего раунда повышения мы используем

Y3 = Y2 + H2 (X): цель - Y – Y2

здесь все обозначения остаются прежними, за исключением того, что H2 - это новый бустер, а Y3 - это улучшенная версия Y2.

теперь тот же шаг можно повторить и дальше для получения лучших результатов для указанного количества деревьев в целях объединения. Остальные модели, описанные ниже, используют технику усиления для целей объединения.

Ссылка на документацию: Классификатор повышения градиента

3. eXtreme Gradient Boosting Machine-

Это самая популярная модель на соревнованиях Kaggle. Это обновленная версия GBM, поэтому она быстрее и использует меньше места, поскольку она не подходит для всех возможных разделений, но для некоторых полезных разделений т.е. , если возможны точки разделения 1000, это может быть только для 100 лучших баллов, следовательно, экономия везде, будь то пространство или время !!! (с использованием предварительно отсортированного алгоритма разделения). Его часто принимают как Regularized GBM, поскольку термин лямбда (пусть сейчас это будет L) умножается на функцию, используемую для повышения в приведенном выше примере (H1). Следовательно, уравнение становится L * H1 () вместо H1 ().

Ссылка на документацию: Классификатор Extreme Gradient Boosting

4. Машина для повышения светового градиента-

LGBM также входит в число новых моделей, набирающих популярность в области науки о данных. Хотя точность для обеих моделей, XGB и LGBM довольно близка, их реализация немного отличается. Чтобы найти лучшие расщепления среди всех возможных разбиений (концепция 100 из 1000 точек разделения, следовательно, чтобы уменьшить дополнительную работу), LGBM использует одностороннюю выборку на основе градиента (GOSS), в то время как XGB использует предварительно отсортированный алгоритм для разделения цель.

Для объяснения, связанного с GOSS и разделением предварительной сортировки, любезно Отметьте здесь

Ссылка на документацию: Повышение светового градиента

5) Catboost-

Не так популярно, CatBoost сравнительно медленнее, чем LGBM и XGB, но имеет непревзойденное преимущество: он может принимать категориальные данные в текстовой форме (вам нужно указать, какие столбцы категориальные) и обучать модель, и, следовательно, имя Кот егорическое Boost. Дело в том, что он понимает категориальные данные, в то время как другие модели просто принимают их, когда они представлены как числовые. Никакого этапа предварительной обработки для преобразования текста в числовые с помощью OneHotEncoder или LabelEncoding для категорий не требуется, потому что из которых он дает лучшие результаты.

Чтобы узнать, как осуществляется сбор категориальных данных, перейдите здесь.

Ссылка на документацию: Документация CatBoost

Помимо этого, появляется много ансамблевых моделей, показывающих хорошие результаты, чем у традиционных моделей. У каждой модели есть свои достоинства и недостатки. Правильная модель зависит от проблемы и доступного набора данных. Согласно теореме о бесплатном обеде не существует идеальной модели и, следовательно,

Продолжайте изучать, продолжайте учиться