Регрессия дерева решений и ее математическая реализация

Что такое дерево решений?
Дерево решений — один из самых популярных и мощных алгоритмов регрессии и классификации. Он относится к категории непараметрического обучения с учителем.
Он разбивает набор данных на все более мелкие подмножества, в то же время последовательно разрабатывается соответствующее дерево решений.
Дерево решений обычно начинается с одного узла, который разветвляется на возможные результаты. Каждый из этих результатов приводит к дополнительным узлам, которые разветвляются на другие возможности. Это придает ему древовидную форму.

Давайте разберемся с деревом решений: (В этом примере мы должны предсказать, подходит человек или нет, и для прогнозирования у нас есть некоторые параметры решения, такие как возраст, упражнения по утрам и еда пиццы или нет)

у нас есть дерево решений с нами.

Правила классификации:

Правила классификации — это случаи, когда учитываются все сценарии и каждому присваивается переменная класса.

Переменная класса:

Каждому листовому узлу назначается переменная класса. Переменная класса — это конечный результат, который приводит к нашему решению.

Выведем правила классификации из созданного Дерева решений:

Если человек моложе 30 лет и ест много пиццы →НЕ ПОДХОДИТ
Если возраст человека меньше 30 лет и он не ест много пиццы →FIT
Если возраст человека старше 30 лет и он занимается спортом по утрам→FIT
Если возраст человека старше 30 лет и он не занимается спортом по утрам→НЕ ПОДХОДИТ

Важные термины:

1.Корневой узел: он представляет собой всю совокупность или выборку, которая далее делится на два или более однородных набора.
2.Разделение: это процесс разделение узла на два или более подузлов.
3.Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.< br /> 4.Листовой/конечный узел: узлы, которые не разделяются, называется конечным узлом или конечным узлом.
5.Сокращение: когда мы удаляем подузлы узла принятия решений , этот процесс называется обрезкой. Вы можете сказать противоположный процесс разделения.
6.Ветвь/поддерево: Подраздел всего дерева называется ветвью или поддеревом.
7.Родительский и дочерний Узел: узел, который разделен на подузлы, называется родительским узлом подузлов, где подузлы являются дочерними узлами родительского узла.

ЭНТРОПИЯ/ПОЛУЧЕНИЕ ИНФОРМАЦИИ

Энтропия. Дерево решений строится сверху вниз от корневого узла и включает разделение данных на подмножества, содержащие экземпляры с похожими значениями.

Прирост информации. Прирост информации основан на снижении энтропии после разделения набора данных по атрибуту. Построение дерева решений сводится к поиску атрибута, дающего наибольший прирост информации (т. е. наиболее однородных ветвей).

Прирост информации можно рассчитать следующим образом:

Если данные полностью однородны, энтропия равна 0, в противном случае, если данные разделены (50–50%), энтропия равна 1.

МАТЕМАТИЧЕСКАЯ РЕАЛИЗАЦИЯ ДЕРЕВА РЕШЕНИЙ

Есть пара алгоритмов для построения дерева решений, мы говорим только о некоторых из них.

CART (деревья классификации и регрессии) → использует индекс Джини (классификация) в качестве показателя.

GINNI IMPURITY

Обучение дерева решений состоит из итеративного разделения текущих данных на две ветви. Скажем, у нас были следующие точки данных.

ДЕЛО 1:

Прямо сейчас у нас есть 1 филиал с 5 синими и 5 зелеными. Давайте сделаем расщепление в точке x = 2. Это идеальное расщепление! Он идеально разбивает наш набор данных на две ветви:

● Левая ветвь, с 5 синими.

● Правая ветвь, с 5 зелеными.

СЛУЧАЙ 2:

Что, если бы мы сделали разделение по x = 1,5
Это несовершенное разделение разбивает наш набор данных на следующие ветви:

● Левая ветвь, с 4 блюзами.

● Правая ветвь, с 1 синим и 5 зелеными.

Формула примеси Джинни будет:

Теперь давайте разберемся с работой ДЕРЕВА РЕШЕНИЙ на примере:

Предположим, у нас есть корзина, полная разных категорий фруктов, нам нужно разделить каждый фрукт в зависимости от его категории.

На приведенном выше рисунке мы видим, что плоды разных категорий теперь разделены.

ЗАКЛЮЧЕНИЕ

В этом посте мы подробно прочитали о деревьях решений и получили представление о работе и математике, лежащей в их основе. Они широко используются и активно поддерживаются.

Регрессия дерева решений и ее математическая реализация

Важные термины:

СПАСИБО ЗА ВАШЕ ЦЕННОЕ ВРЕМЯ

Вопросы по теме