Что такое дерево решений?
Дерево решений — один из самых популярных и мощных алгоритмов регрессии и классификации. Он относится к категории непараметрического обучения с учителем.
Он разбивает набор данных на все более мелкие подмножества, в то же время последовательно разрабатывается соответствующее дерево решений.
Дерево решений обычно начинается с одного узла, который разветвляется на возможные результаты. Каждый из этих результатов приводит к дополнительным узлам, которые разветвляются на другие возможности. Это придает ему древовидную форму.
Давайте разберемся с деревом решений: (В этом примере мы должны предсказать, подходит человек или нет, и для прогнозирования у нас есть некоторые параметры решения, такие как возраст, упражнения по утрам и еда пиццы или нет)
у нас есть дерево решений с нами.
Правила классификации:
Правила классификации — это случаи, когда учитываются все сценарии и каждому присваивается переменная класса.
Переменная класса:
Каждому листовому узлу назначается переменная класса. Переменная класса — это конечный результат, который приводит к нашему решению.
Выведем правила классификации из созданного Дерева решений:
- Если человек моложе 30 лет и ест много пиццы →НЕ ПОДХОДИТ
- Если возраст человека меньше 30 лет и он не ест много пиццы →FIT
- Если возраст человека старше 30 лет и он занимается спортом по утрам→FIT
- Если возраст человека старше 30 лет и он не занимается спортом по утрам→НЕ ПОДХОДИТ
Важные термины:
1.Корневой узел: он представляет собой всю совокупность или выборку, которая далее делится на два или более однородных набора.
2.Разделение: это процесс разделение узла на два или более подузлов.
3.Узел принятия решения. Когда подузел разделяется на дополнительные подузлы, он называется узлом принятия решения.< br /> 4.Листовой/конечный узел: узлы, которые не разделяются, называется конечным узлом или конечным узлом.
5.Сокращение: когда мы удаляем подузлы узла принятия решений , этот процесс называется обрезкой. Вы можете сказать противоположный процесс разделения.
6.Ветвь/поддерево: Подраздел всего дерева называется ветвью или поддеревом.
7.Родительский и дочерний Узел: узел, который разделен на подузлы, называется родительским узлом подузлов, где подузлы являются дочерними узлами родительского узла.
ЭНТРОПИЯ/ПОЛУЧЕНИЕ ИНФОРМАЦИИ
Энтропия. Дерево решений строится сверху вниз от корневого узла и включает разделение данных на подмножества, содержащие экземпляры с похожими значениями.
Прирост информации. Прирост информации основан на снижении энтропии после разделения набора данных по атрибуту. Построение дерева решений сводится к поиску атрибута, дающего наибольший прирост информации (т. е. наиболее однородных ветвей).
Прирост информации можно рассчитать следующим образом:
Если данные полностью однородны, энтропия равна 0, в противном случае, если данные разделены (50–50%), энтропия равна 1.
МАТЕМАТИЧЕСКАЯ РЕАЛИЗАЦИЯ ДЕРЕВА РЕШЕНИЙ
Есть пара алгоритмов для построения дерева решений, мы говорим только о некоторых из них.
CART (деревья классификации и регрессии) → использует индекс Джини (классификация) в качестве показателя.
GINNI IMPURITY
Обучение дерева решений состоит из итеративного разделения текущих данных на две ветви. Скажем, у нас были следующие точки данных.
ДЕЛО 1:
Прямо сейчас у нас есть 1 филиал с 5 синими и 5 зелеными. Давайте сделаем расщепление в точке x = 2. Это идеальное расщепление! Он идеально разбивает наш набор данных на две ветви:
● Левая ветвь, с 5 синими.
● Правая ветвь, с 5 зелеными.
СЛУЧАЙ 2:
Что, если бы мы сделали разделение по x = 1,5
Это несовершенное разделение разбивает наш набор данных на следующие ветви:
● Левая ветвь, с 4 блюзами.
● Правая ветвь, с 1 синим и 5 зелеными.
Формула примеси Джинни будет:
Теперь давайте разберемся с работой ДЕРЕВА РЕШЕНИЙ на примере:
Предположим, у нас есть корзина, полная разных категорий фруктов, нам нужно разделить каждый фрукт в зависимости от его категории.
На приведенном выше рисунке мы видим, что плоды разных категорий теперь разделены.
ЗАКЛЮЧЕНИЕ
В этом посте мы подробно прочитали о деревьях решений и получили представление о работе и математике, лежащей в их основе. Они широко используются и активно поддерживаются.