В этой статье мы собираемся понять концепцию алгоритма дерева решений для классификации, как этот алгоритм работает и его математическую реализацию.

Что такое алгоритм классификации дерева решений?

  1. Классификация дерева решений подпадает под категорию непараметрического контролируемого обучения.
  2. Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается соответствующее дерево решений.
  3. Классификатор дерева решений создает модель классификации путем построения дерева решений.
  4. Он разбивает дерево рекурсивным образом, вызывая рекурсивное разбиение, и делает разбиение на основе значения атрибута.
  5. Деревья решений могут обрабатывать многомерные данные с хорошей точностью.
  6. Дерево содержит узлы решений и конечные узлы.
  • Узлы решения — это узлы, представляющие значение входной переменной (x). Имеет две или более двух ветвей.
  • Конечные узлы содержат решение или выходную переменную (y).

Как работает алгоритм дерева решений?

Основная идея любого алгоритма дерева решений заключается в следующем:

  1. Выберите лучший атрибут, используя меры выбора атрибутов (ASM), чтобы разделить записи.
  2. Сделайте этот атрибут узлом решения и разбейте набор данных на более мелкие подмножества.
  3. Запускает построение дерева, рекурсивно повторяя этот процесс для каждого дочернего элемента, пока не совпадет одно из условий:
  • Все кортежи принадлежат одному и тому же значению атрибута.
  • Оставшихся атрибутов больше нет.
  • Больше экземпляров нет.

Например,

Давайте разберемся с классификацией дерева решений: (В этом примере мы должны предсказать, подходит человек или нет, и для прогнозирования у нас есть некоторые параметры решения, такие как возраст, упражнения по утрам и еда пиццы или нет)

Правила классификации:

Правила классификации — это случаи, когда учитываются все сценарии и каждому присваивается переменная класса.

Переменная класса:

Каждому листовому узлу назначается переменная класса. Переменная класса - это конечный результат, который приводит к нашему решению. Здесь у нас есть две (2) переменные класса, т.е. Fit & Unfit.

Давайте выведем правила классификации из созданного выше дерева решений:

  1. Если человек моложе 30 лет и ест много пиццы →НЕ ПОДХОДИТ
  2. Если возраст человека меньше 30 лет и он не ест много пиццы →FIT
  3. Если человек старше 30 лет и делает зарядку по утрам→FIT
  4. Если человек старше 30 лет и не занимается спортом по утрам→НЕ ПОДХОДИТ

Математика, стоящая за классификацией дерева решений:

Для случайно распределенного набора данных вам не следует использовать другой алгоритм классификации, такой как SVM, K-means или Naive Bayes. Поскольку большая случайность в данных создает большую энтропию,вы должны выбрать алгоритм, который минимизирует энтропию и максимизирует получение информации. В этом контексте вам следует внедрить дерево решений для классификации.

  • Энтропия – это мера случайности или примеси, содержащейся в наборе данных. В теории информации это относится к примеси в группе примеров.
  • Прирост информации — это противоположность энтропии, которая измеряет уменьшение энтропии. Прирост информации вычисляет разницу между энтропией до разделения и средней энтропией после разделения набора данных на основе заданных значений атрибутов. .

  • Коэффициент усиления

Коэффициент усиления решает проблему смещения путем нормализации прироста информации с помощью Split Info. Коэффициент усиления можно определить как

  • Индекс Джини

Индекс Джини предпочитает более крупные разделы. Он использует квадратную пропорцию классов. При идеальной классификации индекс Джини будет равен нулю.Переменное разделение должно иметь низкий индекс Джини.

Алгоритм работает как «1 — ( P(class1)² + P(class2)² + … + P(classN)²)»

В этом блоге мы рассмотрели много подробностей о классификации дерева решений, о том, как она работает, о мерах выбора атрибутов, таких как получение информации, коэффициент усиления и индекс Джини, и вот подходит к концу этот блог.

Спасибо за ваше драгоценное время.