Доступны различные типы алгоритмов с именами ID3, C4.5, CART, CHAID, QUEST, GUIDE, CRUISE и CTREE. Здесь мы ищем три наиболее часто используемых.

Продолжая нашу предыдущую статью о Дереве решений, здесь у нас есть несколько часто используемых методов.

Начиная с ID3

  • Категориальные независимые переменные
  • Метки класса прогнозируемого класса даны
  • Начните с поиска корневого узла, который является переменной, дающей максимальный прирост информации. Это разбивает данные на, скажем, m частей.
  • Затем, оставив переменную, уже рассмотренную в корневом узле, разделите каждое поддерево, чтобы получить переменную, дающую максимальный прирост информации.

Алгоритм C4.5 решает несколько проблем в ID3.

  • обрабатывает недостающие данные
  • Недоступные значения атрибутов:
    При построении дерева решений мы можем работать с обучающими наборами, содержащими записи с неизвестными значениями атрибутов, путем оценки усиление или коэффициент усиления для атрибута, рассматривая только записи, в которых этот атрибут определен.
    Используя дерево решений, мы можем классифицировать записи с неизвестными значениями атрибута путем оценки вероятность различных возможных результатов. В качестве примера рассмотрим следующее дерево, где нам нужно предсказать для записи «прогноз» как «солнечно», «влажность» как «неизвестно».

Чтобы классифицировать наше наблюдение, мы перемещаемся по солнечной ветке Outlook, затем, глядя на данные обучения, у нас есть 2 точки данных (влажность ≤ 75) и 3 точки (влажность ≤ 75). Следовательно, вероятность (играть, не играть) равна (2/5, 3/5).

  • Непрерывные диапазоны значений атрибута. Предположим, атрибут Ci имеет непрерывный диапазон. Мы исследуем значения этого атрибута в обучающем наборе. Скажем, они в порядке возрастания: A1, A2, .., Am. Затем для каждого значения Aj, j=1,2,..m, мы разделяем записи на те, которые имеют значения Ci до Aj включительно, и те, которые имеют значения больше, чем Aj. Для каждого из этих разделов мы вычисляем усиление или коэффициент усиления и выбираем раздел, который максимизирует усиление. Так же, как мы разделили приведенный выше пример для влажности ≥75
  • Сокращение деревьев решений.Осуществляется путем замены всего поддерева конечным узлом. Замена происходит, если правило принятия решения устанавливает, что ожидаемая частота ошибок в поддереве больше, чем в отдельном листе. Уинстон показывает, как использовать точный критерий Фишера, чтобы определить, действительно ли атрибут категории зависит от некатегориального атрибута. Если это не так, то некатегориальный атрибут может не появляться в текущем пути дерева решений. Куинлан и Брейман предлагают более сложную эвристику сокращения. Читайте мою статью здесь.
  • Вывод правил:легко вывести набор правил из дерева решений: напишите правило для каждого пути в дереве решений из корня к листу. В этом правиле левая часть легко строится из меток узлов и меток дуг.

КОРЗИНА над другими

CART является дальнейшим усовершенствованием C4.5, где

  • он может работать как с непрерывными зависимыми, так и с независимыми переменными.
  • использует адаптацию мультиклассового индекса Джини вместо энтропии или прироста информации. Читайте мою статью о мерах примесей здесь.
  • строит последовательность поддеревьев, а затем использует перекрестную проверку для оценки неправильной классификации каждого поддерева. Затем он выбирает тот, который имеет наименьшую стоимость.
  • может обрабатывать выбросы

Короче говоря, я нашел красивый стол.

Мои социальные пространства

Инстаграм https://www.instagram.com/codatalicious/

LinkedIn https://www.linkedin.com/in/shaily-jain-6a991a143/

Медиа https://codatalicious.medium.com/

YouTube https://www.youtube.com/channel/UCKowKGUpXPxarbEHAA7G4MA

Ресурсы:

  1. https://cis.temple.edu/~ingargio/cis587/readings/id3-c45.html
  2. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.685.4929&rep=rep1&type=pdf
  3. https://www.youtube.com/watch?v=HLHb1YZteMg&list=PLjuYG8GlEBOPfyHejrYHfCQAYiGJIpL4G&index=14