Почему алгоритм Decision Tree Cart подходит именно вам

Вам интересно, как машины могут делать точные прогнозы и решения? Машинное обучение использует дерево решений, чтобы делать точные прогнозы и принимать решения. CART — это мощный метод машинного обучения, который позволяет дереву решений эффективно обучаться на большом наборе данных.

Древо решений

Дерево решений (DT) представляет собой древовидный граф для отображения решений и их результатов. Его можно использовать как для категоризации, так и для регрессии. Он имеет иерархическую структуру с узлами и ребрами, которые помогают нам представлять сложные процессы принятия решений простым и понятным способом.

В нашей повседневной жизни мы часто сталкиваемся с несколькими сценариями, когда мы должны ответить на ряд сессий анкеты, чтобы наконец получить решение. Если мы моделируем процесс принятия решений в виде дерева решений, каждый вопрос можно обозначить как узел.

Например, один кандидат должен решить, воспользоваться ли возможностью трудоустройства на основе

1. Предлагаемая заработная плата составляет 50 000 долларов США или выше.

· Да-принять.

2. время в пути более 1 часа

· Да-отклонить.

3. предоставить любой бесплатный кофе

· Да - принять.

Итак, это основная идея дерева решений, и, используя этот метод, мы можем предсказать целевую переменную, поэтому мы называем его деревом решений.

На приведенном выше рисунке каждый блок идентифицируется как узел.

Первый узел называется корневой узел.

Узлы в зеленом цвете являются результатом опроса. Эти узлы называются конечными узлами, которые имеют окончательные ответы.

Все остальные промежуточные узлы называются внутренними узлами.

Алгоритм дерева решений:

Существует несколько алгоритмов построения дерева решений,

1. CART-классификация и деревья регрессии

2. ID3-итеративный дихотомайзер 3

3. C4.5

4. CHAID-хи-квадрат Автоматическое обнаружение взаимодействия

5. MARS-Многомерные адаптивные регрессионные сплайны

Алгоритм КОРЗИНЫ

CART можно применять как для классификации, так и для регрессии, как следует из названия. Различие между переменными. Это метод рекурсивного двоичного разбиения, который создает DT путем итеративного разделения данных на подмножества в зависимости от значений одной входной переменной. Он обрабатывает данные напрямую (предварительная обработка не требуется), что позволяет использовать множество экземпляров одной и той же переменной в разных областях одного и того же ОУ.

Например, коллекция содержит информацию о размерах чашелистиков, лепестков и завязей цветков, а также о родственных видах (Iris setosa, Iris Versicolor и Iris virginica).
Если два признака — ширина и длина лепестков и чашелистиков — и используется набор данных из 150 образцов, его будет проще понять. Versicolor, Virginica и Iris setosa, соответственно, как виды в наборе данных.

Алгоритмы CART используют критерий примеси Джини и прирост информации для определения наилучшего разделения. В то время как другой алгоритм использует уменьшение энтропии. Сейчас мы обсуждаем только алгоритм CART, так как он наиболее часто используется.

1. Индекс Джини

Это показатель нечистоты или чистоты набора данных, который используется для оценки разделения набора данных. Он рассчитывается путем вычитания суммы квадратов вероятностей каждого класса из единицы.

Математически,

Итак, для нашего набора данных

Индекс Джини=0,66

Весь набор данных представлен корневым узлом дерева, в котором содержится 120 выборок. Индекс Джини для этого узла равен 0,66, что указывает на то, что набор данных несколько загрязнен.

Если признак меньше 100, он классифицируется как Iris setosa со значением Джини, равным нулю, из-за отсутствия перекрытия. Однако, если это 100 или более, необходимо рассмотреть еще 78 образцов.

В левой ветви первого разделения индекс Джини составляет 0,499 с выборками 78, в то время как другая ветвь показывает индекс Джини 0, поскольку нет перекрытия. Классифицируется как Iris setosa.

В правой ветви второго разделения третье разделение также использует критерии, но на этот раз классифицируется как Iris virginica или Iris versicolor. Эти разделы чистые, со значениями Джини, равными 0, в выборках 41 и 37.

Дерево делит цветы на три группы: Iris setosa, Iris versicolor и Iris virginica в зависимости от длины их лепестков.

Дерево состоит из трех слоев и четырех конечных узлов, каждый из которых представляет метку класса. Для создания дерева многократно выбирается разбиение с наименьшим индексом Джини на каждом уровне. Индекс Джини измеряет качество каждого разделения. Для точной классификации сложность дерева должна увеличиваться вместе со сложностью набора данных.

2.Получение информации

Мы также можем разделить данные, используя прирост информации. Это мера информации, которую функция предоставляет о классе или целевой переменной. Прирост информации — это разница между примесью родительского узла и средневзвешенной примесью дочернего узла. Он решает, какую функцию следует использовать для разделения.

Прирост информации = энтропия-средняя энтропия

Pk — вероятность класса k.

Энтропия — это мера степени случайности в распределении классов в узле.

Этапы алгоритма CART:

Прежде всего, необходимо импортировать необходимые необходимые библиотеки, а также набор данных под названием «Iris».

Шаг 1. Изучите набор данных и при необходимости подготовьте данные.

Шаг 2. Разделите данные на тестовые и обучающие.

Шаг 3. Выберите независимые и целевые переменные. Это может быть непрерывная переменная (проблема регрессии) и категориальная переменная (классификация) для целевой переменной.

Шаг 4. Постройте модель, используя выбранный критерий и меру примеси, чтобы разделить данные на основе критерия.

Шаг 5. Оцените модель, используя точность, прецизионность и показатель f1.

Кроме того, постройте график древовидного классификатора и визуализируйте взаимосвязь между переменными.

Почему обрезка?

Обрезка — это метод, который уменьшает размер дерева путем удаления ненужных ветвей. Этот процесс поможет свести к минимуму переоснащение при оптимизации его структуры. Переобучение происходит, когда сложная модель захватывает шум или несвязанную информацию из обучающего набора.

Существует два вида обрезки: предварительная и постобрезная. Указав определенные условия (гиперпараметры), такие как максимальная глубина и минимальное количество выборок на лист. Это предварительная обрезка. Постобрезка — это замена узлов выросшего дерева листьями для уменьшения сложности. Наиболее типичный способ упрощения ветвей — это.

Сокращение может значительно повысить точность и интерпретируемость модели CART за счет уменьшения сложности, повышения производительности и выделения функций и важных взаимосвязей в данных.

Максимальная глубина: этот параметр помогает установить максимальное количество узлов (уровней) в дереве решений. Это поможет уменьшить переоснащение дерева.

Минимальное количество образцов. Это минимальное количество образцов, которое необходимо для разделения. Если количество выборок меньше порогового значения, применяется обрезка.

Минимальное количество выборок на лист: это параметр, определяющий минимальное количество выборок, требуемых во внутреннем узле перед его разбиением.

Преимущества:

1.Предварительная обработка не требуется, так как она может обрабатывать как категориальные, так и числовые признаки.

2.Легко интерпретируется для каждого, поскольку это визуализируется.

3. Дерево решений просто требует базовых вычислений, что делает их обучение быстрым.

Ограничения:

1. Деревья решений могут быть склонны к переоснащению обучающих данных, если они сложные.

2. Он чувствителен к небольшим изменениям данных.

3. Структура дерева может быть нестабильной.

В заключение, дерево решений — это простой и популярный подход к классификации и решению задач. Он позволяет принимать прозрачные решения, разбивая сложные проблемы на более простые правила принятия решений. Однако, как и любые другие алгоритмы машинного обучения, он имеет свои ограничения и может быть подвержен предвзятости и нестабильности. Чтобы уменьшить эти проблемы, крайне важно тщательно выбрать проблемы модели и настроить ее.

Написание основано на моих исследованиях и рекомендациях.

Надеюсь, вам понравится!

Рекомендации

Кумар Г.С., 2020 г. Деревья решений: пошаговый подход к созданию DTS. [онлайн] Средний. Доступно по адресу: ‹https://towardsdatascience.com/decision-trees-a-step-by-step-approach-to-building-dts-58f8a3e82596› [Проверено 13 апреля 2023 г.].

Редди, Э.П.К. (2022) Полный поток алгоритма дерева решений, Analytics Vidhya. Доступно по адресу: https://www.analyticsvidhya.com/blog/2022/04/complete-flow-of-decision-tree-algorithm/ (дата обращения: 13 апреля 2023 г.)