Дерево решений (Базовый анализ)

Дерево решений — это контролируемый алгоритм машинного обучения, который можно использовать как для задач регрессии, так и для задач классификации. Он делит полный набор данных на более мелкие подмножества, в то же время постепенно разрабатывается соответствующее дерево решений. Конечным результатом деревьев решений является дерево, имеющее узлы решений и конечные узлы. Дерево решений может работать как с категориальными, так и с числовыми данными.

Деревья решений в настоящее время широко используются во многих приложениях для прогнозного моделирования, включая как классификацию, так и регрессию. Иногда деревья решений также называют CART, что является сокращением от деревьев классификации и регрессии.

Типы деревьев решений

Таким образом, в основном деревья решений делятся на два типа в зависимости от целевых переменных.

Деревья решений категориальных переменных: здесь алгоритм имеет категориальную целевую переменную. Например, вас попросили спрогнозировать относительную цену компьютера в одной из трех категорий: низкая, средняя или высокая. Функции могут включать тип монитора, качество динамиков и объем оперативной памяти. Дерево решений будет учиться на основе этих функций и после прохождения каждой точки данных через каждый узел окажется в концевом узле одной из трех целевых категорий низкий, средний или высокий.
Деревья решений с непрерывными переменными: в этом случае входные данные дерева решений (например, качества дома) будут использоваться для прогнозирования непрерывного результата (например, цены этого дома).

Этапы создания дерева решений

Возьмите весь набор данных в качестве входных данных.
Вычислить энтропию целевой переменной (зависимой переменной), а также атрибутов предиктора. (упорядочение)
Рассчитайте прирост информации по всем атрибутам. (сортировка)
Выберите атрибут с наибольшим приростом информации в качестве корневого узла.
Повторяйте ту же процедуру для каждой ветви, пока узел решения каждой ветви не будет завершен.

Методы определения наилучшего разделения

Индекс Джини

Если все элементы правильно разделены на разные классы (идеальный сценарий), деление считается чистым. Примесь Джини используется для оценки вероятности того, что случайно выбранный пример будет неправильно классифицирован определенным узлом. Он известен как «примесная» мера, поскольку дает нам представление о том, чем модель отличается от чистого деления.

Степень оценки примеси Джини всегда находится в диапазоне от 0 до 1, где 0 означает, что все элементы принадлежат к определенному классу (или деление является чистым), а 1 означает, что элементы случайным образом распределены по различным классам. Примесь Джини 0,5 означает, что элементы равномерно распределены по некоторым классам. Математическое обозначение меры примеси Джини дается следующей формулой:

Где pi — вероятность принадлежности определенного элемента к определенному классу.

Получение информации

Прирост информации отображает количество информации, получаемой атрибутом. Он говорит нам, насколько важен атрибут. Прирост информации — это разница между энтропией сегмента данных до разделения и после разделения. Высокая разница представляет собой высокий прирост информации. Поскольку построение дерева решений заключается в поиске правильного узла разделения, обеспечивающего высокую точность, прирост информации заключается в поиске лучших узлов, которые возвращают наибольший прирост информации. Это вычисляется с использованием фактора, известного как энтропия. Энтропия определяет степень дезорганизации системы. Чем больше дезорганизация, тем больше энтропия. Когда выборка полностью однородна, то энтропия оказывается равной нулю, а если выборка частично организована, скажем, на 50% организована, то энтропия оказывается единицей.

Листовой узел — это тот, у которого нет энтропии или когда энтропия равна нулю. Дальнейшее разбиение на листовом узле не выполняется.
Только та ветвь, которая нуждается в дальнейшем расщеплении, т.е. когда энтропия > 0 (когда есть примесь), должна пройти этот процесс расщепления.

Хи-квадрат

Метод хи-квадрат хорошо работает, если целевые переменные являются категориальными, такими как успех-неудача/максимум-минимум. Основная идея алгоритма состоит в том, чтобы найти статистическую значимость различий, существующих между подузлами и родительским узлом. Математическое уравнение, которое используется для вычисления хи-квадрата,

Он представляет собой сумму квадратов стандартизированных различий между наблюдаемой и ожидаемой частотами целевой переменной. Основное преимущество использования хи-квадрата заключается в том, что он может выполнять несколько разбиений в одном узле, что приводит к большей точности и точности.

Гиперпараметры

критерий: этот параметр используется для измерения качества разделения. Значение по умолчанию для этого параметра установлено на «Джини». Если вы хотите, чтобы мера рассчитывалась по приросту энтропии, вы можете изменить этот параметр на «энтропия».
splitter: этот параметр используется для выбора разделения на каждом узле. Если вы хотите, чтобы поддеревья имели наилучшее разделение, вы можете установить для этого параметра значение «best». У нас также может быть случайное разделение, для которого установлено значение «случайный».
max-depth: это целочисленный параметр, с помощью которого мы можем ограничить глубину дерева. Значение по умолчанию для этого параметра равно None.
min_samples_split: этот параметр используется для определения минимального количества выборок, необходимых для разделения внутреннего узла.
max_leaf_nodes: значение max_leaf_nodes по умолчанию равно None. Этот параметр используется для выращивания дерева с max_leaf_nodes в порядке наилучшего.

Приложения с использованием дерева решений

Дерево решений — один из основных и широко используемых алгоритмов в области машинного обучения. Вот несколько примеров, где можно использовать дерево решений.

Управление бизнесом
Управление взаимоотношениями с клиентами
Обнаружение мошеннических заявлений
Потребление энергии
Управление здравоохранением
Диагностика неисправностей

Преимущества и недостатки

Преимущества: деревья решений требуют очень мало времени для обработки данных по сравнению с другими алгоритмами. Некоторые этапы предварительной обработки, такие как нормализация, преобразование и масштабирование данных, можно пропустить. Хотя если в наборе данных отсутствуют значения, это не повлияет на производительность модели. Модель дерева решений интуитивно понятна и проста для объяснения техническим группам и заинтересованным сторонам и может быть реализована в нескольких организациях.

Недостатки: В деревьях решений небольшие изменения в данных могут вызвать большие изменения в структуре дерева решений, что, в свою очередь, приводит к нестабильности. Время обучения резко увеличивается пропорционально размеру набора данных. В некоторых случаях вычисления могут оказаться сложными по сравнению с другими традиционными алгоритмами.

Заключение

В этой статье мы обсудили основы алгоритма дерева решений. Это контролируемый алгоритм обучения, который можно использовать как для классификации, так и для регрессии. Основная цель дерева решений — разделить набор данных в виде дерева на основе набора правил и условий. Мы видели, как работает дерево решений и как выполняется стратегическое разделение с использованием популярных алгоритмов, таких как GINI, получение информации и хи-квадрат. Наконец, мы обсудили преимущества и недостатки использования деревьев решений в некоторых важных приложениях.