Лучший курс Data Science | Лучший курс по машинному обучению

Дерево решений — это фундаментальный алгоритм машинного обучения, и профессионалы используют этот алгоритм для принятия статистических решений для клиентов. Надеюсь, у вас есть общее представление о том, что такое машинное обучение. дерево решений - это метод прогнозного моделирования, который может решать проблемы регрессии и классификации. давайте поймем разницу между регрессией и классификацией.

В методе регрессии мы находим будущее числовое значение на основе прошлых значений, например, у вас есть набор данных, в котором вы хотите узнать цену дома на основе количества спален и площади дома. здесь цена является зависимой переменной, а количество спален и площадь дома независимыми.

y (цена) =m1* (количество спален) + m2*(площадь дома) + b

Модели, основанные на классификации, также используются для прогнозирования, но основное различие между регрессией и классификацией заключается в типе «y» или зависимой переменной, здесь переменная y всегда является категориальной, например, вы хотите предсказать, что кредит для сотрудника будет быть одобрены или нет на основе кредитного рейтинга и дохода.

Как решить, какой компонент должен быть расположен в корневом узле.

Основная идея построения дерева решений заключается в том, что мы передаем все данные в модель дерева решений, после чего эта модель вычисляет, какая функция является наиболее ценной или какой столбец присутствует в наборе данных, используя формулу энтропии и прироста информации. например, на приведенном выше рисунке используемый столбец имеет самый высокий информационный прирост, поэтому мы помещаем этот столбец в корень дерева.

Энтропия — это случайность или примесь в наборе данных, когда вы загружаете все данные в модель дерева решений, тогда примесь или энтропия в это время очень высока. дерево решений дополнительно делит данные на две части, чтобы уменьшить энтропию в наборе данных и использовать его для прогнозов. прирост информации - это формула уменьшения энтропии, и это мера уменьшения энтропии.

Как разделить дерево?

мы уже выбрали наш корневой узел на основе наибольшего прироста информации, теперь скажем, что используемый столбец имеет два типа значений «да» или «нет», поэтому мы делаем 2 ветви этого дерева сначала «нет» с левой стороны и «да» справа и дополнительно проверьте прирост информации в остальных столбцах на основе «да» и «нет» соответственно, и мы обнаружили, что столбец кредитного рейтинга имеет самый высокий информационный прирост по отношению к «нет», поэтому кредитный рейтинг будет частью «нет», так мы делим наше дерево, пока не получим конечный узел, листовой узел — это последний узел, где мы получили наш ответ или предсказание.

Преимущества дерева решений

  1. Дерево решений может обрабатывать отсутствующие данные или нулевые значения.
  2. Нет необходимости очищать данные
  3. Нет необходимости указывать распределение переменных.
  4. Нет необходимости масштабировать данные
  5. Деревья решений объяснить очень просто.

Недостаток дерева решений.

  1. Если вы измените данные, то дерево решений может изменить свою структуру.
  2. Расчет дерева решений очень сложен.
  3. Обучение модели занимает много времени, если данные огромны.

Вывод:

Надеюсь, вы понимаете роль моделей деревьев решений в машинном обучении. Следующая часть — это алгоритм случайного леса, который является одним из лучших алгоритмов машинного обучения, работающих на ансамблевом обучении и использующих несколько деревьев решений для принятия комбинированных решений для клиент.

Спасибо, надеюсь, это поможет.
Команда Digistackedu.