Продолжим наше обучение
В этом блоге мы попытаемся узнать об алгоритме машинного обучения Random Forest Classification, о том, как он работает, и о математике, лежащей в основе этого алгоритма.
Прежде чем перейти непосредственно к классификатору Random Forest, мы должны знать о Random Forest и о том, как он работает.
Что такое случайный лес?
- Random Forest — это алгоритм обучения с учителем.
- Он использует метод обучения ансамблем (обучение ансамблем использует несколько алгоритмов одновременно или один алгоритм несколько раз, чтобы сделать модель более мощной) для построения нескольких деревьев решений в случайных точках данных. Затем их прогнозы усредняются. Возьмите среднее значение прогнозов, сделанных несколькими деревьями решений, а затем предскажите окончательный результат. Вы можете взять ссылку на изображение выше.
Типы моделей случайного леса:
1. Прогнозирование случайного леса для проблемы классификации.
2. Прогнозирование случайного леса для проблемы регрессии.
Что такое классификация случайных лесов?
- Это ансамблевый алгоритм обучения на основе дерева.
- Классификатор случайного леса представляет собой набор деревьев решений из случайно выбранного подмножества обучающей выборки.
- Он объединяет голоса из разных деревьев решений, чтобы определить окончательный класс тестового объекта.
- Алгоритм случайного леса создает деревья решений на выборках данных, затем получает прогноз для каждой из них и, наконец, выбирает лучшее решение посредством голосования.
Как работает алгоритм случайного леса?
Давайте разберемся с работой алгоритма Random Forest с помощью следующих шагов:
- Шаг 1. Сначала начните с выбора случайных выборок из заданного набора данных.
- Шаг 2. Далее этот алгоритм построит дерево решений для каждой выборки. Затем он получит результат прогноза из каждого дерева решений.
- Шаг 3. На этом этапе голосование будет проводиться для каждого прогнозируемого результата.
- Шаг 4. Наконец, выберите результат прогноза с наибольшим количеством голосов в качестве окончательного результата прогноза.
Например:
Постановка задачи: Из данного образца различных видов фруктов мы должны выбрать фрукты по их признакам.
Решение. Возьмем три дерева решений для одного и того же образца фруктов.
Теперь дайте один фрукт с его особенностями этой модели.
На основе особенностей этого фрукта предсказания деревьев решений выглядят следующим образом:
Мы видим, что большинство проголосовало за ОРАНЖЕВЫЙ фрукт.
Преимущества случайного леса:
- Он преодолевает проблему переобучения путем усреднения или объединения результатов различных деревьев решений.
- Случайные леса лучше подходят для большого диапазона элементов данных, чем одно дерево решений.
- Случайные леса очень гибкие и обладают очень высокой точностью.
Недостатки случайного леса:
- Сложность является основным недостатком алгоритмов случайного леса.
- Для реализации алгоритма Random Forest требуется больше вычислительных ресурсов, и он занимает очень много времени по сравнению с другими алгоритмами.
- Это менее интуитивно понятно в случае, когда у нас есть большая коллекция деревьев решений.
Применение случайного леса:
- Банковское дело. Банковский сектор чаще всего использует этот алгоритм для определения кредитного риска.
- Медицина: с помощью этого алгоритма можно определить тенденции заболевания и риски заболевания.
- Маркетинг. С помощью этого алгоритма можно определить тенденции маркетинга.
Вывод:
В этой статье мы узнали об алгоритме случайного леса, его работе, а также узнали, что в алгоритме случайного леса используется несколько деревьев решений.
Вот и подходит к концу этот блог.
СПАСИБО ЗА ВАШЕ ЦЕННОЕ ВРЕМЯ