Мы можем видеть на картинке выше, есть много деревьев. По сути, это изображение леса, в котором много деревьев. В этой статье я познакомлю вас с алгоритмом случайного леса. Итак, я подумал сначала познакомить вас с лесом. Разве не интересно? Итак, начнем.

Алгоритм случайного леса — это контролируемый алгоритм обучения, обычно используемый для задач классификации. Да, мы можем использовать его и для задач регрессии. Я хотел бы рассказать вам небольшой пример, чтобы вы могли лучше понять этот алгоритм.

Есть один мальчик, которого зовут Джек. Он сдал 12-й экзамен на доске (HSC). Сейчас он хочет поступать в высшие учебные заведения, но у него есть один вопрос, в какую область ему идти? Он может поступить на инженерный, медицинский или любой другой факультет. Итак, он пошел к своему отцу и спросил его об этом. Он решил, что возьмет допуск туда, где скажет отец. Но это не очень хороший метод. Хорошим критерием является то, что он должен спросить своих друзей, родственников, соседей, и на основе большинства он может решить. Это хороший способ выбрать хорошую и полезную область для высшего образования.

То же самое происходит с алгоритмами машинного обучения. Если я хочу построить модель классификации. Я могу использовать один алгоритм среди логистической регрессии, машины опорных векторов, K-ближайшего соседа, алгоритмов наивного Байса. Но использование только одного алгоритма может не дать высокой точности. Предположим, что для конкретной задачи один алгоритм может дать очень низкую точность, а другой — хорошую. Следовательно, чтобы получить высокую точность для каждой проблемы, мы можем построить модель для более чем одного алгоритма, и, наконец, мы получим результат, вычислив среднее значение или большинство из этих моделей. Этот метод называется обучение ансамблем.

В алгоритме случайного леса мы строим множество деревьев решений. Каждое дерево решений дает один результат, затем, в конце концов, мы вычисляем окончательный результат, беря результаты большинства или вычисляя среднее значение. Для каждого дерева решений мы будем брать случайные данные из исходного набора данных. Следовательно, этот алгоритм называется случайным лесом. Следующее изображение визуализирует то, что я написал выше.

Почему мы используем алгоритм случайного леса?

Как я упоминал выше, он создаст множество деревьев решений и, объединив все выходные данные, даст окончательный результат. Следовательно, это обеспечит высокую точность для любой задачи, а также набор данных большой размерности. Это дает высокую точность, это создаст низкую ошибку. Следовательно, мы должны использовать алгоритм случайного леса.

Приступим к кодированию.

Я уже создал код на Kaggle. Я прошу вас увидеть код, нажав на ссылку ниже.



В приведенном выше коде я построил модель классификации, используя алгоритм случайного леса. Я загрузил набор данных цифр из библиотеки sklearn и использую его в качестве исходного набора данных. Проверьте это. Если вы столкнулись с какими-либо трудностями, вы можете прокомментировать меня здесь, а также на Kaggle. Я постараюсь решить вашу проблему.