использование MLJ и BetaML

Случайный классификатор леса

— это методология машинного обучения, которая выполняет задачи классификации путем объединения нескольких деревьев решений.

Каждое дерево решений будет обучаться на случайном подмножестве данных, которое использует случайные подмножества функций для распределения лучших разбиений на узел. Большинство голосов отдельных деревьев решений обычно представляет собой окончательный прогноз классификатора случайного леса. Таким образом, классификатор случайного леса уменьшает переоснащение и повышает точность и обобщение модели.

Дерево решений использует метод ветвления, чтобы показать все возможные результаты решения на основе заданных функций или предикторов.

В качестве примера,

дерево решений может предсказать, будет ли день хорош для серфинга на море, основываясь на погодных условиях и приливах и отливах.

Случайный лес более точен, чем дерево решений, и менее подвержен переоснащению, а также менее чувствителен к выбросам, чем дерево решений.

Случайные леса также более сложны, медленнее обучаются, чем дерево решений, и менее поддаются интерпретации.

Случайные леса — это расширения деревьев решений, которые создают несколько деревьев решений и объединяют их прогнозы для повышения точности и надежности модели случайного леса.

О чем я расскажу здесь

Я создам 2 случайных леса с Джулией, используя MLJ и BetaML, которые представляют собой две библиотеки машинного обучения в Джулии.

Сначала я создам модель с 3 деревьями, а затем модель с 20 деревьями.

Я возьму некоторые показатели из этих моделей, чтобы мы могли посмотреть, как работают две разные модели!

Мы также создадим матрицу путаницы и нанесем ее на тепловую карту.

Я получил некоторые данные об автомобилях, которые можно найти здесь.

Давайте начнем

моя установка: Юля 1.9.2

Давайте загрузим несколько библиотек…

using  CSV ,DataFramesMeta , MLJ, UrlDownload , Plots;gr(dpi=960) 

Мы загрузили серверную часть GR, теперь можем получить некоторые данные и посмотреть…