Что такое ансамблевые модели?

На этапе обучения мы можем использовать определенный алгоритм и получить модель из имеющихся данных. Но это будет не самая оптимизированная модель, которую вы получите для конкретного набора данных, поскольку это всего лишь один алгоритм, и этот алгоритм будет слабым алгоритмом. Затем вам, возможно, придется попробовать разные алгоритмы, чтобы получить оптимизированную модель. Вместо этого вы можете попробовать объединить несколько возможных слабых алгоритмов вместе или несколько моделей одного и того же алгоритма для разных наборов данных и создать модель ансамбля. Пакетирование и повышение используют один алгоритм и создают несколько моделей с использованием разных образцов одного и того же набора данных, в то время как голосование использует несколько слабых алгоритмов для одного и того же набора данных для создания ансамблевых моделей.

Что такое RapidMiner?

RapidMiner — это инструмент интеллектуального анализа данных, который можно использовать для подготовки, моделирования, оценки и развертывания данных. Он обеспечивает гибкость создания ансамблевых моделей с помощью своих операторов. RapidMiner использует бэггинг, бустинг и голосование для создания ансамблевых моделей.

Как я могу создавать ансамблевые модели с пакетированием?

Бэггинг — ансамблевый мета-алгоритм, создающий n линеров из одного алгоритма. Набор данных случайным образом отбирается с заменой, создается n наборов данных в заданном соотношении и подается в n классификаторов. Поскольку замена выполнена, тот же элемент данных можно использовать в некоторых других наборах данных. Вероятность появления элемента данных в другом наборе данных одинакова для всех элементов. Для классификации рассматривается прогноз с большинством голосов от n классификаторов, а для регрессии рассматривается среднее значение прогнозов n классификаторов. Бэггинг в основном уменьшает дисперсию и переоснащение. Соответствующий процесс RapidMiner показан ниже.

Внутри оператора «Перекрестная проверка» мы используем оператор «Бэгинг» на этапе обучения следующим образом.

Внутри «Бэгинга» для обучения используется оператор «Дерево решений», который представлен ниже. Вы можете использовать любой другой классификатор.

Как я могу создавать ансамблевые модели с бустингом?

Boosting — ансамблевый метаалгоритм, последовательно создающий n линеров из одного алгоритма. Набор данных выбирается случайным образом с заменой и создается n наборов данных в заданном соотношении. Могут быть точки данных, которые неправильно классифицируются данным учащимся. Так что это ошибочно. При обучении следующего ученика учитывается ошибка предыдущего классификатора, и неправильно классифицированному элементу данных присваивается новый вес, что позволяет этому элементу данных чаще появляться в новых наборах данных. Повышение используется для уменьшения смещения. Соответствующий процесс RapidMiner создается как процесс Бэгинга.

Внутри оператора «Перекрестная проверка» мы используем оператор «AdaBoost» на этапе обучения следующим образом. Есть и другие алгоритмы повышения, такие как байесовское повышение в RapidMiner, которые вы можете попробовать.

Внутри «Бэгинга» для обучения используется оператор «Дерево решений», который представлен ниже. Вы можете использовать любой другой классификатор, как я упоминал ранее.

Как создать ансамблевые модели с голосованием?

В отличие от бэггинга и бустинга при голосовании, несколько алгоритмов могут быть объединены вместе для создания модели ансамбля, как я упоминал в начале поста. Для классификации большинство голосов всех классификаторов дается как прогноз, а для регрессии среднее значение всех классификаторов дается как прогноз, как в алгоритме мешков. Процесс RapidMiner аналогичен процессу, созданному для бэггинга.

Внутри оператора «Перекрестная проверка» мы используем оператор «Голосование» на этапе обучения следующим образом.

Внутри узла «Голосование» я использовал K-NN, дерево решений и наивные байесовские классификаторы.

Вместо использования одного слабого алгоритма вы можете попробовать ансамблевый алгоритм, который делает более точные прогнозы. Удачного обучения модели с ансамблевыми алгоритмами: D.

Дополнительная литература

[1] https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

[2] https://www.quora.com/What-is-bias-in-machine-learning-algorithms