Ансамбли — это методы, с помощью которых мы можем комбинировать несколько слабых моделей для повышения производительности при выполнении поставленной задачи за счет уменьшения дисперсии (бэггинга), смещения ( повышение) или улучшение прогнозов (суммирование). Random Forests, Adaboost — примеры ансамблей.

Слабые модели называются базовыми обучаемыми и могут генерироваться последовательно или параллельно в зависимости от используемых методов. Методы бустинга генерируют базовых обучаемых последовательно, в то время как базовые обучающиеся для методов упаковки и укладки могут генерироваться параллельно. Базовые учащиеся могут использовать один и тот же алгоритм обучения для однородности или разные алгоритмы обучения. Чем точнее и разнообразнее базовые ученики, тем более точным может быть ансамбль, чем базовые ученики.

Бэгинг

Пакетирование или агрегация Bootstrap — один из методов ансамбля. Построение ансамблевого метода на основе мешков включает следующие два шага:

  1. Обучение N базовых учащихся на подмножествах данных.
  2. Вычисление выходных данных ансамбля.

Базовые учащиеся могут обучаться независимо друг от друга, а модели могут быть разными. Затем выходные данные ансамбля могут быть вычислены на основе голосования или вычисления среднего значения по результатам N базовых учащихся.

Повышение

В отличие от мешков, бустинг включает последовательное создание однородной базы учеников следующим образом:

  1. Обучите базовую модель на подмножестве данных.
  2. Вычислите прогноз по всем данным и создайте новый набор данных, придающий больший вес ошибочно классифицированным данным.
  3. Повторите шаги 1 и 2 для N учащихся.
  4. Вычислите выходные данные ансамбля как взвешенную сумму по базовым учащимся

AdaBoost, Gradient Boost и XGBoost являются примерами алгоритмов повышения. Самым последним алгоритмом является XGBoost, он пользуется популярностью у специалистов по данным и выигрывает множество испытаний в Kaggle.

Укладка

Другая модель ансамбля — это наложение, и она объединяет базовых учащихся с помощью метаклассификатора или регрессора. Создание ансамбля включает в себя следующие шаги:

  1. Обучите базовые модели N по подмножеству данных
  2. Создайте новый набор данных с выходными данными базовых учащихся в качестве функции
  3. Обучите другую модель с набором данных из шага 2.

Выход ансамбля — это результат работы модели, обученной на шаге 3.