Это мой шанс простыми словами изложить мое понимание тем машинного обучения. Я надеюсь создать серию блогов, которые подробно расскажут о методах ансамбля. Этот пост будет вводным в серию.

В этом посте мы рассмотрим:

1. основы ансамблевого метода

2. виды ансамблевых методов

3. введение в упаковку и бустинг

4. предвзятость и дисперсия

Я заметил несколько сообщений о методах ансамбля для методов классификации. Итак, давайте посмотрим на ансамблевые методы для регрессионных моделей в этом посте.

Что такое ансамблевый метод?

Вернемся к делу. Проще говоря, метод ансамбля - это сочетание результатов и достижение консенсуса на основе отдельных результатов. Это может происходить в последовательном или параллельном процессе.

Каждая базовая модель может быть создана с использованием разных разделов одного и того же набора обучающих данных и одного и того же алгоритма или с использованием одного и того же набора данных с разными алгоритмами. В грубом выражении ансамблевые методы означают комбинацию.

С точки зрения регрессии, самые основные типы ансамблевых методов:

Усреднение

Штабелирование

Бэггинг и форсирование

Мы будем обсуждать здесь бэггинг и бустинг.

Метод упаковки

Чтобы понять, что такое бэггинг, давайте рассмотрим сценарий.

Вы испекли торт и вам нужно знать, насколько он получился вкусным. Итак, вы вызываете группу из 4 друзей, чтобы они судили ваш торт.

Друг 1: У меня много глазури на своей доле, так что она мне очень понравилась. Я оценил это на 5/5

Друг 2: Мне не нравится столько сладкого в моем торте, поэтому я выберу 2,5 / 5

Друг 3: Не любитель тортов, поэтому 1/5

Друг 4: Никогда раньше не пробовал торт, поэтому, когда я впервые, скажу 3/5

Итак, вы возьмете среднее значение оценок и поймете, что ваша общая оценка составляет 3,5 / 5. Обратите внимание, что были разные кусочки торта, которые получали каждый человек, хотя это был один и тот же торт (Вариант). Друг 4, с другой стороны, никогда раньше не пробовал торт, и он впервые познакомился с чем-то новым. Итак, он оценил его на 3/5. Если бы он знал, какой вкус хороший торт, он бы оценил его, возможно, больше. Но поймите, что друг 2 и друг 3 внесли предвзятость еще до того, как попробовали торт. говорят, что торт плохой, даже если торт был хорош. Это предвзятость, которую они вносят.

С точки зрения машинного обучения

Каждый друг, о котором мы здесь говорили, рассматривается как отдельная модель. Разрозненные модели в методе упаковки используют подмножество данных для создания пакетов. Есть два способа сделать это. Оба метода представляют собой случайный выбор:

Бэггинг (выборка с заменой) - помогает, когда набор данных невелик. Точки данных могут повторяться в образце.

Вставка (выборка без замены) - используется для очень больших наборов данных, когда нет необходимости повторно использовать данные.

После того, как пакеты созданы (каждый человек получает долю от торта), алгоритм реализуется одновременно на 4 выбранных наборах данных. Для получения окончательного результата по отдельным моделям берется среднее значение.

Повышающий ансамбль

Чтобы понять бустинг, давайте рассмотрим этот пример.

Человек пытается прикинуть, сколько людей придет на его вечеринку, если она устраивает вечеринку по выходным. Итак, нам нужно спрогнозировать количество людей здесь. При этом она учитывает несколько факторов. Погода, день недели, сколько общих друзей будет, подробности о предыдущих вечеринках и месте проведения.

Поэтому сначала она предсказывает, что на вечеринку придут 8 человек, если это суббота, и 10, если это воскресенье. Но оказывается, что в субботу приехало всего 6 человек, а в воскресенье только 5, а ее не было по 2 и 5 человек.

Теперь она звонит своей подруге и просит ее лучше оценить воскресные вечеринки, и оба объединяют свои мысли и делают прогноз, что на следующую вечеринку придут 7 человек, если это суббота, и 8 человек - на воскресную. На следующую вечеринку оказалось, что на субботнюю и воскресную вечеринки пришли 8 и 9 человек соответственно. Они были только по 1 человеку в оба дня. Это предсказание лучше, поскольку второй друг учился на ошибках первого друга, внимательно изучал их и делал прогнозы.

С точки зрения машинного обучения:

Повышение обеспечивает последовательное обучение предикторов. Для метода повышения, который имеет 10 итераций, выполняется первое дерево, строки с высоким процентом ошибок отправляются в дерево 2, чтобы лучше понять этот набор данных. Результаты Дерева 1 и Дерева 2 теперь оцениваются вместе. Строки с высоким уровнем ошибок из этого объединенного результата снова передаются в дерево 3, и этот процесс продолжается.

Смещение и отклонение

Как бы вы справились с предвзятостью?

Возьмите на судейство больше участников. Итак, результаты зависят не только от 4 человек. В терминах машинного обучения это означает добавление большего количества моделей прогнозирования. Предположим, мы звоним большому количеству людей, скажем 40, что привлечет разнообразную группу людей, и мы думаем, что эта разнообразная группа будет принимать более правильные решения, чем всего 4 человека.

Но разве это не внесет много изменений? Как мы с этим справились?

Это приводит нас к ловушке 22, когда мы должны анализировать наши данные и выбирать правильный баланс между выбором правильного количества моделей и правильных данных для каждой модели.

В общем, метод суммирования помогает уменьшить дисперсию, поскольку он усредняет результаты нескольких моделей в результате, а повышение помогает уменьшить систематическую ошибку, поскольку он больше узнает о высоких значениях ошибок и пытается лучше предсказать их.

У вас должна получиться модель с низким смещением и низкой дисперсией, которая в идеале является пересечением двух кривых. но это компромисс, который нам придется искать для каждого проекта.

Я надеюсь, что мы поняли концепции упаковки и повышения в общей перспективе. В моем следующем блоге мы рассмотрим реализацию моделей мешков.