Эта статья дает представление и высокоуровневую реализацию бустинга с точки зрения непрофессионала, что даст толчок к чтению/просмотру более сформулированной теории о бустинге и градиентном бустинге.

Что такое бустинг

Повышение можно рассматривать как методологию или структуру, в которой мы можем использовать «n» нет моделей, которые не имеют такой ожидаемой производительности (называемые слабыми учениками. Например, дерево решений 1 глубины) и объединять их для создания первоклассной модели. . Сколько моделей можно комбинировать? Что ж, это можно решить с помощью перекрестной проверки.

Почему деревья решений

Эти слабые модели могут быть любыми, они могут быть линейной регрессией, логистикой, нейронными сетями, деревьями решений и т. д. Повышение 99,99% объясняется деревьями решений, потому что будет легко понять, как это работает.

Как комбинируются модели

Как мы обсуждали ранее, идея бустинга заключается в объединении множества моделей. Первая модель будет слабой моделью, которая просто дает среднее значение. например скажем, мы прогнозируем возраст человека, тогда первая модель всегда дает прогнозный ответ как средний возраст в данном наборе данных, если мы передаем какую-либо точку данных. Такая модель называется Weak Learner.

Теперь вторая модель будет создана таким образом, что функции будут такими же, как у первой модели, но метки — это ошибки, сделанные первой моделью.

Третья модель будет создана таким образом, что функции будут такими же, как у первой модели, но метки будут ошибками, сделанными второй моделью.

И так далее и так далее, пока мы не получим минимальные ошибки и суммируем все модели, чтобы получить окончательную модель.

Вопрос в том, зачем нам нужно создавать модель, основанную на ошибке.

Почему модель создается с ошибками (остатками) в качестве меток.

Идея здесь в том, что когда у нас есть прогнозируемое значение, а также количество ошибок, мы можем суммировать оба значения, чтобы получить ожидаемое значение.

Это будет очень ясно, когда мы будем тестировать алгоритм шаг за шагом, используя простой набор данных.

Чтобы проиллюстрировать, рассмотрим, что у нас есть точка данных, как показано ниже.

Таким образом, первая модель предоставит среднее значение всех весов (28+30+32+18)/4 = 27.

Ошибки, сделанные Первой Моделью, т.е. Возраст минус МОДЕЛЬ 1

Теперь мы создаем другую модель — скажем, модель 2, обучая точки данных поверх «ОШИБКА, СДЕЛАННАЯ МОДЕЛЕЙ 1», и допустим, мы получаем прогнозы, как показано ниже, из модели 2.

Рассчитайте ошибку, сделанную моделью 2.

Теперь мы создаем другую модель — скажем, модель 3, обучая точки данных поверх «ОШИБКА, СДЕЛАННАЯ МОДЕЛЕЙ 2», и допустим, мы получаем прогнозы, как показано ниже, из модели 3.

Рассчитайте ошибку, сделанную моделью 3.

Давайте начнем здесь, поэтому на данный момент мы создали 3 модели, следовательно, нет. моделей — это гиперпараметр, который мы можем настроить.

Теперь давайте поэкспериментируем с теорией бустинга, которая гласит: FINALMODEL = MODEL1+MODEL2+MODEL3.

Для первой точки данных давайте возьмем MODEL1+MODEL2+MODEL3, чтобы увидеть, насколько хорошо модель работает по отношению к фактическим. PREDICTION=27+0,8+0,19 = 27,99, что очень близко к фактическому значению 28. Давайте проверим и другие точки данных.

Если мы наблюдаем фактические данные вместе с прогнозом, мы можем понять силу бустинга.

Итак, обобщая, задача бустинга состоит в том, чтобы определить (предсказать) количество того, насколько далеко или близко к целевой метке, и добавить / вычесть их во время прогнозирования.

Какова наша цель?

Теперь, когда мы понимаем, как работает бустинг, цель бустинга состоит в том, чтобы обучить модель 2 и модель 3 таким образом, чтобы она предсказывала, насколько далеко/близко от среднего значения. Чем больше производительность Модели 2 и Модели 3, тем выше точность предсказания.

Заключение

Одна из структур повышения — повышение градиента — широко используется в соревнованиях Kaggle из-за его высокой способности прогнозирования. Существуют и другие варианты, такие как предоставление веса для отдельных моделей в зависимости от того, насколько хорошо они работают, чтобы улучшить вышеуказанную настройку намного лучше.