В главе 3 мы говорили о линейной регрессии: как мы можем предположить, что данные соответствуют линейной модели, и прогнозировать, используя эту линейную модель. Линейная модель не работает, когда есть много функций. Хорошей практикой является сбор как можно большего количества точек данных, но недостатком может быть то, что некоторые данные не будут иметь отношения к цели, и это замедлит обучение и может даже ухудшить точность модели. так что нам делать? В этой главе рассказывается о методах улучшения линейной модели, чтобы она могла уделять больше внимания наиболее важным функциям. Эти методы включают выбор подмножества, усадку и уменьшение размеров. (Уменьшение размеров - это большая тема, поэтому она будет обсуждаться в другом блоге.)

Выбор подмножества

Существует два основных выбора подмножества: выбор лучшего подмножества (bss) и пошаговый выбор. Выбор наилучшего подмножества соответствует модели регрессии наименьших квадратов для каждой комбинации предикторов. Если существует p предикторов, то BSS будет моделировать каждую комбинацию модели с одним предиктором, модели с двумя предикторами,… до моделей p-предикторов. После этого выбирается модель с лучшими результатами.

Пошаговый выбор определяет лучшую модель путем добавления или вычитания предикторов на каждом шаге. Две общие пошаговые функции - это пошаговая перемотка вперед и назад по шагу. Прямые пошаговые функции начинаются с одного предиктора, и на каждом шаге он добавляет еще один предиктор и проверяет, является ли это лучшей моделью. Обратный пошаговый запуск начинается со всеми предикторами и удаляет предиктор на каждом шаге. Пошаговые методы более эффективны с точки зрения вычислений, чем выбор лучшего подмножества, поскольку bss моделирует все возможные комбинации предикторов.

Чтобы выбрать лучшую модель, мы не можем использовать R² или RSS, потому что эти показатели являются суммами. Это означает, что чем больше функций будет добавлено, тем лучше будут показатели, независимо от того, насколько важны функции для цели. Мы хотим, чтобы модель учитывала количество используемых функций и смотрела, улучшается ли модель. Вместо этого некоторые показатели, используемые для определения лучшей модели, - это Cp, AIC, BIC или скорректированный R².

Методы усадки

Альтернативой использованию выбора подмножества является использование методов усадки. В методах сжатия используются все доступные предикторы, но на них накладывается ограничение, то есть регуляризует их. Двумя основными методами усадки являются регрессия по гребням и лассо.

Хребтовая регрессия

Ридж-регрессия добавляет дополнительный член к остаточной сумме квадратов (RSS). В главе 3 мы узнали, что метод наименьших квадратов минимизирует функцию RSS.

Дополнительный член в регрессии гребня называется штрафом за усадку, и его уравнение является последним членом на рисунке выше. «B» - это коэффициенты, и они возводятся в квадрат. Это называется нормой L2. Лямбда - это параметр настройки, параметр, который мы настраиваем, чтобы повлиять на то, насколько мы должны уменьшить параметры. Если лямбда равна нулю, то параметр усадки отсутствует, и уравнение возвращается к обычному RSS. Когда лямбда приближается к бесконечности, мы устанавливаем веса на коэффициенты, которые уменьшают их до нуля. Чтобы выбрать лучшую лямбду, мы можем поэкспериментировать с разными значениями и определить лучшее с помощью перекрестной проверки.

Мы будем использовать гребень, когда метод наименьших квадратов имеет проблему с обобщением невидимых данных или обычно ссылается на высокую дисперсию. Регрессия гребня штрафует эффекты на определенные коэффициенты, делая модель более гибкой. И, как обычно, обобщение модели происходит за счет увеличения смещения (насколько неточны наши прогнозы).

Лассо-регрессия

Регрессия лассо, как и гребень, добавляет к RSS штраф за усадку.

Разница здесь в том, что вместо возведения коэффициентов в квадрат, лассо берет их абсолютное значение. Этот штраф за усадку называется нормой L1. Так же, как и гребень, лямбда является параметром настройки и имеет тот же эффект: если лямбда равна 0, то штраф за усадку не применяется, а по мере того, как лямбда стремится к бесконечности, коэффициенты будут штрафоваться больше. Разница здесь в том, что лассо заставляет некоторые коэффициенты равняться нулю. Это означает, что некоторые предикторы или переменные не будут использоваться в модели. Лассо можно рассматривать как метод выбора переменных, при котором выбирается только несколько переменных, которые будут использоваться.

Как и ридж, лассо можно использовать для уменьшения дисперсии за счет увеличения смещения. Однако лассо может пригодиться, когда в данных много предикторов. Ridge включает в себя все переменные, но лассо просматривает их все и выбирает только несколько.

Соавторы: Майкл Меллингер Github