1. Перекрестная проверка

Во время обучения алгоритма часть набора данных используется для проверки производительности модели (это отличается от набора данных для тестирования, который используется после завершения обучения). Этот процесс называется перекрестной проверкой.

Очень популярным типом перекрестной проверки является K-кратная перекрестная проверка, при которой в самих обучающих данных выполняется K-кратное тестирование. Здесь можно использовать среднюю точность K итераций для проверки производительности.

Другой популярный метод перекрестной проверки — перекрестная проверка с исключением одного. Процесс здесь такой же, как и перекрестная проверка K-кратности, с одним отличием. При перекрестной проверке без учета одного, если мы делаем K разбиений на полный набор данных, K-1 используется для обучения и перекрестной проверки, а 1 используется для тестирования. С другой стороны, при перекрестной проверке K-кратности разделение выполняется непосредственно в наборе обучающих данных.

Важность перекрестной проверки

  1. Это снижает вероятность переобучения.
  2. Это помогает точно подобрать оптимальные значения гиперпараметров.
  3. Это уменьшает систематическую ошибку при выборке набора данных.

Минусы перекрестной проверки

  1. Это может быть дорого в вычислительном отношении.

2. Выбор функции

Одним из способов борьбы с переоснащением может быть уменьшение сложности модели. Это возможно за счет уменьшения количества функций. Этот подход называется выбором признаков.

Простой способ выполнить выбор функций — использовать опыт предметной области. Помимо использования предметной экспертизы, которая включает в себя изучение каждой функции вручную, другие методы выбора функций включают:

  1. Метод фильтрации
  2. Метод оболочки
  3. Встроенный метод

2.1. Метод фильтрации

Этот метод использует определенные критерии для фильтрации важных функций. Наиболее распространенным подходом в этом является проверка мультиколлинеарности. Высококоррелированные функции не добавляют дополнительной информации и вместо этого могут нести ответственность за шум.

Один из подходов к удалению линейно коррелированных признаков заключается в использовании корреляционной матрицы и на основе порогового значения коэффициента корреляции, отбрасывании сильно коррелированных признаков.

Критериями, которые можно использовать для проверки как линейной, так и нелинейной корреляции, являются p — значения и VIF (Подробнее об этом можно прочитать здесь: https://medium.com/@suji.srivast/deciding-variables-in-multiple- линейная регрессия-7b1703d63ed1).

2.2. Метод оболочки

Это также известно как метод выбора подмножества. Существует 3 типа метода обертки:

  1. Метод прямого выбора — добавляйте наиболее релевантные функции одну за другой в модель и проверяйте повышение производительности.
  2. Метод обратного исключения — начните со всех функций и удаляйте наименее релевантную функцию одну за другой и проверяйте увеличение производительности.
  3. Пошаговый метод — в этом случае используется комбинация прямого отбора и обратного исключения. Одновременно добавляется самая важная функция и удаляется наименее важная.

2.3. Встроенный метод

В этом случае выбор признаков встроен в саму модель. Примером такой модели является случайный лес, в котором несколько деревьев решений создаются путем подмножества списка заданных функций.

3. Регуляризация

Регуляризация — это процесс, в котором вы наказываете модель за выбор неинформативных функций. Это помогает в создании оптимальной модели, сохраняя при этом сложность. Мы попытаемся понять регуляризацию, используя модель линейной регрессии.

3.1. Регуляризация модели линейной регрессии

Для модели линейной регрессии Y = a X + b + ε (здесь ε — случайная ошибка) регуляризация приведет к добавлению штрафа λ. Таким образом, уравнение станет:

Y = a X + b + ε + λ (штраф)

Значение λ выбирается с помощью подхода, аналогичного гиперпараметрической настройке (например, метод поиска по сетке, метод байесовского поиска и т. д.).

Наиболее распространенными методами регуляризации являются регуляризация Риджа и Лассо. Регуляризация Риджа наказывает большие коэффициенты, тогда как Лассо наказывает как большие коэффициенты, так и нет. коэффициентов.

3.1.1. Ридж-регрессия

Допустим, у нас есть линейная модель Y = bo Xo + b1 X1 + … + bn Xn . Мы можем упростить модель: а.) уменьшив степень признака Xi или б.) уменьшив коэффициент bi признака (когда коэффициент достигает 0, мы удаляем признак и упрощаем модель).

Остаточная сумма квадратов (RSS) для простой модели линейной регрессии задается как:

RSS = Σ(Y -bo -Σbj Xj)²

В случае гребневой регрессии добавляется дополнительный штрафной член λ* (Σbj)², поэтому член ошибки, который мы оптимизируем, теперь становится:

Ошибка = RSS + λ* (Σbj) ² , где λ — параметр регуляризации.

Таким образом, член ошибки наказывает здесь большие коэффициенты. Это, в свою очередь, помогает контролировать дисперсию модели по сравнению с простой линейной регрессией.

3.1.2. ЛАССО-регрессия

LASSO — это аббревиатура от слова «наименьшая абсолютная усадка в операторе выбора». Этот подход уменьшает коэффициенты, а также служит методом выбора признаков, поскольку коэффициенты могут приближаться к 0 (в системе Ridge коэффициенты регрессии не могут быть уменьшены до 0, когда мы берем частную производную члена ошибки).

Дополнительный штрафной член здесь задается как λ *( Σ |bj|). Таким образом, термин ошибки, который мы теперь оптимизируем, становится следующим:

Error = RSS + λ *( Σ |bj|) , где λ — параметр регуляризации.