Регрессионный анализ

Когда дело доходит до моделей линейной регрессии, регрессионный анализ - это наш способ сделать шаг назад и тщательно изучить работу, которую мы только что проделали. Как и художник-скульптор, именно в этот момент мы можем взглянуть на модель целиком, проанализировать ее на предмет дефектов и выбрать области, которые могут потребовать точной настройки.

Как специалист по анализу данных, многие инструменты или измерения, которые мы используем для выявления указанных недостатков, находятся в процессе регрессионного анализа. Я углублюсь в некоторые детали, относящиеся к двум из этих инструментов: информационному критерию Акаике и байесовскому информационному критерию, или AIC и BIC.

Чем они занимаются?

В 1970-х годах BIC был разработан математиком Гидеоном Э. Шварцем. Статистик Хиротугу Акаике позже разработал свою версию формулы AIC. Оба они являются оценкой ошибки прогнозирования вне выборки. Другими словами, они дают приблизительную оценку того, насколько модель может быть «неактуальной» в своем прогнозе, если применяется ко всей совокупности, которую наши обучающие данные стремятся представить.

Часто оба используются как взаимозаменяемые, так как вы можете ожидать получения аналогичных результатов. И AIC, и BIC - это способ найти баланс между хорошей совместимостью и чрезмерной сложностью модели. Если бы вы начали с нескольких параметров и добавили больше, ваша модель будет более точно соответствовать вашим выборочным данным, но при этом усложнится и возникнет риск переобучения. Если вы начнете со многих параметров и систематически исключите некоторые из них, ваша модель станет проще и, таким образом, избежит переобучения, но она также будет менее точно объяснять ваши данные и, возможно, будет рисковать недооценкой.

«Баланс - это не то, что вы находите, это то, что вы создаете» - Яна Кингсфорд

Чтобы найти этот баланс, критерии сравнивают набор статистических моделей друг с другом, и модель с наименьшим измерением AIC / BIC является моделью, которую следует выбрать, лучшей моделью будет та, которая не соответствует ни недостаточной, ни избыточной.

Под капотом

L = максимальная вероятность: параметр с наибольшей вероятностью правильного представления взаимосвязи между вводом и выводом.

p = количество параметров

n = количество значений в наборе данных

Максимальная вероятность - это вероятность того, что прогнозируемый параметр является точным представлением взаимосвязи между независимой и зависимой переменной. Например, какова вероятность того, что наш предсказанный градиент верен? Максимальное правдоподобие получается из сравнения всех возможных параметров с последующим выбором параметра, который имеет наибольшие шансы на правильность. В обеих формулах натуральный логарифм (ln) максимального правдоподобия используется в качестве меры точности модели при объяснении данных выборки.

И AIC / BIC влекут за собой расчет максимальной логарифмической вероятности и штрафного срока. При этом BIC немного отличается за счет большего штрафа за большее количество параметров.

Для обоих, по мере увеличения количества параметров, логарифмическая вероятность будет увеличиваться вместе с ним, но из-за штрафного члена это также будет служить для увеличения общего измерения. Если необходимо добавить больше параметров, вклад в соответствие модели должен компенсировать штраф, связанный с их добавлением. Так достигается баланс.

Прямой, обратный и пошаговый выбор

Пошаговый выбор - это то, как выполняется процесс, с постепенным добавлением и удалением переменных из модели, чтобы найти модель с наименьшей ошибкой прогноза. Во-первых, прямой отбор начинается с модели, в которой нет предикторов, а затем постепенно добавляются предикторы, пока улучшение не перестанет быть статистически значимым. Где обратный отбор начинается со всех предикторов и удаляет их до тех пор, пока единственные оставшиеся предикторы не станут статистически значимыми. Пошаговая регрессия включает в себя как прямой, так и обратный выбор.

Минусы и альтернативы

Предупреждение AIC заключается в том, что он плохо масштабируется с меньшими размерами выборки. Для противодействия этому обычно используется исправленный AIC (AICc). При этом AIC и BIC являются одним из многих методов, используемых для выбора модели с учетом ошибок вне выборки, таких как, например, перекрестная проверка Loo CV и K-fold, но это выходит за рамки этого блога.

Заключение

Таким образом, даже несмотря на то, что увеличение количества параметров в модели приведет к увеличению ее значения R², это не гарантирует получение лучшей модели и, по сути, может привести к неточностям в модели. Но в то же время, конечно, необходима модель, которая хорошо объясняет наши данные, поэтому включение большего количества переменных тоже не является плохой идеей. Что мы делаем? добавить дополнительные функции или удалить некоторые функции? Сказать к черту и оставить что-нибудь с p-значением меньше 0,05?

AIC и BIC предоставляют рекомендации в этом компромиссном решении.