Введение

По определению:

Экономная модель - это модель, которая достигает желаемого уровня объяснения или предсказания с помощью как можно меньшего числа переменных-предикторов.

Степень соответствия статистической модели описывает, насколько хорошо она соответствует набору наблюдений.

Меры согласия обычно суммируют несоответствие между наблюдаемыми значениями и значениями, ожидаемыми в рамках рассматриваемой модели.

Идея экономных моделей проистекает из бритвы Оккама или «закона краткости» (иногда называемого на латыни lex parsimoniae). Закон гласит, что вы не должны использовать больше «вещей», чем необходимо; В случае экономных моделей эти «вещи» являются параметрами. Экономные модели имеют оптимальную экономию или только правильное количество предикторов, необходимых для хорошего объяснения модели.

Обычно существует два способа оценки модели: на основе прогнозов и на основе согласия текущих данных. В первом случае мы хотим знать, адекватно ли наша модель предсказывает новые данные, во втором мы хотим знать, адекватно ли наша модель описывает отношения в наших текущих данных. Это разные вещи.

Сравнение моделей

Обычно существует компромисс между добротностью подгонки и экономичностью: модели с низкой экономичностью (то есть модели со многими параметрами), как правило, лучше подходят, чем модели с высокой экономичностью. Обычно это не очень хорошо, поскольку добавление дополнительных параметров обычно приводит к хорошей модели, подходящей для имеющихся данных, но та же самая модель, вероятно, будет бесполезна для прогнозирования других наборов данных. Найти правильный баланс между бережливостью и хорошей посадкой может быть непросто.

Подходы к выбору модели

Выбор модели может осуществляться тремя способами:

Оценка на основе прогнозов.

Лучший способ оценить модели, используемые для прогнозирования, - это перекрестная проверка. Вкратце, мы разрезаем наш набор данных, скажем, на 10 разных частей, используем 9 из них для построения модели и прогнозирования результатов для 10-го набора данных. Простая среднеквадратическая разница между наблюдаемыми и прогнозируемыми значениями дает нам меру точности прогнозов. Повторяя это 10 раз, мы вычисляем среднеквадратичную разницу за все 10 итераций, чтобы получить общее значение со стандартным отклонением. Это позволяет нам снова сравнить две модели на предмет их точности прогноза с использованием стандартных статистических методов (t-критерий или ANOVA).

Оценка на основе степени соответствия:

Этот подход различается в зависимости от модели, которую мы используем. Например, тест отношения правдоподобия может работать для обобщенных аддитивных смешанных моделей при использовании классического гауссовского критерия для ошибок, но не имеет смысла в случае биномиального варианта.

У нас есть более интуитивные методы сравнения моделей, такие как информационный критерий Акаике (AIC) или байесовский информационный критерий (BIC) для сравнения степени соответствия двух моделей. Также популярны другие методы, такие как критерий Cp Маллоу, байесовские факторы, минимальная длина описания (MDL) и т. Д.

Давайте рассмотрим некоторые из этих методов:

Информационный критерий Акаике:

Информационный критерий Акаике (AIC) сравнивает качество набора статистических моделей друг с другом. Если у нас есть несколько моделей для сравнения, AIC возьмет каждую модель и ранжирует модели от лучших к худшим. Лучшей моделью будет та, которая не подходит ни слишком, ни слишком хорошо. Основная формула AIC:

Где:

  • K - количество параметров модели (количество переменных в модели плюс точка пересечения).
  • Логарифмическое правдоподобие - это мера соответствия модели. Чем выше число, тем лучше подходит. Обычно это получается из статистических данных.

Для малых размеров выборки (n / K ‹≈ 40) используйте AIC второго порядка:

Где:

  • n = размер выборки,
  • K = количество параметров модели,
  • Логарифмическое правдоподобие - это мера соответствия модели.

Байесовский информационный критерий:

BIC почти такой же, как AIC, хотя, как правило, предпочитает модели с меньшим количеством параметров. BIC также известен как информационный критерий Шварца или BIC Шварца. Основная формула BIC:

Здесь n - размер выборки; количество наблюдений или количество точек данных, с которыми вы работаете. k - это количество параметров, которые оценивает ваша модель, а θ - это набор всех параметров. L (θ̂) представляет собой вероятность протестированной модели с учетом ваших данных при оценке при максимальных значениях правдоподобия θ. Вы могли бы назвать это вероятностью модели, учитывая, что все соответствует их наиболее благоприятному положению.

Учитывая любые две оценочные модели, предпочтительнее будет модель с меньшим значением BIC. Необъяснимое изменение зависимой переменной и количества независимых переменных увеличивает значение BIC. Следовательно, более низкий BIC подразумевает либо меньшее количество независимых переменных, либо лучшее соответствие, либо и то, и другое. BIC обычно наказывает свободные параметры сильнее, чем информационный критерий Акаике, хотя он зависит от размера n и относительной величины n и k. Важно помнить, что BIC можно использовать для сравнения оценочных моделей только в том случае, если числовые значения зависимой переменной идентичны для всех сравниваемых оценок. Сравниваемые модели не обязательно должны быть вложенными, в отличие от случая, когда модели сравниваются с использованием F-теста или критерия отношения правдоподобия.

Критерий Cₚ Маллоу:

Критерий Cₚ Маллоуса - это способ оценки соответствия модели множественной регрессии. Затем метод сравнивает полную модель с меньшей моделью с параметрами «p» и определяет, какая ошибка остается необъясненной частичной моделью. Или, более конкретно, он оценивает стандартизованный общий средний квадрат оценки для частичной модели по формуле:

Где:

  • SS (Res) ₚ = остаточная сумма квадратов из модели с набором p-1 объясняющих переменных плюс точка пересечения (константа),
  • s² = оценка σ²

Чем меньше значения Cₚ, тем лучше, поскольку это указывает на меньшее количество необъяснимой ошибки. Модели с малым Cₚ и Cₚ, близким к p. В качестве альтернативы мы можем выбрать наименьшую модель, для которой верно Cₚ ≤ p.

Байесовские факторы:

Байесовский подход к выбору модели прост. Априорные распределения вероятностей используются для описания неопределенности, окружающей все неизвестные. После наблюдения за данными апостериорное распределение обеспечивает согласованную сводку данных по оставшейся неопределенности, которая актуальна для выбора модели. Однако практическая реализация этого подхода часто требует тщательно подобранных априорных значений и новых методов апостериорных вычислений. Согласно теореме Байеса апостериорная вероятность любой модели может быть записана как:

Здесь P (M | D) - апостериорная вероятность модели M с учетом данных D, P (D | M) - свидетельство для модели M, P (M) - предварительные знания о модели M, а P ( D) - нормировочный коэффициент. Когда у нас есть две конкурирующие модели, мы можем сравнить их апостериорную вероятность следующим образом:

С помощью этого уравнения мы можем сравнить две модели и взять ту с более крупными модельными доказательствами (когда у нас есть неинформативные априорные данные). Он похож на тест отношения правдоподобия, но модели не обязательно должны быть вложенными. Выбор модели на основе байесовских факторов может быть примерно равен выбору модели BIC. Однако BIC не требует знания априорной важности, поэтому часто предпочтительнее.

Автоматический выбор модели:

Когда мы заинтересованы в прогнозировании, у нас действительно есть две цели для нашей регрессионной модели: 1) Точность - чем больше R², тем точнее будут наши значения y 'и 2) Эффективность - нам не нужны ненужные (и, возможно, дорогие) ) предикторы в модели. Для достижения этих двух (в некоторой степени противоречащих друг другу) целей нам необходимо определить набор предикторов с двумя атрибутами - все предикторы связаны с критериальной переменной, а предикторы не сильно связаны друг с другом (так называемая «уменьшенная коллинеарность»).

На протяжении многих лет существует три часто используемых процедуры для выбора регрессионной модели с этими характеристиками из более широкого набора предикторов.

  • Прямое включение: начните с того предиктора, который имеет наивысшую простую корреляцию, и на каждом последующем шаге добавляйте ту переменную, которая приведет к наибольшему увеличению R² (с наибольшей частичной корреляцией), останавливаясь, когда добавляется дополнительная предиктор существенно не увеличит R².
  • Обратное удаление: начните с полной модели, на последовательных шагах удалите предиктор, который вносит наименьший вклад в модель (с наименьшим / наибольшим значением p веса регрессии), останавливаясь при удалении следующего переменная приведет к значительному падению R² (когда все переменные в модели вносят свой вклад).
  • Пошаговый выбор вперед. Думайте об этом как о комбинации прямого и обратного. Начните с того предиктора, имеющего наивысшую простую корреляцию. На втором этапе добавьте переменную, которая больше всего увеличит R² (переменную с наибольшим частичным значением, но только в том случае, если увеличение R² будет значительным). Каждый последующий шаг состоит из двух частей: если какой-либо предиктор в модели не способствует, отбросьте его (если больше одного, отбросьте тот, который вносит наименьший вклад, тот, у которого наибольшее p-значение), 2) если все переменные в модели вносят свой вклад, затем добавьте ту переменную, которая приведет к наибольшему увеличению R² (с наибольшей частичной корреляцией, но только в том случае, если изменение R² будет значительным). Остановитесь, когда все переменные в модели вносят свой вклад, и когда нет дополнительного предиктора, который значительно увеличит R².

Лично я не сторонник использования этих методов, поскольку у них много недостатков:

  • Они дают значения R-квадрата, которые сильно смещены в сторону завышения.
  • Критерии F и хи-квадрат, указанные рядом с каждой переменной в распечатке, не соответствуют заявленному распределению.
  • Эти методы позволяют получить ложно узкие доверительные интервалы для эффектов и прогнозируемых значений.
  • У них есть серьезные проблемы при наличии коллинеарности.
  • Это дает смещенные коэффициенты регрессии, которые необходимо уменьшить (коэффициенты для оставшихся переменных слишком велики (Tibshirani, 1996).
  • Во многих случаях, когда мы начинаем с другой начальной точки, пошаговый выбор может вернуть совершенно другую модель. Эти методы далеко не стабильны.

Давайте рассмотрим пример, чтобы понять, почему автоматический выбор модели может быть не лучшим выбором.

Представьте себе школьного тренера по легкой атлетике в первый день пробы. Приходит тридцать детей. У этих детей есть некий базовый уровень внутренних способностей, к которым ни тренер, ни кто-либо другой не имеют прямого доступа. В результате тренер делает единственное, что может, - заставляет всех пробежать 100 метровый рывок. Время, по-видимому, является мерой их внутренней способности и принимается как таковая. Однако они вероятностные; некоторая доля того, насколько хорошо кто-то делает, зависит от их реальных способностей, а некоторая доля случайна. Представьте себе, что истинная ситуация такова:

Результаты первого забега показаны на следующем рисунке вместе с комментариями тренера детям.

Обратите внимание, что разделение детей по времени забега накладывает отпечаток на их врожденные способности - этот факт имеет решающее значение. После похвалы одних и криков на других (как обычно делают тренеры) он снова заставляет их бежать. Вот результаты второй гонки с реакциями тренера (смоделированные из той же модели выше):

Обратите внимание, что их внутренние способности идентичны, но время меняется относительно первой расы. С точки зрения тренера, те, на кого он кричал, имели тенденцию улучшаться, а те, кого он хвалил, - хуже, хотя на самом деле возвращение к среднему значению является простым математическим следствием того факта, что тренер выбирает спортсменов для команды на основе измерение, которое частично является случайным.

Какое отношение это имеет к автоматическим (например, пошаговым) методам выбора модели?

Разработка и подтверждение модели, основанной на одном и том же наборе данных, иногда называется углублением данных. Хотя между переменными существует определенная взаимосвязь, и ожидается, что более сильные взаимосвязи дадут более сильные оценки (например, более высокая t-статистика), это случайные переменные, и реализованные значения содержат ошибку. Таким образом, когда мы выбираем переменные на основе более высоких (или более низких) реализованных значений, они могут быть таковыми из-за их истинного значения, ошибки или того и другого. Если мы продолжим таким образом, мы будем так же удивлены, как тренер был после второй гонки. Это верно независимо от того, выбираем ли мы переменные на основе высокой t-статистики или низкой взаимной корреляции.

Вывод

Несмотря на то, что в области автоматического выбора модели произошло много разработок, на примерах Libra и Pycaret, существует множество статистических и интуитивно понятных методов для выбора лучшей модели.

Давайте изучим!

Ссылка: statisticshowto.com