Как проверить свои предположения и почему всегда следует это делать

Авторы: Рейли Мейнерт, Адит Патель и Саймон Ли

Проверка предположений модели важна перед построением модели, которая будет использоваться для прогнозирования. Если предположения не выполняются, модель может неточно отражать данные и, вероятно, приведет к неточным прогнозам. Каждая модель имеет разные допущения, которые должны быть выполнены, поэтому проверка допущений важна как при выборе модели, так и при проверке того, является ли она подходящей для использования.

Диагностика

Диагностика используется для оценки допущений модели и выяснения того, есть ли наблюдения, оказывающие большое чрезмерное влияние на анализ. Их можно использовать для оптимизации модели, убедившись, что используемая вами модель действительно подходит для данных, которые вы анализируете. Есть много способов оценить достоверность модели с помощью диагностики. Диагностика - это всеобъемлющее название, которое охватывает другие темы в рамках предположений модели. Это может включать изучение основных статистических допущений модели, изучение структуры модели путем рассмотрения большего, меньшего или различных объясняющих переменных или поиск данных, которые плохо представлены моделью, например, выбросы, или которые оказывают большое несбалансированное влияние на прогноз регрессионной модели.

Диагностика может принимать разные формы. Вы можете проверить числовую диагностику. Пакет statsmodels предоставляет сводку многих диагностических данных с помощью функции summary:

С помощью этого обзора мы можем увидеть важные значения, такие как R2, F-статистика и многие другие. Вы также можете проанализировать модель с помощью графической диагностики, такой как построение остатков в сравнении с подобранными / прогнозируемыми значениями.

Выше приведен график зависимости от остатка для нашего набора данных о весе и росте с использованием роста в качестве предиктора. По большей части этот сюжет случайный. Однако по мере увеличения подобранных значений увеличивается и диапазон остатков. Это означает, что по мере увеличения ИМТ разница между нашей моделью и фактическими данными увеличивается. Это также имеет тенденцию быть более отрицательным остатком при более высоких ИМТ. Это не означает, что линейная модель неверна, но это то, что нужно исследовать и, возможно, что-то, что поможет изменить или улучшить модель.

Еще один остаточный график, который вы можете сделать, - это график положения масштаба. Этот график показывает, равномерно ли распределены наши остатки по диапазону нашего предиктора. Если все случайные величины имеют одинаковую конечную дисперсию, они считаются гомоскедастическими. График со случайным распределением точек указывает на то, что модель подходит. Вы наносите на график нормализованные остатки с квадратным корнем по сравнению с подобранными значениями.

На этом графике нам нужно случайное распределение с горизонтальными полосами. Это будет означать, что данные гомоскедастичны, а рандомизация в отношениях между независимыми переменными и зависимой переменной относительно одинакова для независимых переменных. Наша линия вначале в основном состоит из горизонтальных полос, но ближе к концу кажется, что она идет вверх, а это означает, что не везде может быть одинаковая дисперсия. Это может быть результатом того, что мы не устранили проблему, обнаруженную нами выше на графике с остаточной точностью, и еще один индикатор, который, возможно, необходимо изменить в нашей модели.

При построении регрессионной модели вы хотите убедиться, что ваши остатки относительно случайны. Если это не так, это может означать, что выбранная вами регрессия была неправильной. Например, если вы решили использовать линейную регрессию, а график остатков явно не случайный, это будет означать, что данные не являются линейными.

Диагностика также применима ко многим другим темам, которые мы рассматриваем, таким как мультиколлинеарность, распределение наборов данных и выбросы, которые будут обсуждаться в оставшейся части этого сообщения.

Мультиколлинеарность

В статистике мультиколлинеарность возникает, когда функции набора данных или переменные X не независимы друг от друга. Например, рост, вес и рост2 не являются независимыми, так как расчет для height2 зависит от роста и наоборот. Мультиколлинеарность также означает, что в наборе данных есть избыточные объекты.

Мультиколлинеарность - главная проблема регрессионного анализа. Это связано с тем, что ключевая цель регрессионной модели - предсказать, как изменяется независимая переменная Y при изменении одной из переменных X (при сохранении всех остальных переменных X постоянными). Предположим, если две переменные X1 и X2 сильно коррелированы друг с другом (например, X2 = X1 + 1). Невозможно изменить X1 без изменения X2, и наоборот.

В этом случае модели было бы сложно предсказать взаимосвязь между переменной Y и каждой переменной X (при сохранении всех других переменных X постоянными), потому что переменные X изменяются вместе. В результате модель не будет правильно рассчитывать коэффициенты (оценки) и, следовательно, не будет достаточно мощной, чтобы определить, какие переменные X в наборе данных имеют наибольшее статистическое влияние на переменную Y.

К счастью, мультиколлинеарность не всегда нужно исправлять. Например, предположим, что у вас есть 3 переменных X (X1, X2, X3). Если X1 сильно коррелирует с X2, но вы используете только X2 и X3 для построения своей модели, тогда модель сможет без проблем интерпретировать влияние X2 и X3 на Y. Кроме того, если ваша единственная цель - предсказать Y, и вам не нужно понимать влияние каждой переменной X на Y, то в уменьшении мультиколлинеарности нет необходимости.

В случае, если проблема мультиколлинеарности должна быть решена, лучший подход к использованию - это выбор признаков. Фактически, выбор признаков касается не только мультиколлинеарности! Это также увеличивает вычислительную эффективность обучения модели (время, необходимое для обучения модели, увеличивается экспоненциально с увеличением количества функций). Кроме того, это снижает риск переобучения (избыточные функции означают, что модель с большей вероятностью будет соответствовать шуму, а не фактическим шаблонам в данных).

Существуют различные методы выбора функций, но все они основаны на одном и том же фундаментальном принципе. В конечном итоге цель состоит в том, чтобы исключить функции, которые практически не влияют на переменную Y, и сохранить наиболее важные из них. Например, одно свойство, которое можно использовать, - это «взаимная информация», которая представляет собой число от 0 до 1, указывающее, сколько общего у двух функций. Если X1 и X2 являются независимыми переменными, это означает, что ни одна из переменных не может использоваться для получения информации о другой переменной, и, таким образом, их взаимная информация равна 0. Если одна переменная является функцией переменной-аналога, это означает, что существует явная математическое отображение между двумя переменными (если значение одной переменной известно, значение другой может быть вычислено), и, таким образом, их взаимная информация равна 1. Если одна переменная является функцией как переменной-аналога, так и других переменных, их взаимная информация находится между 0 и 1.

Распространение наборов данных

Распределение набора данных показывает различные возможные значения характеристики популяции, а также частоту возникновения каждого результата. Нормальные распределения, вероятно, являются наиболее известными и часто встречаются в реальном мире. В полилинейной регрессии предполагается, что мы имеем многомерную нормальность. Проще говоря, каждая из переменных должна иметь нормальное распределение. Мы можем проверить это визуально, нанеся переменные на гистограмму.

Хотя рост и вес не имеют идеального нормального распределения, поскольку у нас достаточно большой размер выборки с общим количеством наблюдений 10 000, мы можем с уверенностью предположить, что Центральная предельная теорема верна. Если мы не уверены, достаточно ли распределены эти данные, мы можем проверить это с помощью графика Q-Q.

График Q – Q (квантиль-квантиль) - еще один диагностический инструмент, позволяющий определить, является ли распределение нормально распределенным. Он строит квантили из данных вдоль теоретических квантилей вместе с линией y = x. Если точки совпадают по этой линии, то распределения относительно похожи. На графиках ниже, поскольку большинство точек для различных независимых переменных очень близко расположены к линии и, следовательно, являются «идеальными» нормальными условиями, мы можем предположить, что наши данные распределены нормально. Однако, поскольку на нижних концах некоторые точки находятся под линией, а на верхнем конце некоторые точки находятся над линией, мы знаем, что у наших данных могут быть тяжелые хвосты, и затем корректируем нашу модель для этого.

Образцы размеров

До информационного взрыва статистики собирали данные вручную, что требовало драгоценного времени и ресурсов. Минимальный размер выборки необходимо будет определить заранее, чтобы гарантировать, что было собрано достаточно данных для проведения эффективного и точного анализа. Сегодня часто бывает наоборот. У нас есть доступ к наборам данных от нескольких тысяч до нескольких миллионов наблюдений. На первый взгляд, возможность провести анализ с более чем миллионом наблюдений кажется отличной. Однако при анализе и моделировании данных использование большого количества данных часто нецелесообразно.

Есть несколько причин взять образец из набора данных. Слишком большие образцы могут привести к переобучению нашей модели. Наличие слишком большого количества выборок может привести к тому, что переменные, которые на самом деле несущественны, будут иметь статистическую значимость в анализе. Однако взятие слишком маленькой выборки из нашего набора данных также может вызвать проблемы. Анализ, проведенный на слишком маленькой выборке, не будет иметь статистической мощности, что очень важно для возможности делать точные прогнозы на основе модели. Нам не нужна слишком большая или слишком маленькая выборка, так как же нам определить подходящий размер выборки?

Часто считается, что размер выборки в 30 человек достаточно велик. Однако, когда мы берем случайную выборку из 30 из нашего набора данных, это результат:

Легко видеть, что эта выборка не имеет нормального распределения, что нарушает предположение о многомерной нормальности. Следовательно, нам нужно выбрать больший размер выборки. При построении модели очень легко изменить размер случайной выборки, которую вы выбираете, и визуально проверить, что это достаточно большая выборка, чтобы соответствовать предположению о многомерной нормальности.

Выбросы

Нет никаких конкретных предположений относительно выбросов при создании модели, но важно отметить, что выбросы могут сильно повлиять на вашу модель и изменить ее эффективность. Простой способ визуально проверить выбросы - использовать коробчатую диаграмму, как показано здесь:

Поскольку мы можем визуально видеть, что есть выбросы, мы должны проверить, насколько они влияют на модель. Пакет statsmodel.api вычисляет такие диагностические данные, как кредитное плечо и расстояние Кука для каждой точки, что очень полезно. Кредитное плечо - это мера того, насколько далеко значения независимых переменных точки от значений различных наблюдений. Точки с высоким кредитным плечом - это точки с экстремальными значениями переменных, где отсутствие ближайших наблюдений приводит к тому, что подобранная регрессионная модель проходит близко к этой конкретной точке. Ниже приведен график расстояния Кука для каждой точки. Расстояние Кука является мерой влияния на регрессию удаления точки, поэтому, учитывая эту информацию, было бы хорошо исследовать те точки с экстремальными / более высокими расстояниями Кука.

Есть несколько способов борьбы с выбросами, и то, как вы решите бороться с ними, вероятно, зависит от вашей конкретной модели. Они могут быть полностью удалены из ваших данных при создании модели или могут указывать на то, что другая модель может быть более подходящей для ваших данных, в зависимости от того, как они влияют на другие предположения.

Заключение

Как видите, проверка предположений модели - относительно простой, но чрезвычайно важный шаг в оптимизации производительности модели и повышении надежности модели в машинном обучении. Перед построением модели проверьте, соответствуют ли ваши данные определенным предположениям, которые соответствуют выбранной вами модели. Начните с визуальной проверки. Если ваши визуализации даже немного неясны в отношении того, соответствуют ли ваши данные конкретному предположению, которое вы проверяете, используйте более конкретный диагностический инструмент, чтобы подтвердить или опровергнуть свои подозрения. Таким образом, вы можете быть уверены, что используете наиболее подходящую модель для ваших данных, что приведет к лучшим возможностям прогнозирования.

Ключевые слова: мультиколлинеарность, гомоскедастичность, выбросы, остатки, диагностика, график масштаб-расположение, график Q-Q, расстояние Кука.

Источники

Https://statisticsbyjim.com/regression/multicollinearity-in-regression-analysis/



Https://data.library.virginia.edu/diagnostic-plots/