Часть 1: Основные понятия корреляции, ковариации и того, как бороться с мультиколлинеарностью

Корреляция была одним из важных статистических инструментов при разработке проекта машинного обучения. Очень важно понимать, как независимые переменные связаны друг с другом, как связаны независимая переменная и зависимая переменная.

Он дает вам представление о данных, он проясняет, какая функция может быть препятствием в оптимизации проблемы, над которой мы работаем.

Какую функцию удалить? Какая функция дает мне лучшую модель?

Эта статья упростит мыслительный процесс, лежащий в основе корреляции, и объяснит, почему она облегчает жизнь инженеру по машинному обучению.

Темы, которые мы рассмотрим в этой статье:

  1. Что такое корреляция и ковариация?
  2. Почему выбирают корреляцию, а не ковариацию?
  3. Каковы способы определения корреляции между переменной?
  4. Какие бывают типы корреляции?
  5. В чем проблема мультиколлинеарности?
  6. Каковы средства защиты от мультиколлинеарности?

1.a КОРРЕЛЯЦИЯ

Корреляция относится к степени, в которой две переменные имеют линейную связь друг с другом. Это статистический метод, который может показать, насколько сильно связаны переменные. Это масштабированная версия ковариации, значения которой варьируются от -1 до +1.

Переменные в наборе данных могут быть связаны по множеству причин.

  • Одна переменная может вызывать значения другой переменной или зависеть от них.
  • Одна переменная может быть легко связана с другой переменной.
  • Две переменные могут зависеть от третьей неизвестной переменной.

Это может быть полезно при анализе данных и моделировании, чтобы лучше понять отношения между переменными. Статистическая взаимосвязь между двумя переменными называется их корреляцией. Корреляция может быть положительной, что означает, что обе переменные движутся в одном направлении, или отрицательной, что означает, что, когда значение одной переменной увеличивается, значения других переменных уменьшаются. Корреляция также может быть нейронной или нулевой, что означает, что переменные не связаны.

  • Положительная корреляция: обе переменные изменяются в одном направлении.
  • Нейтральная корреляция: нет связи в изменении переменных.
  • Отрицательная корреляция: переменные изменяются в противоположных направлениях.

1.b СОВМЕСТИМОСТЬ

Переменные могут быть связаны линейной зависимостью. Это отношение, которое последовательно складывается между двумя выборками данных.

Эту взаимосвязь можно резюмировать между двумя переменными, называемую ковариацией. Он рассчитывается как среднее произведение между значениями из каждой выборки, где значения не центрированы (их среднее значение вычтено).

Расчет ковариации выборки осуществляется следующим образом:

cov (X, Y) = (сумма (x - среднее (X)) * (y - среднее (Y))) * 1 / (n-1)

Использование среднего в расчетах предполагает, что каждая выборка данных должна иметь гауссово или гауссовское распределение.

Знак ковариации можно интерпретировать как то, изменяются ли две переменные в одном направлении (положительное) или изменяются в разных направлениях (отрицательное). Величину ковариации трудно интерпретировать. Нулевое значение ковариации означает, что обе переменные полностью независимы.

Функцию cov () NumPy можно использовать для вычисления матрицы ковариации между двумя или более переменными.

co-variance = cov (данные 1, данные 2)

Диагональ матрицы содержит ковариацию между каждой переменной и самой собой. Другие значения в матрице представляют собой ковариацию между двумя переменными; в этом случае оставшиеся два значения одинаковы, учитывая, что мы вычисляем ковариацию только для двух переменных.

2.Почему выбирают корреляцию, а не сравнимость?

Когда дело доходит до выбора, который является лучшим измерителем взаимосвязи между двумя переменными, корреляция предпочтительнее ковариации, поскольку на нее не влияет изменение местоположения и масштабировать, а также может использоваться для сравнения двух пар переменных.

3. Каковы способы определения корреляции между переменной?

1. Графический метод. Выполняя двухвариантный анализ двух непрерывных переменных, мы должны смотреть на диаграмму рассеяния. Это отличный способ узнать взаимосвязь между двумя переменными. Диаграмма рассеяния указывает на взаимосвязь между переменными. Отношения могут быть линейными или нелинейными.

Диаграмма разброса показывает взаимосвязь между двумя переменными, но не указывает на силу взаимосвязи между ними. Чтобы определить силу взаимосвязи, мы используем статистический метод.

2. Неграфический метод: постройте корреляционную матрицу, чтобы понять силу между переменными. Корреляция варьируется от -1 до +1.

а. -1: идеальная отрицательная линейная корреляция

б. +1: идеальная положительная линейная корреляция

c. 0: нет корреляции

Идеальные предположения:

1. Высокая корреляция между зависимой и независимой переменной.

2. Меньшая корреляция между независимыми переменными.

Как правило, если корреляция между двумя независимыми переменными высока (›= 0,8), мы отбрасываем одну независимую переменную, иначе это может привести к проблеме мультиколлинеарности. Различные инструменты имеют функцию или функциональные возможности для определения корреляции между переменными. В Excel функция CORREL () используется для возврата корреляции между двумя переменными, а SAS использует процедуру PROC CORR для определения корреляции. Эти функции возвращают значение корреляции Пирсона для определения взаимосвязи между двумя переменными.

4. КАКОВЫ ВИДЫ КОРРЕЛЯЦИИ?

  1. КОРРЕЛЯЦИЯ ПИРСОНА

Коэффициент корреляции Пирсона (названный в честь Карла Пирсона) может использоваться для суммирования силы линейной связи между двумя выборками данных.

Коэффициент корреляции Пирсона рассчитывается как ковариация двух переменных, деленная на произведение стандартного отклонения каждой выборки данных. Это нормализация ковариации между двумя переменными для получения интерпретируемой оценки.

Коэффициент корреляции Пирсона = ковариация (X, Y) / (stdv (X) * stdv (Y))

Использование среднего и стандартного отклонения в расчетах предполагает, что две выборки данных должны иметь гауссово или гауссовское распределение.

Результат расчета, коэффициент корреляции, можно интерпретировать, чтобы понять взаимосвязь.

Коэффициент возвращает значение от -1 до 1, которое представляет пределы корреляции от полной отрицательной корреляции до полной положительной корреляции. Значение 0 означает отсутствие корреляции. Значение должно быть интерпретировано, где часто значение ниже -0,5 или выше 0,5 указывает на заметную корреляцию, а значения ниже этих значений предполагают менее заметную корреляцию.

Функцию pearsonr () SciPy можно использовать для вычисления коэффициента корреляции Пирсона между двумя выборками данных одинаковой длины.

Коэффициент корреляции Пирсона можно использовать для оценки взаимосвязи между более чем двумя переменными.

Это можно сделать, вычислив матрицу отношений между каждой парой переменных в наборе данных. В результате получается симметричная матрица, называемая корреляционной матрицей, со значением 1,0 по диагонали, поскольку каждый столбец всегда идеально коррелирует сам с собой.

2. SPEARMAN'S CORRELATION

Две переменные могут быть связаны нелинейным соотношением, так что связь будет сильнее или слабее по распределению переменных.

Кроме того, две рассматриваемые переменные могут иметь негауссовское распределение.

В этом случае коэффициент корреляции Спирмена (названный в честь Чарльза Спирмена) может использоваться для суммирования силы между двумя выборками данных. Этот тест взаимосвязи также можно использовать, если между переменными существует линейная взаимосвязь, но он будет иметь немного меньшую мощность (например, может привести к более низким оценкам коэффициентов).

Как и в случае с коэффициентом корреляции Пирсона, оценки между -1 и 1 для совершенно отрицательно коррелированных переменных и идеально положительно коррелированных соответственно.

Вместо расчета коэффициента с использованием ковариации и стандартных отклонений для самих выборок, эти статистические данные рассчитываются на основе относительного ранга значений в каждой выборке. Это общий подход, используемый в непараметрической статистике, например статистические методы, в которых мы не предполагаем распределение данных, например, по Гауссу.

Коэффициент корреляции Спирмена = ковариация (ранг (X), ранг (Y)) / (stdv (rank (X)) * stdv (rank (Y)))

Линейная связь между переменными не предполагается, хотя предполагается монотонная связь. Это математическое название увеличения или уменьшения отношения между двумя переменными.

Если вы не уверены в распределении и возможных взаимосвязях между двумя переменными, используйте коэффициент корреляции Спирмена.

Функцию spearmanr () SciPy можно использовать для вычисления коэффициента корреляции Спирмена между двумя выборками данных одинаковой длины.

Как и в случае коэффициента корреляции Пирсона, коэффициент можно вычислить попарно для каждой переменной в наборе данных, чтобы получить матрицу корреляции для анализа.

5. В чем проблема мультиколлинеарности?

Мультиколлинеарность (также коллинеарность) - это явление, при котором две или более переменных -предсказателей (независимых переменных) в регрессионной модели сильно коррелированы, что означает, что одна может быть линейно предсказана на основе других со значительной степенью точности. В этой ситуации оценки коэффициентов множественной регрессии могут изменяться беспорядочно в ответ на небольшие изменения в модели или данных. Коллинеарность - это линейная связь между двумя независимыми переменными. Две переменные идеально коллинеарны, если между ними существует точная линейная зависимость.

Типы мультиколлинеарности:

Есть два типа мультиколлинеарности:

1. Структурная мультиколлинеарность - это математический артефакт, вызванный созданием новых предикторов из других предикторов, например, созданием предиктора x 2 из предиктора x.

2. Мультиколлинеарность, основанная на данных, с другой стороны, является результатом плохо спланированного эксперимента, зависимости от чисто наблюдательных данных или неспособности манипулировать системой, в которой собираются данные.

Обнаружение мультиколлинеарности:

Признаки того, что в модели может присутствовать мультиколлинеарность, включают следующее:

1. Значительные изменения в оценочных коэффициентах регрессии при добавлении или удалении переменной-предиктора.

2. Незначительные коэффициенты регрессии для затронутых переменных в множественной регрессии, но отклонение совместной гипотезы о том, что все эти коэффициенты равны нулю (с использованием F-теста).

3. Если многомерная регрессия обнаруживает незначительный коэффициент определенного объяснителя, но простая линейная регрессия объясненной переменной по этой объясняющей переменной показывает, что ее коэффициент значительно отличается от нуля, эта ситуация указывает на мультиколлинеарность в многомерной регрессии.

4. VIF (коэффициент инфляции дисперсии) может использоваться для обнаружения мультиколлинеарности в регрессионной модели {\ displaystyle \ mathrm {толерантность} = 1-R_ {j} ^ {2}, \ quad \ mathrm {VIF} = {\ frac { 1} {\ mathrm {терпимость}}},}

В чем проблема?

• Коллинеарность имеет тенденцию увеличивать дисперсию по крайней мере одного оцененного коэффициента регрессии.

  • Это может привести к тому, что по крайней мере некоторые коэффициенты регрессии будут иметь неправильный знак.

Способы борьбы с коллинеарностью

· Игнорируй это. Если предметом вашего исследования является предсказание значений y, то коллинеарность не проблема.

· Избавьтесь от избыточных переменных, используя технику выбора переменных.

Существует несколько методов выбора переменных, которые меньше коррелируют с высокой важностью.

1. Метод корреляции

2. PCA (анализ главных компонентов)

3. SVD (сингулярное разложение)

4. Алгоритмы машинного обучения (случайный лес, деревья решений)

Средства от мультиколлинеарности

1. Отбросьте одну из переменных. Объясняющая переменная может быть опущена для создания модели со значимыми коэффициентами. Однако вы теряете информацию (потому что потеряли переменную). Пропуск соответствующей переменной приводит к смещению оценок коэффициентов для остальных независимых переменных, которые коррелируют с опущенной переменной.

2. Если возможно, получите больше данных. Это предпочтительное решение. Больше данных может дать более точные оценки параметров (с более низкими стандартными ошибками), как видно из формулы в коэффициент инфляции дисперсии для дисперсии оценки коэффициента регрессии с точки зрения размера выборки и степени мультиколлинеарности.

3. Попробуйте посмотреть, что произойдет, если вы используете независимые подмножества данных для оценки и примените эти оценки ко всему набору данных. Теоретически вы должны получить несколько более высокую дисперсию из меньших наборов данных, используемых для оценки, но ожидаемые значения коэффициентов должны быть такими же. Естественно, наблюдаемые значения коэффициентов будут различаться, но посмотрите, насколько они варьируются.

4. Стандартизируйте свои независимые переменные. Это может помочь уменьшить количество ложных отметок индекса состояния выше 30.

5. Также было высказано предположение, что, используя значение Шепли как инструмент теории игр, модель могла бы учесть эффекты мультиколлинеарности. Значение Шепли присваивает значение каждому предиктору и оценивает все возможные комбинации важности.

6. Если коррелированные объяснители являются разными запаздывающими значениями одного и того же основного объяснителя, то можно использовать метод распределенного участка, налагающий общую структуру на относительные значения коэффициентов, которые необходимо оценить.

В СЛЕДУЮЩЕЙ ЧАСТИ МЫ УВИДИМ, КАК МОЖНО КОДИРОВАТЬ КОРРЕЛЯЦИЮ В PYTHON, И УВИДИМ КОРРЕЛЯЦИОННУЮ МАТРИЦУ.

МЫ Поговорим о практических применениях корреляции в реальных мировых проблемах.