1. Обновление Pearson’s r

Мы используем коэффициент корреляции Пирсона для количественной оценки силы и направления линейной корреляции между независимой переменной x и зависимой переменной y:

где cov (x, y) - ковариация x и y, которая является мерой того, насколько x и y изменяются вместе ; Sx и Sy - это стандартное отклонение выборки x и y (т. Е. С поправкой Бесселя (n-1 ) применяется при вычислении стандартного отклонения). Обратите внимание, что r - это пропорция, а не процент.

Величина r говорит нам, насколько близко данные располагаются вдоль прямой линии. Если данные идеально совпадают по прямой в положительном направлении, мы имеем r = 1, а если данные идеально ложатся на прямую линию в отрицательном направлении, мы получаем r = -1. Если x и y совсем не коррелируют, r = 0.

2. Проверка гипотезы r Пирсона

Перед вычислением доверительных интервалов мы должны сначала сформулировать основную проверку гипотезы. Когда мы пытаемся найти линейную корреляцию между двумя переменными из выборочных данных, поскольку ошибки выборки неизбежны, мы всегда хотим проверить, устойчива ли наблюдаемая корреляция к ошибке выборки.

В этом свете мы можем начать формулировать нулевую и альтернативную гипотезы. Обозначив коэффициент корреляции выборки как r и коэффициент корреляции совокупности как , мы можем сформулировать гипотезы следующим образом:

  • Нулевая гипотеза H₀: = 0 (популяции x и y не коррелированы)
  • Альтернативная гипотеза Hₐ: ⍴ ‹ 0 (тест с одним хвостом в отрицательном направлении) или ⍴› 0 (тест с одним хвостом в положительном направлении) или ≠ 0 (тест с двумя хвостами в обоих направлениях)

Затем давайте проведем t -тест для r Пирсона:

где r - коэффициент Пирсона, вычисленный на основе выборочных данных, а n - номер выборки. Степень свободы для t -теста составляет n-2.

Давайте быстро рассмотрим пример: учитывая количество выборок n = 25, мы получаем значение t-статистики 2,71. Если мы должны провести ненаправленный (т. Е. Двухсторонний) тест с уровнем значимости α = 0,05, какое решение мы должны принять относительно гипотезы для коэффициента корреляции населения?

Вот фрагмент кода на Python:

Приведенный выше код вернет значение t_critical 2,069. Учитывая, что наша t-статистика больше критического значения t, мы можем сделать вывод, что существует достаточно доказательств, чтобы отвергнуть нулевую гипотезу. Другими словами, существует значительная линейная зависимость между x и y.

3. Как рассчитать доверительный интервал для Пирсона ?

Многие программные инструменты линейной регрессии также могут обеспечить 95% доверительный интервал для коэффициента Пирсона r. Это также эффективный способ информирования нас о том, действительно ли существует значимая линейная связь между x и y - если CI включают 0, у нас не будет достаточно доказательств, чтобы отклонить нулевую гипотезу.

Как мы вычисляем доверительный интервал для r Пирсона? Это немного сложнее, чем для стандартизированного нормального распределения и t-распределения Стьюдента. Корень сложности в том, что r не следует колоколообразному нормальному распределению. Вместо этого он имеет отрицательно перекошенную форму. Чтобы обойти это затруднение, расчет доверительного интервала для требует следующих трех шагов:

  1. Преобразуйте r в z ’с помощью преобразования Z’ Фишера:

2. Вычислите доверительные интервалы, используя полученное значение z ’:

где z’-critical можно легко получить из z-таблицы для заданного значимого уровня, а SE - стандартная ошибка:

3. Преобразуйте доверительные интервалы в единицах z ’обратно в значения r:

Давай приступим к работе!

Давайте воспользуемся примером, чтобы понять суть (аналогичный пример можно найти на http://onlinestatbook.com/):

Задача: вычислить 95% доверительный интервал (два хвоста) для коэффициента корреляции населения , учитывая, что N = 34, r = -0,654.

Решение:

[Шаг 1] вычислить критическое значение для z ’

Получаем z’_critical = 1,96

[Шаг 2] Вычислить доверительный интервал в единицах z ’

Мы получаем 95% доверительный интервал в единицах значения z ’: (-1,13, -0,43)

[Шаг 3] Преобразуя z ’обратно в r, мы получаем (-0,81, -0,40) как доверительный интервал для коэффициента корреляции населения. Поскольку этот интервал далек от 0, мы можем заключить, что существует значимая отрицательная корреляция между зависимыми и независимыми переменными.

Удачной статистики!

Хотя большинство статистических библиотек могут вычислить этот доверительный интервал для нас, знание того, что находится под капотом, всегда полезно для укрепления нашего понимания. Удачной статистики!