Согласно Merriam Websters — корреляция — это отношение, существующее между явлениями или вещами или между математическими или статистическими переменными, которые имеют тенденцию изменяться, быть связанными или встречаться вместе таким образом, который не ожидается на основе случайности. один.

В большинстве случаев корреляция проводится между двумя переменными. (Хотя можно найти корреляцию между более чем двумя переменными. — Множественная корреляция)

Типы корреляции

  1. Пирсон
  2. Рейтинг Кендалла
  3. Копейщик
  4. Бисериальная точка

узнать больше о типах корреляции; нажмите здесь

Не путайте вещи, корреляция — это отношение, в то время как коэффициент корреляции больше похож на квантификатор, который показывает силу отношения. Коэффициенты корреляции измеряют только линейные отношения; они могут не дать представления о других типах отношений.

Коэффициент корреляции находится в диапазоне от -1 до +1 (т.е. -1, -0,99, -0,98,…,0,99, 1,0 до 2dp). Значение ± 1 указывает на идеальную степень связи между двумя переменными. По мере того, как значение этого коэффициента приближается к 0, связь между двумя переменными становится слабее.

Есть три возможных результата корреляционного исследования: положительная корреляция, отрицательная корреляция или отсутствие корреляции.

  • Положительная корреляция – это отношение между двумя переменными, при котором обе переменные движутся в одном направлении. Следовательно, когда одна переменная увеличивается при увеличении другой переменной или одна переменная уменьшается, а другая уменьшается.
  • Отрицательная корреляция – это отношение между двумя переменными, при котором увеличение одной переменной связано с уменьшением другой.
  • Нулевая корреляция существует, когда между двумя переменными нет линейной связи. В этот момент коэффициент корреляции равен нулю. Следует отметить, что это не означает отсутствия связи между обеими переменными, акцент делается на том, что нет линейной зависимости.

Основные критерии, на которых должна основываться корреляция.

  1. Диапазон
  2. Величина
  3. Нелинейность
  4. Направленность

1) Диапазон:коэффициенты корреляции включают все значения и только значения от -1 до 1.

2) Масштаб:корреляции сильнее для коэффициентов, которые ближе к -1 или 1, как упоминалось ранее; корреляции тем сильнее, чем дальше значение коэффициента от 0.

3) Нелинейность:коэффициенты корреляции измеряют только линейные отношения; они могут не дать представления о других типах отношений. Две переменные с корреляцией, близкой к 0 или равной 0, практически не имеют линейной связи; они могут вообще не иметь отношений или могут иметь отношения другого типа.

4) Направленность:положительный коэффициент корреляции указывает на положительную связь, означающую, что по мере увеличения одной переменной увеличивается и другая переменная. Отрицательный коэффициент корреляции указывает на отрицательную связь, означающую, что по мере увеличения одной переменной другая переменная уменьшается.

Точечная диаграмма

Точечная диаграмма (также известная как точечная диаграмма, точечная диаграмма) использует точки для представления значений двух разных числовых переменных. Положение каждой точки на горизонтальной и вертикальной осях указывает значения для отдельной точки данных. Диаграммы рассеяния используются для наблюдения взаимосвязей между переменными.

Когда коэффициент корреляции близок к 0 или равен 0, на диаграмме рассеяния может быть видна нелинейная связь. (Binned Scatterplot теперь тоже может это делать — Маттео Кортхуд объяснил это)

Корреляция против причинно-следственной связи

Я знаю, вы, должно быть, слышали об этой популярной поговорке «корреляция не является причинно-следственной связью», что это вообще означает?

Честно говоря, когда я начинал в первые дни своей карьеры, я не совсем понимал основной смысл этого утверждения.

Когда вас просят объяснить на примере распространенный вопрос «корреляция не является причинно-следственной связью», что вы отвечаете?

Однако корреляция между переменными не означает автоматически, что изменение одной переменной является причиной изменения значения другой переменной. Корреляция отображается только при наличии связи между переменными.

Корреляция между ростом и весом игроков «Голден Стэйт Уорриорз» положительная. Однако положительная корреляция не означает, что одна переменная вызывает другую. более низкие люди могут иметь тенденцию весить меньше, но увеличение веса не сделает вас выше! Корреляция указывает на линейную связь, но не указывает на причинно-следственную связь.

Другой пример — популярные атаки Ice Cream и Shark, которые вы можете найти в некоторых блогах и текстах. Если продажи мороженого увеличиваются по мере увеличения числа нападений акул, значит ли это, что увеличение продаж мороженого увеличивает количество нападений акул? конечно, нет! Определенно есть скрытая переменная!

Что такое скрытая переменная?

Скрытая переменная — это переменная, связанная с каждой из двух переменных (например, с мороженым и атакой акулы), которые принципиально не связаны друг с другом. То есть нет причин думать, что изменение одной переменной приведет к изменению другой; на самом деле корреляция между двумя переменными может показаться удивительной, пока не будет рассмотрена скрытая переменная. Хотя между этими двумя переменными нет прямойсвязи, они математически коррелированы, поскольку каждая по отдельности коррелирует с третьей «скрытой» переменной. Следовательно, чтобы переменная действовала как скрытая переменная, должно быть три переменных, каждая из которых математически коррелирует (прямо или косвенно).

В приведенном выше примере сезон связан с продажами мороженого (люди чаще покупают мороженое летом, когда стоит жаркая погода). Сезон также коррелирует с нападениями акул (люди чаще выходят на пляж и купаются в море в жаркую погоду). Однако прямой связи между продажами мороженого и атаками акул нет: продажи мороженого не растут, потому что у людей есть атаки акул, а у людей нет атак акул, потому что они не покупают мороженое. Тем не менее, эти две переменные коррелируют, потому что и продажи мороженого, и нападения акул коррелируют с одной и той же переменной: временем года.

Что такое промежуточные переменные?

Скрытые переменные — это не то же самое, что «переменные-посредники», которые представляют собой переменные, на которые влияет одна переменная, а затем, в свою очередь, влияют на другую переменную. Например, беспокойство по поводу своей успеваемости на одном из ваших письменных экзаменов может заставить вас учиться усерднее и, таким образом, получать более высокие оценки, но учеба не может рассматриваться как скрытая переменная, связывающая беспокойство и получение более высоких оценок. Эти две переменные фундаментально связаны в том смысле, что беспокойство приводит к более высоким оценкам. Если учащиеся больше беспокоятся, они могут учиться усерднее и получать еще более высокие оценки.

Справочник

  1. Чартио
  2. Гарвардская школа бизнеса онлайн
  3. Реальная статистика
  4. Просто психология
  5. Статистические решения
  6. Википедия

Спасибо за чтение!

Я ценю время, которое вы потратили на это, если вы нашли это полезным, пожалуйста, поставьте лайк и рассмотрите возможность подписаться на меня. Я буду признателен за ваши предложения по новым темам, и я также открыт для обратной связи и комментариев.