Что такое корреляция?

Корреляция используется для нахождения взаимосвязи между двумя переменными, что важно в реальной жизни, поскольку мы можем предсказать значение одной переменной с помощью других переменных, которые коррелируют с ней. Это тип двумерной статистики, поскольку здесь задействованы две переменные.

Это статистический метод, который помогает нам анализировать взаимосвязь между двумя или более переменными.

Некоторые статистики определяют корреляцию следующим образом:

1. «Корреляция — это анализ ковариации между двумя или более переменными» — (А. М. Таттл)

2. «Корреляционный анализ пытается определить степень взаимосвязи между переменными» — (Я Лунь Чжоу)

3. «Корреляционный анализ имеет дело со связью между двумя или более переменными» — (Симпсон и Кафка)

Корреляция и причинность

Корреляция: это числовая мера направления и величины взаимосвязи между переменными (X и Y).

Причинно-следственная связь: X является причиной изменения Y, т. е. изменение Y является следствием изменения X.

ПРИМЕЧАНИЕ.

Если X и Y коррелированы, то X и Y могут иметь или не иметь случайные отношения.

Если X и Y имеют причинно-следственную связь, то X и Y должны быть коррелированы.

Причины корреляции

Это может произойти из-за нескольких причин, таких как:

1. Взаимная зависимость между переменными: Обе переменные могут взаимно влиять друг на друга, так что ни одна из них не может быть обозначена как причина, а другая — как следствие.

Когда две переменные (X и Y) взаимно влияют друг на друга, мы не можем сказать, что X является причиной или Y является причиной.

Например, цена товара зависит от спроса и предложения.

2. Чистая случайность: в небольшой выборке X и Y сильно коррелированы, но во вселенной X и Y не коррелированы.

Например, корреляция между доходом и весом человека. Это может быть связано с:

– Колебания выборки

– Предвзятость исследователя при выборе образца

Такая связь называется бессмысленной или ложной связью.

3. Корреляция из-за любого третьего общего фактора: на обе коррелирующие переменные может влиять одна или несколько переменных.

X и Y не имеют прямой зависимости.

Например, это между производством чая и риса на гектар. Здесь они не связаны напрямую; вместо этого причиной является хороший дождь в нужное время.

Полезность корреляции

1. Экономистам очень полезно изучать отношения между переменными.

2. Это помогает измерить степень взаимосвязи между переменными.

3. Мы также можем проверить значимость взаимосвязи.

4. Ошибку выборки также можно рассчитать, зная корреляцию.

5. Это основа изучения регрессии.

6. Оцените значение одной переменной на основе другой переменной.

7. Он используется для определения взаимосвязи между наборами данных в бизнесе.

Типы корреляции

На основе степени корреляции:

1. Положительная корреляция: считается положительной, когда значения двух переменных движутся в одном и том же направлении, так что за увеличением одной переменной следует увеличение другой переменной или за уменьшением одной переменной следует уменьшение другой переменной.

  • Две переменные X и Y движутся в одном направлении.
  • Если X растет, Y также растет, и наоборот.
  • Примерами положительной корреляции являются (а) возраст и доход, (б) количество осадков и урожайность.

2. Отрицательная корреляция: считается отрицательной, когда значения двух переменных изменяются в противоположном направлении, так что увеличение одной переменной сопровождается уменьшением другой переменной.

  • Две переменные X и Y движутся в противоположном направлении.
  • Если X растет, Y падает, и наоборот.
  • Примерами отрицательной корреляции являются (а) высота над уровнем моря и температура, (б) продажи шерстяной одежды и температура.

На основе изменения пропорции:

  1. Линейная.Если значение количества изменений в одной переменной имеет тенденцию сохранять постоянное отношение к количеству изменений в других переменных, корреляция называется линейной. Например, всякий раз, когда цена растет на 10%, предложение увеличивается на 20%.

2. Нелинейная: если значение количества изменений в одной переменной не сохраняет постоянного отношения к количеству изменений в других переменных, то говорят, что это нелинейная корреляция. Она также известна как криволинейная корреляция. Например, если цена повышается на 10 %, а предложение увеличивается на 20 %, иногда на 10 %, а иногда и на 40 %,

Эта статья была опубликована в рамках Блогатона по науке о данных.

Что такое корреляция?

Корреляция используется для нахождения взаимосвязи между двумя переменными, что важно в реальной жизни, поскольку мы можем предсказать значение одной переменной с помощью других переменных, которые коррелируют с ней. Это тип двумерной статистики, поскольку здесь задействованы две переменные.

Это статистический метод, который помогает нам анализировать взаимосвязь между двумя или более переменными.

статистикиНекоторые из статистиков определяют

«корреляция» следующим образом:

1. «Корреляция — это анализ ковариации между двумя или более переменными» — (А. М. Таттл)

2. «Корреляционный анализ пытается определить степень взаимосвязи между переменными» — (Я Лунь Чжоу)

3. «Корреляционный анализ имеет дело со связью между двумя или более переменными» — (Симпсон и Кафка)

Станьте полноценным специалистом по данным

Будьте впереди в своей карьере в области искусственного машинного обучения | Предварительные условия не требуются

Скачать брошюру

Теперь мы можем заключить, что связь любых двух переменных называется корреляцией. Это числовое измерение, показывающее степень связи между двумя переменными.

Корреляция и причинность

Корреляция: это числовая мера направления и величины взаимосвязи между переменными (X и Y).

Причинно-следственная связь: X является причиной изменения Y, т. е. изменение Y является следствием изменения X.

ПРИМЕЧАНИЕ.

Если X и Y коррелированы, то X и Y могут иметь или не иметь случайные отношения.

Если X и Y имеют причинно-следственную связь, то X и Y должны быть коррелированы.

Причины корреляции

Это может произойти из-за нескольких причин, таких как:

1. Взаимная зависимость между переменными: Обе переменные могут взаимно влиять друг на друга, так что ни одна из них не может быть обозначена как причина, а другая — как следствие.

Когда две переменные (X и Y) взаимно влияют друг на друга, мы не можем сказать, что X является причиной или Y является причиной.

Например, цена товара зависит от спроса и предложения.

2. Чистая случайность: в небольшой выборке X и Y сильно коррелированы, но во вселенной X и Y не коррелированы.

Например, корреляция между доходом и весом человека. Это может быть связано с:

– Колебания выборки

– Предвзятость исследователя при выборе образца

Такая связь называется бессмысленной или ложной связью.

3. Корреляция из-за любого третьего общего фактора: на обе коррелирующие переменные может влиять одна или несколько переменных.

X и Y не имеют прямой зависимости.

Например, это между производством чая и риса на гектар. Здесь они не связаны напрямую; вместо этого причиной является хороший дождь в нужное время.

Полезность корреляции

1. Экономистам очень полезно изучать отношения между переменными.

2. Это помогает измерить степень взаимосвязи между переменными.

3. Мы также можем проверить значимость взаимосвязи.

4. Ошибку выборки также можно рассчитать, зная корреляцию.

5. Это основа изучения регрессии.

6. Оценить значение одной переменной на основе другой переменной.

7. Он используется для определения взаимосвязи между наборами данных в бизнесе.

Типы корреляции

На основе степени корреляции:

1. Положительная корреляция: считается положительной, когда значения двух переменных движутся в одном и том же направлении, так что за увеличением одной переменной следует увеличение другой переменной или за уменьшением одной переменной следует уменьшение другой переменной.

  • Две переменные X и Y движутся в одном направлении.
  • Если X растет, Y также растет, и наоборот.
  • Примерами положительной корреляции являются (а) возраст и доход, (б) количество осадков и урожайность.

2. Отрицательная корреляция: считается отрицательной, когда значения двух переменных изменяются в противоположном направлении, так что увеличение одной переменной сопровождается уменьшением другой переменной.

  • Две переменные X и Y движутся в противоположном направлении.
  • Если X растет, Y падает, и наоборот.
  • Примерами отрицательной корреляции являются (а) высота над уровнем моря и температура, (б) продажи шерстяной одежды и температура.

На основе изменения пропорции:

1. Линейная: если значение количества изменений в одной переменной имеет тенденцию сохранять постоянное отношение к количеству изменений в других переменных, то корреляция называется линейной. Например, если цена вырастет на 10 %, предложение увеличится на 20 %.

2. Нелинейная: если значение количества изменений в одной переменной не сохраняет постоянного отношения к количеству изменений в других переменных, то говорят, что это нелинейная корреляция. Она также известна как криволинейная корреляция. Например, если цена повышается на 10 %, а предложение увеличивается на 20 %, иногда на 10 %, а иногда и на 40 %,

На основе количества изученных переменных:

1. Простая корреляция: когда мы рассматриваем только две переменные (двумерный анализ) и проверяем корреляцию только между этими переменными, говорят, что это простая корреляция. Например, цена и спрос, рост и вес, доход и потребление и т. д.

2. Множественная корреляция: когда мы одновременно рассматриваем более трех переменных для корреляции, это называется множественной корреляцией.Например, когда мы изучаем взаимосвязь между урожайностью риса на гектар и количеством количества осадков вместе с количеством удобрений, оба используются для определения взаимосвязи с производством риса.

3. Частичная корреляция: когда одна или несколько переменных остаются постоянными и изучается взаимосвязь между оставшимися переменными, это называется «частичной корреляцией». Изучите взаимосвязь между двумя переменными, предполагая, что другие переменные постоянны. Например, взаимосвязь между количеством осадков и урожайностью риса при постоянной температуре.

Как рассчитать коэффициент коррекции с помощью Python?

импортировать pandas как pd
data = pd.read_csv('dataset.csv')
corr_matrix = data.corr()
#visulalize the Matrix
import seaborn как sns
> sns.heatmap(corr_matrix, annot=True)
corr_coef = data['variable1'].corr(data['variable2'])

заключение

корреляционный анализ является важным инструментом при выборе признаков для машинного обучения. Это помогает определить взаимосвязь между различными функциями и то, как они влияют на целевую переменную. Удаляя избыточные или сильно коррелированные функции, мы можем повысить точность модели и уменьшить переоснащение.