Поскольку это мой первый пост на Medium, я хотел дать простое объяснение того, что такое ковариация и корреляция и как они полезны в науке о данных. Давайте начнем ……..

Это два математических понятия, которые обычно используются в статистике. Насколько хорошо одна переменная связана/влияет на другую переменную? Но между этими двумя понятиями есть тонкая разница. Это то, что мы собираемся увидеть в этом посте. мы все сталкиваемся с этими понятиями каждый день в нашей жизни с / без знания. Пример: рост цен на нефть, акции и т. д. Давайте посмотрим подробнее.

Ковариация:

  • Ковариация показывает, как связаны две переменные.
  • Положительное значение ковариации означает, что они положительно связаны (одна переменная увеличивается, а другая также увеличивается)
  • Отрицательное значение ковариации означает, что они отрицательно связаны (одна переменная уменьшается, а другая также уменьшается)
  • Значение ковариации всегда находится в диапазоне от -∞ до +∞

Давайте посмотрим на один пример,

Формула ковариации,

Где,

X = элемент (скажем, опыт)

Y = выходная переменная (скажем, зарплата)

x̅ = среднее значение X

y̅ = среднее значение Y

Среднее значение X (x̅)= (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21 / 6 = 3,5

Среднее значение Y (y̅) = (30 + 50 + 60 +70 + 80+ 90) / 6 = 63

Теперь мы вычислим ковариацию,

COV(X,Y) = (1- 3,5)(30–63)+(2–3,5)(50–63)+… / (6–1)

COV(X,Y) = (82,5+19,5+1,5+3,5+25,5+67,5) / 5 = 200 / 5 = 40

Итак, здесь ковариация равна 40, что положительно. Итак, мы знаем, что поля «Опыт» и «Зарплата» положительно связаны. Смысл, если опыт увеличивается, то и зарплата тоже увеличивается.

Теперь, когда мы знаем, что значение ковариации равно 40, но что такое корреляция?

Мы знаем, что это положительная связь, но мы не знаем, насколько сильна их связь. Корреляция даст ответ на этот вопрос.

Корреляция:

  • Корреляция показала, насколько сильно связаны две переменные.
  • Показатель корреляции всегда находится в диапазоне от -1 до +1
  • Любая оценка корреляции от -1 до -0,6 и от +1 до +0,6 указывает на то, что они хорошо коррелированы.
  • Ноль означает, что корреляции нет.

Формула корреляции,

Теперь, когда мы знаем ковариацию этих двух полей в нашем примере. Мы узнаем стандартное отклонение X и Y и, наконец, значение корреляции.

Формула стандартного отклонения,

Стандартное отклонение опыта = 1,87.

Стандартное отклонение заработной платы = 21,61.

Corr(X,Y) = (40)/((1,87)(21,61) = 40/40,4107

Корр(X,Y) = 0,99

Вы можете видеть, что значение находится в диапазоне от -1 до +1, и оно сильно коррелировано. Таким образом, мы можем заключить, что Опыт имеет высокую положительную корреляцию с Зарплатой.

Как рассчитать эту корреляцию с помощью Python?

С помощью Python легко рассчитать корреляцию всякий раз, когда мы анализируем наборы данных. Это всего лишь две строчки. Но всегда полезно знать, как это работает за кулисами.

Примечание:

Это мой первый пост на медиуме. Надеюсь, это будет полезно для тех, кто это читает. Я надеюсь продолжить писать алгоритмы машинного обучения в своих будущих постах.

Ваше здоровье!!!!!! Счастливого обучения!!!