Корреляция — это мера надежности связи между двумя переменными. Коэффициент корреляции используется в различных алгоритмах статистического анализа и машинного обучения.

Необходимость корреляции

Для сравнения двух двумерных наборов данных среднее, медиана, мода, стандартное отклонение и другие меры центральной тенденции не могут быть использованы, поскольку можно было иметь два набора чисел с одинаковыми мерами центральной тенденции, и при вычислении медианы и моды мы имеем для сортировки набора данных, что приводит к нарушению четности, так как после сортировки разные значения x могут отображаться в разные значения y

Интуиция за корреляцией

Пусть есть два ряда данных с именами x и y

Для анализа корреляции мы можем построить их следующим образом

Затем мы проводим горизонтальную линию в точке y=mean(y) и вертикальную линию в точке x=mean(x)

Теперь мы можем сместить начало координат на (x-mean(x), y-mean(y)) и взять произведение абсцисс и ординат каждой точки, теперь это произведение отрицательно для квадрантов 2 и 4 и положительный для квадрантов 1 и 3, что означает, что если значение x увеличивается со значением y, произведение положительное, а когда значение x уменьшается со значением y, мы можем сказать, что произведение отрицательное. Затем мы берем сумму этого произведения для всех точек, а затем делим сумму на количество точек в ряду данных, чтобы исключить влияние количества точек в ряду данных. При этом мы получаем величину, известную как ковариация, которую можно определить по формуле

Теперь мы делим ковариацию на произведение стандартных отклонений x и y. Мы делаем это, потому что

  1. Он отменяет влияние единиц каждого столбца в ряду двумерных данных и, следовательно, делает корреляцию независимой от единиц, так что мы можем сравнивать любые ряды.
  2. Он приводит корреляцию к диапазону от -1 до 1, что обеспечивает универсальную шкалу для сравнения рядов двумерных данных.
  3. Поскольку стандартное отклонение всегда положительно, оно не меняет знак ни одного члена в формуле ковариации.

Следовательно, формула корреляции может быть представлена ​​как

Свойства корреляции

  1. Он симметричен, что означает, что корреляция между x и y такая же, как корреляция между y и x.
  2. Всегда между -1 и 1
  3. Коэффициент корреляции не зависит от изменения масштаба и изменения начала координат, что означает, что корреляция не меняется, когда вы умножаете или делите каждый элемент ряда на определенное число или добавляете или вычитаете каждый элемент ряда на определенное число.

Вывод корреляции

  1. Если коэффициент корреляции близок к -1, это означает, что значение x уменьшается с увеличением значения y. Это означает сильную отрицательную корреляцию
  2. Если коэффициент корреляции близок к 0, это означает, что значение x не зависит от значения y. Это означает отсутствие корреляции
  3. Если коэффициент корреляции близок к 1, это означает, что значение x увеличивается с увеличением значения y. Это предполагает сильную положительную корреляцию

Недостатки корреляции

Корреляция может определять только линейную связь между двумя переменными и не может определять полиномиальную связь между двумя переменными.