Найдите связь между данными.

Здесь мы собираемся обсудить, как количественно определить взаимосвязь между наблюдениями. Обнаружение этой взаимосвязи может помочь вам лучше понять данные. Обсуждаемые здесь методы будут включать ковариацию, коэффициент корреляции Пирсона и ранговую корреляцию Спирмена.

Ковариация:

Ковариация говорит нам о направлении связи между двумя наблюдениями. Ковариация положительна, когда значение одного наблюдения увеличивается с другими наблюдениями. Ковариация отрицательна, когда значение одного наблюдения уменьшается, а значение другого наблюдения увеличивается.

Ограничения:

Хотя ковариация вычисляет направление связи между двумя наблюдениями, она не может вычислить силу связи между двумя наблюдениями. Это происходит из-за того, что рассматриваемые наблюдения могут быть в разных единицах, и это приводит к тому, что величина будет отличаться в зависимости от их значения, что совершенно бесполезно.

Коэффициент корреляции Пирсона:

Коэффициент корреляции Пирсона представляет собой отношение ковариации и произведения стандартного отклонения между наблюдениями. Его можно рассматривать как нормализованную ковариацию наблюдения. Значение PCC всегда находится в диапазоне [-1, 1]. Значения, близкие к 1, означают сильную положительную корреляцию, значения, близкие к -1, означают сильную отрицательную корреляцию, а 0 указывает на случайную/отсутствие связи между наблюдениями.

Ограничения:

Корреляция между двумя наблюдениями никогда не означает причинно-следственную связь, то есть одно наблюдение зависит от другого. PCC хорошо улавливает линейные отношения между наблюдениями, но не может улавливать нелинейные отношения.

Корреляция ранга Спирмена:

Корреляцию рангов Спирмена можно рассматривать как PCC рангов наблюдений. PCC ищет линейность наблюдений, но Спирмен оценивает монотонную связь между наблюдениями.

В ранговой корреляции Спирмена мы упорядочиваем значения в наблюдениях на основе значения независимо и проверяем их PCC. Возможно, это могло бы дать монотонную связь между наблюдениями.

Ограничения:

В популяции из 1000 наблюдений будет утомительной задачей упорядочить значения на основе наблюдений. Также высока вероятность того, что элементы с одинаковыми элементами усложняют задачу.

Причина:

Когда значения одного наблюдения зависят от другого наблюдения, это называется причинностью.

В этом блоге мы обсудили ковариацию, корреляцию и причинно-следственную связь. Они используются для улавливания связи между наблюдениями. Это основной фактор в машинном обучении для выбора функций и уменьшения размерности.

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.