Статистика - это грамматика науки о данных

Обновление статистики, чтобы начать путешествие в области науки о данных

Это четвертая статья из серии «Статистика - грамматика науки о данных», охватывающая важные темы Ковариантность и Корреляция.

Редакция

Закладки к остальным статьям для быстрого доступа:

Серия статей
Часть 1: Типы данных | Меры центральной тенденции | Меры изменчивости
Часть 2: Распределение данных
Часть 3: Меры местоположения | Моменты
Часть 4: Ковариация | Корреляция 🚩
Часть 5: Условная вероятность | Теорема Байеса

Вступление

Чтобы заложить основу для этой статьи, мы предположим, что у нас есть диаграмма рассеяния, и каждая точка данных представляет человека: его профессиональный опыт в годах на одной оси в сравнении с их доходом на другой.

Если диаграмма рассеяния выглядит так, как показано справа, то мы заключаем, что реальной связи между опытом и доходом нет, то есть для любого данного опыта может быть диапазон доходов.

Напротив, на левой диаграмме между этими атрибутами существует четкая линейная взаимосвязь.

Ковариация и корреляция дают нам возможность измерить, насколько сильно атрибуты набора данных зависят друг от друга.

Примечание. В этом примере описываются двумерные данные - «bi» для двух переменных. На самом деле статистики используют многомерные данные, что означает множество переменных.

Ковариация

Ковариация - это мера связи между двумя (или более) случайными величинами.

Как следует из названия «со + дисперсия», это похоже на дисперсию, но применяется к сравнению двух переменных - вместо суммы квадратов у нас есть сумма перекрестных произведений.
Хотя дисперсия говорит нам как отдельная переменная отличается от среднего; Ковариация показывает, как две переменные отличаются друг от друга. Таким образом, будет справедливо сказать:

Ковариация - это разница между двумя переменными.

Ковариация может быть отрицательной или положительной (или, очевидно, нулевой): положительное значение означает, что две переменные имеют тенденцию изменяться в одном направлении (т. Е. Если одна увеличивается, то другая один тоже увеличивается), отрицательное значение означает, что они меняются в противоположных направлениях (т. е. если одно увеличивается, другое уменьшается), и ноль означает, что они не изменяются вместе.

Формула

Формулу может быть сложно интерпретировать, но важнее понять, что она означает:

Если мы думаем, что набор данных случайной величины представлен как вектор, то в предыдущем примере у нас есть два вектора для опыта и дохода. Вот шаги, которые нам нужно выполнить:

№1. Преобразуйте эти два вектора в векторы отклонений от среднего.
№2. Возьмите скалярное произведение двух векторов (которое равно косинусу угла между ними).
№3. Разделите на размер выборки (n или n - 1, как обсуждалось ранее, в зависимости от того, является ли это полная генеральная совокупность или нет).

На 2-м шаге мы эффективно измеряем угол между этими двумя векторами, поэтому, если они близки друг к другу, это означает, что эти переменные тесно связаны.

Основное ограничение

Важно отметить, что, хотя ковариация действительно измеряет направленную взаимосвязь между двумя переменными, она не показывает силу взаимосвязи между ними.

На практике самая большая проблема с этой метрикой заключается в том, что она зависит от используемых единиц. Например, если бы мы превратили годы опыта в месяцы опыта, то ковариация была бы в 12 раз больше!

Вот тут и пригодится корреляция!

Корреляция

Корреляция - один из наиболее распространенных показателей в статистике, который описывает степень взаимосвязи между двумя случайными величинами. Считается, что это нормализованная версия ковариации. Посмотрим, почему ...

Формула

Корреляцию (обозначаемую греческой буквой ρ - ро) можно выразить с помощью этой формулы:

Корреляция ограничена между -1 и 1. Как и ковариация, знак корреляции указывает направление взаимосвязи: положительный означает, что случайные переменные движутся вместе, отрицательный означает, что случайные переменные движутся в разных направлениях.

Конечные точки (т. Е. 1 и -1) указывают, что существует идеальное соотношение между двумя переменными. Например, соотношение между метрами и сантиметрами всегда таково, что 1 м соответствует 100 см. Если мы построим эту взаимосвязь, это будет идеальная линия, и поэтому Корреляция равна 1.

Обратите внимание, что идеальные отношения довольно редки в реальных данных, поскольку две случайные величины обычно не сопоставляются друг с другом с постоянным коэффициентом.

Корреляция 0 означает, что между двумя переменными нет линейной связи. Возможно, существует связь x = y².

Ключевые характеристики

Корреляция не только указывает направление связи, но и ее силу (в зависимости от того, насколько велико абсолютное значение), поскольку она является безразмерной: поскольку мы разделили ковариацию по стандартному отклонению единицы были списаны.

Наконец, мы должны помнить, что «корреляция не подразумевает причинно-следственную связь»: высокая корреляция между двумя случайными величинами просто означает, что они связаны с друг друга, но их отношения не обязательно имеют причинный характер. Единственный способ доказать причинность - это контролируемые эксперименты, в которых мы исключаем внешние переменные и изолируем эффекты двух рассматриваемых переменных.

Все сделано! Мы узнали, как использовать ковариацию и корреляцию, чтобы измерить, связаны ли два разных атрибута в нашем наборе данных линейным образом друг с другом и почему обычно предпочтительнее использовать корреляцию, поскольку она безразмерна.

Спасибо за прочтение! Скоро Часть 5 ...

Я регулярно пишу о технологиях и данных на Medium - если вы хотите читать мои будущие сообщения, пожалуйста, Подписывайтесь на меня!

Статистика - это грамматика науки о данных - Часть 4/5

Обновление статистики, чтобы начать путешествие в области науки о данных

Редакция

Вступление

Ковариация

Формула

Основное ограничение

Корреляция

Формула

Ключевые характеристики

Вопросы по теме