Понимание связей и взаимодействий внутри наборов данных — это основа получения ценной информации. Измерения корреляции обеспечивают более глубокое понимание того, как переменные влияют друг на друга, предлагая понимание закономерностей, тенденций и зависимостей, которые в противном случае могли бы остаться скрытыми. Итак, давайте погрузимся.

Корреляционные меры

Отношения между переменными набора данных бывают трех видов: положительные (обе переменные движутся вместе), нейтральные (нет связи между изменениями переменных) и отрицательные (переменные смещаются в противоположных направлениях).

Подход, выбранный для анализа, зависит от природы самих переменных: являются ли они непрерывными (представляющими измерения) или категориальными (с указанием меток или групп). В зависимости от этого различия в игру вступают различные методологии.

Существует две категории статистических тестов: параметрические и непараметрические. Параметрические тесты работают в предположении, что выборочные данные соответствуют определенному распределению в совокупности. Напротив, непараметрические тесты освобождают анализ от ограничений, основанных на распределении, позволяя собирать данные из выборки, не придерживаясь заранее определенной модели распределения.

По сути, выбор между параметрическими и непараметрическими методами зависит от характеристик данных и того, выполняются ли предположения параметрических методов. Параметрические методы могут обеспечить большую статистическую мощность, если предположения выполняются, но непараметрические методы обеспечивают большую гибкость и могут обрабатывать более широкий диапазон типов данных и распределений.

В таблице ниже показано, какой тест использовать для различных сценариев, когда как независимые, так и зависимые переменные являются непрерывными или категориальными. Мы рассмотрим каждый из них вкратце.

Коэффициент корреляции Пирсона

Коэффициент корреляции Пирсона (r) является наиболее широко используемым коэффициентом корреляции. Он описывает силу и направление линейной связи между двумя количественными переменными. Оно находится в диапазоне от -1 до 1, где:

  • 1 указывает на идеальную положительную линейную корреляцию, а это означает, что по мере увеличения одной переменной другая переменная также увеличивается пропорционально.
  • -1 указывает на идеальную отрицательную линейную корреляцию, а это означает, что по мере увеличения одной переменной другая пропорционально уменьшается.
  • 0 указывает на отсутствие линейной корреляции, подразумевая, что между двумя переменными нет систематической связи.

Предположения:

  1. Обе переменные являются количественными.
  2. Переменные нормально распределены
  3. Данные не имеют выбросов
  4. Связь линейная

Коэффициент ранговой корреляции Спирмена

Коэффициент ранговой корреляции Спирмена используется, когда предположения о коэффициенте корреляции Пирсона не выполняются. В то время как коэффициент Пирсона оценивает линейные зависимости, коэффициент Спирмена оценивает монотонные зависимости, независимо от их линейности.

Коэффициент Спирмена более уместен, когда:

  1. Переменные являются порядковыми.
  2. Переменные не подчиняются нормальному распределению.
  3. В данных присутствуют выбросы.
  4. Связь между переменными монотонна, независимо от того, линейная она или нелинейная.

Монотонная связь означает, что при изменении одной переменной другая переменная последовательно изменяется в том же направлении, хотя скорость изменения не обязательно должна быть одинаковой для обеих переменных.

Регрессивный анализ

У нас будет краткое описание двух типов регрессии: линейной и логистической.

Линейная регрессия

Цель линейной регрессии — найти наиболее подходящую линию, которая представляет связь между независимой переменной (переменными) и зависимой переменной.

Предположения для линейной регрессии:

  1. Ошибки прогнозирования сохраняют относительно постоянный размер при разных значениях независимой переменной. (Однородность дисперсии)
  2. Каждая точка данных независима от других, что гарантирует, что значение одной точки данных не влияет на значение другой. (Независимость наблюдений)
  3. Данные соответствуют нормальному распределению, что помогает сделать точные статистические выводы.
  4. Линейная связь между независимыми и зависимыми переменными.

Для простой простой линейной регрессии это помогает определить силу связи между двумя переменными и прогнозируемое значение зависимой переменной при определенном значении независимой переменной. Хотя вы можете использовать множественную линейную регрессию, если хотите узнать, насколько сильна связь между двумя или более независимыми переменными и одной зависимой переменной и значением зависимой переменной при определенном значении независимых переменных.

Логистическая регрессия

Логистическая регрессия анализирует влияние нескольких независимых переменных на прогнозирование результата бинарной зависимой категориальной переменной. Вероятность (p) успеха и ее аналог неудачи (1−p) имеют решающее значение. Шансы и логарифмы шансов, которые используются для расширения диапазона модели, дают ценную информацию об этой взаимосвязи.

Шансы представляют собой вероятность успеха (один из бинарных результатов), а логарифм шансов (также известный как логит) используется для моделирования взаимосвязи с независимыми переменными. Затем логистическая функция применяется к логарифмическим шансам, чтобы сопоставить их с диапазоном вероятностей от 0 до 1.

Допустим, вероятность успеха p=0,8, тогда

  • Вероятность неудачи равна 1−p = 0,2.
  • Шансы на успех составляют p/(1−p) = 0,8/(1−0,8) = 4 (т. е. шансы на успех составляют 4 к 1).
  • Вероятность неудачи составляет 0,25 к 1.

Обратите внимание, что: Вероятность варьируется от [0,1], диапазон шансов: [0, ∞[ и LogДиапазон шансов: ]−∞,∞[. Вот почему журнал шансов используется, чтобы избежать моделирования переменной с ограниченным диапазоном, такой как вероятность.

Предположения для логистической регрессии:

  1. Логистическая регрессия не предполагает линейной связи между зависимыми и независимыми переменными.
  2. Зависимая переменная должна представлять собой дихотомию.
  3. Независимые переменные не обязательно должны быть интервальными, нормально распределенными, линейно связанными или иметь одинаковую дисперсию внутри каждой группы. (Имейте в виду, что хотя эти предположения не являются необходимыми для логистической регрессии, их нарушение все равно может повлиять на производительность или интерпретацию модели)
  4. Категории зависимой переменной должны быть взаимоисключающими (случай может принадлежать только одной категории) и исчерпывающими (каждый случай должен принадлежать к одной из категорий).
  5. Отсутствие сильно влиятельных выбросов

Дисперсионный анализ

ANOVA означает дисперсионный анализ и представляет собой статистический метод, используемый для сравнения средних значений двух или более групп. Это особенно полезно, когда вы хотите определить, являются ли наблюдаемые различия между групповыми средними существенными или они просто обусловлены случайными вариациями.

Предположения:

  1. Независимость наблюдений
  2. Нормально распределенная зависимая переменная
  3. Однородность дисперсии

Односторонний дисперсионный анализ

Используется, когда у вас есть одна категориальная независимая переменная и одна непрерывная зависимая переменная. Независимая переменная должна иметь не менее трех уровней (категорий).

Нулевая гипотеза (Hₒ) здесь заключается в том, что между средними группами нет разницы. Альтернативная гипотеза (Hₐ) заключается в том, что по крайней мере одна группа значительно отличается от общего среднего значения зависимой переменной.

Он определяет, различаются ли категории независимой переменной статистически, путем расчета, отличаются ли средние значения уровней от общего среднего значения зависимой переменной. Если какое-либо среднее значение группы значительно отличается от общего среднего, то нулевая гипотеза отклоняется.

Двусторонний дисперсионный анализ

Используется, когда вы хотите узнать, как две независимые переменные вместе влияют на зависимую переменную.

Двусторонний дисперсионный анализ с взаимодействием проверяет три нулевые гипотезы одновременно:

  • Нет никакой разницы в групповых средних значениях ни на одном уровне первой независимой переменной.
  • Нет никакой разницы в групповых средних значениях ни на одном уровне второй независимой переменной.
  • Эффект одной независимой переменной не зависит от эффекта другой независимой переменной (т. е. отсутствие эффекта взаимодействия). Другими словами, он проверяет, является ли эффект одной независимой переменной согласованным на уровнях другой независимой переменной.

Тест хи-квадрат

Критерий хи-квадрат Пирсона оценивает различия между ожидаемыми и наблюдаемыми распределениями данных. Он бывает двух форм:

  • Критерий согласия по хи-квадрату. Он сравнивает наблюдаемые и ожидаемые частоты категориальной переменной. Это особенно полезно, когда вы хотите определить, соответствуют ли наблюдаемые данные определенному теоретическому распределению.
  • Тест независимости хи-квадрат. Этот тест помогает нам понять, связаны ли изменения одной переменной с изменениями другой переменной. Обычно он применяется к двоичным или номинальным переменным, а иногда и к порядковым переменным с небольшим количеством групп.

Предположения:

  1. Этот тест подходит для категориальных переменных, которые могут быть двоичными, номинальными или порядковыми.
  2. Наблюдения должны быть независимыми, и категория одного наблюдения не должна влиять на категорию другого.
  3. Выборку следует выбирать случайным образом из интересующей популяции.
  4. Ожидаемая частота в каждой категории должна составлять не менее 5, чтобы обеспечить валидность теста.

Крамера V

V Крамера — это мера связи, основанная на коэффициенте критерия Хи-квадрат. Он оценивает силу связи между двумя номинальными переменными. В диапазоне от 0 до 1 (включительно):

  • Значение 0 означает отсутствие заметной связи между двумя переменными.
  • Значение 1 указывает на идеальную связь, при которой две переменные полностью связаны.

Коэффициент Фи

Коэффициент Фи, также известный как коэффициент корреляции Мэтьюза (MCC), измеряет связь между двумя дихотомическими (бинарными) переменными. Оно находится в диапазоне от -1 до +1:

  • +1 и -1 обозначают полное согласие или несогласие между переменными.
  • 0 предполагает отсутствие заметной связи между переменными.

MCC применим при рассмотрении двух бинарных результатов, а также обобщается для ситуаций с несколькими классами с использованием статистики Rₖ. В случае нескольких классов MCC может не находиться в диапазоне от -1 до +1; вместо этого минимальное значение находится в диапазоне от -1 до 0, а максимальное значение равно +1 на основе истинного распределения.

Тест Крускала-Уоллиса

Тест Крускала-Уоллиса, непараметрическая альтернатива однофакторному дисперсионному анализу, оценивает различия в медианах между несколькими группами. Он не предполагает конкретных дистрибутивов.

Предположения включают в себя:

  • Одна независимая переменная с несколькими уровнями.
  • Независимые наблюдения.
  • Сопоставимые формы распределения между группами.

Тест проверяет, существует ли значительная разница между медианами групп, а апостериорные тесты могут дополнительно уточнить различия между отдельными группами.

Заключение

Освоив эти статистические методы, вы получили комплексный набор инструментов для анализа взаимосвязей внутри наборов данных. Понимая все эти тесты и то, когда их использовать, вы сможете раскрыть скрытую информацию и принять обоснованные решения на основе шаблонов данных. Помните, что выбор метода зависит от характеристик данных и предположений, что обеспечивает точный и содержательный анализ.