Проверка гипотез является квинтэссенцией статистического вывода в контексте науки о данных.

В предыдущей статье мы говорили об оценке параметра совокупности, такого как среднее значение или дисперсия, и рассмотрели некоторые методы для достижения этой цели. Оценка параметра является одним из фундаментальных компонентов статистического вывода. Другой компонент проверяет гипотезу об этих параметрах. В этой статье я дам вам краткое введение в основы проверки гипотез.

Философское обоснование

Большая часть философского обоснования дальнейшего использования статистической проверки гипотез, по-видимому, основана на предложениях Поппера о проверке гипотез на фальсификацию. Утверждается, что «Поппер предоставил философию, а Фишер, Пирсон и их коллеги предоставили статистику».

Классическая статистическая проверка гипотез

Классическая проверка гипотез основывается на двух основных концепциях. Во-первых, статистическая нулевая гипотеза (H0), которая обычно (хотя и не обязательно) является гипотезой об отсутствии различий или взаимосвязи между параметрами совокупности, например, об отсутствии различий между средними значениями двух совокупностей. Разницу обычно называют отсутствием эффекта. Таким образом, нулевая гипотеза вращается вокруг отношения отсутствия эффекта. Это происходит главным образом потому, что наука прогрессирует, строго проверяя и фальсифицируя гипотезы. Это просто указывает на то, что отказ от проверки гипотезы обеспечивает поддержку/подтверждение альтернативной или исследовательской гипотезы. Однако некоторые утверждают, что отклонение нулевой гипотезы не дает истинных подтверждений и статистических тестов, как это практикуется в настоящее время.

Во-вторых, мы должны выбрать тестовую статистику для проверки нулевой гипотезы. Статистика теста является случайной величиной и поэтому имеет распределение вероятностей. Наиболее распространенной статистикой является среднее значение выборки или среднее значение наблюдений. При нулевой гипотезе распределение выборки представляет собой распределение вероятностей тестовой статистики при повторной выборке из населения.

Базовая проверка гипотез

Базовая проверка гипотез, предложенная сэром Рональдом Фишером, включает только нулевую гипотезу и состоит из следующих шагов:

  • Построить нулевую гипотезу (H0).
  • Выберите тестовую статистику, которая измеряет отклонение от нулевой гипотезы и имеет известное распределение выборки.
  • Соберите один или несколько данных из выборочного распределения из совокупности и сравните значение тестовой статистики из вашей выборки (выборок) с ее выборочным распределением.
  • Определите P-значение, которое представляет собой вероятность получения наблюдаемого значения или еще одного экстремального значения, если H0 верно.
  • Отклоните H0, если P-значение мало, и сохраните, если оно достаточно велико.

P-значение обычно указывается в качестве доказательства против H0. Фишер также предложил условную вероятность отклонения H0: это называется уровнем значимости. Он предложил вероятность один к двадцати (0,05 или 5%) в качестве удобного уровня, а публикация таблиц распределения выборки для различных статистических данных усилила это, включив только вероятности хвоста за пределами этих обычных уровней (например, 0,05, 0,01, 0,001).

Современная проверка гипотез

Уровень значимости интерпретируется как доля случаев, когда H0 было бы ошибочно отвергнуто при использовании этого решающего правила, если бы эксперимент повторялся много раз и H0 действительно был верным.

Основное различие между традиционной проверкой гипотез, предложенной Фишером, и современным аналогом, предложенным подходами Неймана и Пирсона, заключалось в том, что Нейман и Пирсон явно включили альтернативную гипотезу (HA). HA — это еще одна гипотеза, которая должна быть верной, если нулевая гипотеза ложна. Например, если H0 состоит в том, что два средних значения совокупности равны, то HA состоит в том, что они отличаются на некоторую величину. Напротив, Фишер решительно выступал против идеи HA в тестировании значимости.

Проверка гипотезы Неймана и Пирсона ввела понятие ошибки типа I, долгосрочной вероятности отклонения H0, когда она на самом деле верна и обозначается alpha,, и ошибки типа II, долгосрочной вероятности не отвергнуть H0, когда она на самом деле ложна. который обозначается beta.

Повторим еще раз: интерпретации классических статистических тестов основаны на долгосрочной частотной интерпретации вероятностей, т. е. вероятности в долгосрочной перспективе идентичных «испытаний» или «экспериментов». Это означает, что у нас есть одна или несколько четко определенных совокупностей, из которых мы делаем выборку и для которых должны быть сделаны выводы. Если нет поддающейся определению генеральной совокупности, из которой собираются случайные выборки, обсуждаемые здесь статистические выводы труднее интерпретировать, поскольку они основаны на долговременных частотах повторяющихся выборок. Тесты рандомизации (раздел 3.3.2), которые не требуют случайной выборки из населения, могут быть более применимыми.

Связанная вероятность и ошибка первого рода

Значение P может быть выражено как P(данные|H0), вероятность наблюдения наших выборочных данных или более экстремальных данных при повторных идентичных экспериментах, если H0 верно. . Это не то же самое, что вероятность того, что H0 верна, учитывая наблюдаемые данные — P(H0|данные). Если мы хотим узнать вероятность того, что H0 истинна, нам нужно заняться проверкой гипотезы с байесовской точки зрения.

Проверка гипотез для одной популяции

Тест одиночной популяции касается проверки гипотезы об отдельных параметрах популяции или о разнице между двумя параметрами популяции, если выполняется определенное предположение о переменной. Иногда имеет значение проверка H0 на то, что среднее значение равно нулю, например, среднее изменение до и после лечения равно нулю, а также проверка того, равны ли нулю другие параметры. С этой целью мы обычно используем t-статистику, которая имеет общий вид:

где St — значение статистики из нашей выборки, \theta — значение генеральной совокупности, по отношению к которой должна быть проверена статистика выборки, как указано в H0, а S_st — расчетная стандартная ошибка статистики выборки. Вот простой пример:

  • Укажите H0 (например, среднее=0) и HA (например, среднее не равно 0)
  • Возьмите случайную выборку из четко определенной совокупности
  • Рассчитайте t = (y-0)/sy из выборки, где sy — расчетная стандартная ошибка выборочного среднего. Обратите внимание, что если H0 истинно, мы ожидаем, что t будет близко к нулю, т. е. когда мы выбираем из совокупности со средним значением, равным нулю, большинство выборок будут иметь средние значения, близкие к нулю. Выборочные средние значения, расположенные дальше от нуля, менее вероятны, если H0 истинно.
  • Сравните tс выборочным распределением tпри 0,05 (или 0,01, или любой другой уровень значимости, который вы выберете априори) с n -1 дф. Это значение t иногда называют критическим значением. Если вероятность (значение P) получения нашего выборочного значения t или большего меньше 0,05 (наше ), то мы отвергаем H0.

Если мы сравним нашу t-статистику с критическим значением на обоих концах распределения выборки, то это называется двухсторонним тестом, в противном случае он называется односторонним тестом.

Проверка гипотезы для одного значения эквивалентна проверке того, перекрывается ли доверительный интервал (с заданным уровнем значимости) с нулевым значением.

Проверка гипотез для двух популяций

Имеются тесты на эквивалентный параметр в двух популяциях. Если у нас есть две случайные выборки из каждой из двух независимых популяций, то есть популяции представляют собой разные наборы наблюдений. Например, для H0, что означает1=среднее2 (сравнение двух независимых средних совокупностей):

где смешанное стандартное отклонение равно

Если у нас есть два набора наблюдений, сопряженных друг с другом (парные выборки), то мы фактически имеем дело с проверкой одной гипотезы.

Критические предположения

Все статистические тесты имеют некоторые предположения, и если эти предположения не выполняются, проверка гипотезы ненадежна.

Первое предположение состоит в том, что выборки взяты из нормально распределенных популяций. Тем не менее, в исследованиях с моделированием есть разумные доказательства того, что тесты значимости, основанные на тесте t, обычно устойчивы к нарушениям этого предположения, если только распределения не являются очень несимметричными, например. асимметричный или мультимодальный. Преобразование переменной в другую шкалу измерения часто может улучшить ее нормальность.

Второе предположение состоит в том, что выборки взяты из совокупности с равной дисперсией. Опять же, данные показывают, что t-критерий достаточно надежен, чтобы нарушить это предположение.

Статистическую проверку гипотез следует использовать с осторожностью, предпочтительно в ситуациях, когда учитываются мощность и величина эффекта.

Тесты рандомизации (перестановки)

Эти тесты много раз передискретизируют и перетасовывают исходные данные, чтобы напрямую сгенерировать выборочное распределение тестовой статистики. Общие этапы проведения теста рандомизации следующие:

  • Вычислить разницу между средними значениями двух выборок
  • Случайным образом нарисуйте n1 количество наблюдений и обозначьте их как выборки 1, а остальные — как выборки 2.
  • Повторите второй шаг большое количество раз, каждый раз вычисляя средние разности, назовите их Di.
  • Рассчитайте долю всех значений D, которые больше или равны D0 (разница между средними значениями в наших выборках). Это «значение P », и его можно сравнить с априорным уровнем значимости (например, 0,05), чтобы решить, отклонять ли H0 или нет (традиция Неймана-Пирсона). ), или используется в качестве меры «силы доказательства» против H0.

Основополагающий принцип тестов рандомизации заключается в том, что если нулевая гипотеза верна, то в равной степени возможно любое случайное распределение наблюдений по группам.

Множественное тестирование

В множественном тестировании, как следует из его названия, есть множественные сравнения. Проблема с множественным тестированием заключается в том, что по мере увеличения количества тестов увеличивается вероятность того, что хотя бы одна ошибка типа I среди набора тестов также увеличивается. В случае независимого многократного тестирования вероятность ошибки как минимум I рода определяется следующим образом:

где alpha — уровень значимости (например, 0,05) для каждого теста, а c — количество тестов. В таблице ниже показана одна вероятность Типа I.

Другими словами, если вы продолжаете задавать разные вопросы (множественная проверка гипотез), больше шансов сделать вывод о том, что закономерность существует, что может произойти случайно!

Есть несколько подходов, рекомендуемых для контроля воспалительной альфа. Некоторыми предлагаемыми решениями являются процедура Бонферрони, процедура Дуна-Сидака и последовательная процедура Бонферрони.

Критика статистической проверки гипотез

Проверка статистических гипотез подвергается критике со стороны многих статистиков. Первое и основное ограничение проверки гипотезы заключается в том, что она зависит от размера выборки, т. е. при прочих равных условиях большие размеры выборки с большей вероятностью дадут статистически значимый результат, а при очень больших размерах выборки могут быть тривиальные эффекты. значительный результат. По этой причине планирование экспериментов на основе априорных соображений мощности имеет решающее значение. Вместо того, чтобы произвольно выбирать размеры выборки, размер нашей выборки должен основываться на том, что необходимо для обнаружения желаемого эффекта, если он возникает в популяции (группах). Имейте в виду, что интерпретация тестов значимости всегда должна проводиться в сочетании с мерой размера эффекта (например, разница между средними значениями) и некоторой формой доверительного интервала.