Почему проверка гипотез важна в анализе данных?

Проверка гипотез — это статистический инструмент, который помогает нам решить, подтверждают ли собранные нами данные определенную идею или предположение, которое у нас есть о популяции. Это позволяет нам делать заявления о вероятности того, что наше предположение верно на основе имеющихся у нас данных.

Другими словами, это как играть в детектива с данными. У нас есть гипотеза, похожая на догадку или предположение о населении, и мы собираем данные, чтобы выяснить, подтверждается ли наша догадка фактами. Проверка гипотезы помогает нам определить, достаточно ли убедительны собранные нами доказательства, чтобы подтвердить нашу догадку, или это просто случайность.

Нулевая и альтернативная гипотеза

Нулевая гипотеза (H0) — это утверждение, в котором предполагается, что между переменными нет существенного влияния, взаимосвязи или разницы. Он представляет собой допущение «по умолчанию» или «базовый уровень», предполагая, что любые наблюдаемые различия или взаимосвязи в данных обусловлены случайностью или изменчивостью выборки.

Реальный пример нулевой гипотезы может быть в исследовании, изучающем, влияет ли новый препарат на потерю веса. Нулевая гипотеза (H0) будет утверждать, что нет существенной разницы в потере веса между группой, получающей новое лекарство, и группой, получающей плацебо, и любые наблюдаемые различия обусловлены случайностью.

С другой стороны, альтернативная гипотеза (Ha) — это утверждение, которое противоречит нулевой гипотезе или оспаривает ее. Это предполагает, что существует значительный эффект, связь или разница между переменными и что наблюдаемые результаты не являются случайными.

В том же примере исследования потери веса альтернативная гипотеза (Ha) будет утверждать, что существует значительная разница в потере веса между группой, получающей новое лекарство, и группой, получающей плацебо, и что эта разница не является случайной. .

Важно отметить, что отказ от отклонения нулевой гипотезы не доказывает, что она верна, а скорее свидетельствует о том, что для ее отклонения недостаточно доказательств.

Уровень значимости

Уровень значимости, обычно принимаемый равным 0,05 или 0,01, определяется как вероятность отклонения нулевой гипотезы, даже если она верна.

Например, из 100 раз нулевая гипотеза будет отвергнута как минимум 5 раз, даже если она будет верной.

Проверка гипотез Примеры из реальной жизни

Предположим, компания оценивает влияние новой программы обучения на продуктивность своих сотрудников. Компания имеет данные о средней производительности своих сотрудников до внедрения программы обучения. Средняя производительность составила 50 единиц в день при известном стандартном отклонении популяции в 5 единиц. После внедрения программы обучения компания измеряет производительность случайной выборки из 30 сотрудников. Образец имеет среднюю производительность 53 единицы в сутки. Компания хочет знать, значительно ли повысила производительность новая программа обучения.

На основе предоставленной информации мы можем выполнить односторонний z-тест, чтобы определить, значительно ли увеличила производительность новая программа обучения по сравнению с предыдущей средней производительностью в 50 единиц в день.

Вот структурированный ответ вместе с кодом Python для построения доверительного интервала:

  1. Укажите нулевую гипотезу (H0) и альтернативную гипотезу (Ha): Нулевая гипотеза (H0): новая программа обучения не оказывает существенного влияния на производительность. (µ = 50) Альтернативная гипотеза (Ha): Новая программа обучения повысила производительность. (µ › 50)
  2. Установите уровень значимости (альфа): предположим, что уровень значимости равен 0,05, что является обычным выбором при проверке гипотез.
  3. Рассчитать статистику теста (z-показатель). Статистику теста (z-показатель) можно рассчитать по формуле:
  4. z = (x̄ — µ) / (σ / sqrt(n))
    где: x̄ = среднее значение выборки (53 единицы в день)
    µ = среднее значение популяции при нулевой гипотезе (50 единиц в день)
    σ = стандартное отклонение генеральной совокупности (5 единиц)
    n = объем выборки (30 сотрудников)
  5. Определить критическое значение (z-критическое). Критическое значение (z-критическое) можно найти с помощью уровня значимости (альфа) и z-таблицы или с помощью функции scipy.stats.norm.ppf() в Python.
  6. Сравните тестовую статистику с критическим значением. Если тестовая статистика (z-значение) больше критического значения (z-критическое), мы можем отклонить нулевую гипотезу и сделать вывод, что новая программа обучения значительно увеличил производительность.

Вот код Python для выполнения одностороннего z-теста и построения доверительного интервала:

import scipy.stats as stats

# Given data
sample_mean = 53
population_mean = 50
population_std = 5
sample_size = 30
significance_level = 0.05

# Calculate the z-score
z_score = (sample_mean - population_mean) / (population_std / (sample_size**0.5))

# Find the critical value (z-critical)
z_critical = stats.norm.ppf(1 - significance_level)

print(f'Z Score is {z_score} and Z critical value is {z_critical}')

# Compare the test statistic with the critical value
if z_score > z_critical:
    print("Reject the null hypothesis. The new training program has significantly increased productivity.")
else:
    print("Fail to reject the null hypothesis. There is no significant evidence to conclude that the new training program has increased productivity.")

Вывод основан на заданных значениях параметров:

Показатель Z равен 3,2863353450309964, а критическое значение Z равно 1,6448536269514722.

Отклонить нулевую гипотезу. Новая программа обучения значительно повысила продуктивность.

Предположим, что производитель закусок утверждает, что средний вес пакетов для вафель Lays составляет 50 граммов. Чтобы проверить это утверждение, организация по надзору за потребителями решает протестировать случайную выборку вафельных пакетов Lays. Организация хочет определить, существенно ли отличается фактический средний вес от заявленных 50 граммов. Организация собирает случайную выборку из 40 вафельных пакетов Lays и измеряет их вес. Они обнаружили, что средний вес образца составляет 49 граммов, а известное стандартное отклонение генеральной совокупности составляет 4 грамма.

Чтобы выполнить двусторонний z-тест, чтобы определить, значительно ли фактический средний вес пакетов вафель Lays отличается от заявленного веса в 50 граммов, вы можете использовать следующие шаги:

  1. Установите нулевую гипотезу (H0) и альтернативную гипотезу (Ha): Нулевая гипотеза (H0): фактический средний вес пакетов вафель Lays равен заявленному весу в 50 граммов. (µ = 50) Альтернативная гипотеза (Ha): Фактический средний вес пакетов вафель Lays значительно отличается от заявленного веса в 50 граммов. (мк ≠ 50)
  2. Рассчитать статистику теста (z-показатель). Статистика теста (z-показатель) рассчитывается по формуле:
    z = (sample_mean – население_среднее) / (population_std / (sample_size** 0,5))
  3. Определите критическое значение (z-критическое). Критическое значение (z-критическое) — это значение, которое отделяет область отклонения от области отсутствия отклонения. Для двустороннего теста при заданном уровне значимости (например, 0,05) критическое значение получается из стандартного нормального распределения (z-распределения) с использованием процентильной функции (например, stats.norm.ppf()) со значимостью уровень, разделенный на 2, чтобы учесть два хвоста.
  4. Сравнить тестовую статистику с критическим значением: сравнить абсолютное значение тестовой статистики (z-оценка) с абсолютным значением критического значения (z-критическое). Если абсолютное значение тестовой статистики больше, чем абсолютное значение критического значения, нулевая гипотеза отклоняется; в противном случае не отвергнуть нулевую гипотезу.

Вот код Python для выполнения двустороннего z-теста:

import scipy.stats as stats

# Given data
sample_mean = 49
population_mean = 50
population_std = 4
sample_size = 40
significance_level = 0.05

# Calculate the z-score
z_score = (sample_mean - population_mean) / (population_std / (sample_size**0.5))

# Find the critical value (z-critical)
z_critical = stats.norm.ppf(1 - significance_level/2)

print(f'Z Score is {z_score} and Z critical value is {z_critical}')

# Compare the absolute value of the test statistic with the absolute value of the critical value
if abs(z_score) > abs(z_critical):
    print("Reject the null hypothesis. The actual average weight of Lays wafer packets differs significantly from the claimed weight of 50 grams.")
else:
    print("Fail to reject the null hypothesis. There is no significant evidence to conclude that the actual average weight of Lays wafer packets differs significantly from the claimed weight of 50 grams.")

Результат:

Показатель Z составляет -1,5811388300841895, а критическое значение Z составляет 1,959963984540054.

Не удалось отвергнуть нулевую гипотезу. Нет существенных доказательств того, что фактический средний вес вафельных пакетов Lays значительно отличается от заявленного веса в 50 граммов.

Область отклонения

Область отклонения, также известная как критическая область, представляет собой диапазон значений тестовой статистики, который приводит к отклонению нулевой гипотезы в проверке гипотезы. Он определяется на основе выбранного уровня значимости или альфа (α), который представляет вероятность совершения ошибки типа I, т. е. отклонения истинной нулевой гипотезы.

Область отклонения определяется критическим значением (значениями), которое определяется на основе желаемого уровня значимости (α) для теста. Например, если уровень значимости установлен на уровне 0,05 (5%), область отбраковки будет крайними 5% распределения (2,5% в каждом хвосте для двустороннего теста). Если тестовая статистика попадает в эту область отклонения, мы отклоняем нулевую гипотезу в пользу альтернативной гипотезы, указывая на то, что имеется достаточно доказательств, подтверждающих утверждение, сделанное в альтернативной гипотезе.

Проблема с подходом к области отклонения

На проблему указывает чувствительность области отбраковки, если предположить, что значение значимости задано как 0,05, это означает, что создается неотбраковочная область с критическим значением Z в диапазоне от -1,96 до 1,96, что означает, что если статистика Z значение находится между -1,96 и 1,96, тогда мы примем нулевую гипотезу в качестве статистического значения теста в области отсутствия отклонения.

Итак, проблема в том, что если предположим, что статистическое значение нашего Z-теста окажется равным 1,97, тогда мы должны отклонить нулевую гипотезу, что означает, что только разница в 0,01 меняет решение. Предположим, что значение тестовой статистики было бы 1,95, тогда нам пришлось бы принять нулевую гипотезу.

Короче говоря, этот метод не сможет различить, приходит ли значение статистики Z к 2 или 15 или к чему-то еще, он может просто сразу отвергнуть нулевую гипотезу.

Подход с использованием p-значения обеспечивает непрерывную оценку достоверности доказательств против нулевой гипотезы, что позволяет более тонко интерпретировать результаты.

Ошибка первого и второго рода.

Ошибки типа 1 и типа 2 — это два типа ошибок, которые могут возникнуть при проверке гипотез:

  1. Ошибка типа 1 (ложноположительный результат). Ошибка типа 1 возникает, когда нулевая гипотеза отвергается, хотя на самом деле она верна. Другими словами, это неправильное отклонение истинной нулевой гипотезы. Уровень значимости (альфа) проверки гипотезы представляет собой вероятность совершения ошибки первого рода. Более низкий уровень значимости (например, альфа = 0,05) означает более низкую вероятность совершения ошибки первого рода.
  2. Ошибка типа 2 (ложноотрицательный результат). Ошибка типа 2 возникает, когда нулевая гипотеза не отвергается, хотя на самом деле она ложна. Другими словами, это неспособность отвергнуть ложную нулевую гипотезу. Вероятность совершения ошибки 2-го рода обозначается бета. Мощность теста, равная 1 — бета, представляет собой вероятность правильного отклонения ложной нулевой гипотезы. Более высокая мощность означает более низкую вероятность совершения ошибки типа 2.

Чтобы проиллюстрировать эти ошибки в контексте реального примера, давайте рассмотрим медицинский тест на заболевание. Предположим, нулевая гипотеза состоит в том, что у пациента нет заболевания, а альтернативная гипотеза состоит в том, что у пациента есть заболевание.

  • Ошибка типа 1 (ложноположительный результат): если медицинский тест неверно указывает на то, что у пациента есть заболевание (отвергает нулевую гипотезу), хотя на самом деле у него нет заболевания (нулевая гипотеза верна), будет ошибкой первого рода. Это может привести к ненужному медицинскому лечению, стрессу и расходам для пациента.
  • Ошибка 2-го типа (ложноотрицательный): если медицинский тест не может выявить заболевание (не опровергает нулевую гипотезу), когда у пациента действительно есть заболевание (альтернативная гипотеза верна), это будет Ошибка 2 типа. Это может привести к задержке диагностики и лечения, что может привести к серьезным последствиям для здоровья пациента.

Важно тщательно рассмотреть последствия ошибок типа 1 и типа 2 в контексте проверки конкретной гипотезы и выбрать соответствующий уровень значимости (альфа) и размер выборки, чтобы сбалансировать риски этих ошибок на основе вопроса исследования и практических последствий. изучение.

В контексте уголовного правосудия ошибки типа 1 и типа 2 можно проиллюстрировать на примере потерпевшего, ошибочно признанного виновным в уголовном расследовании.

  1. Ошибка типа 1 (ложноположительный результат). В этом случае ошибка типа 1 возникает, если следователи ошибочно определяют невиновную жертву как виновную (отвергая нулевую гипотезу), что приводит к их неправомерному осуждению. Это может произойти из-за различных факторов, таких как неверная идентификация свидетелей, ложные признания или ошибочные судебно-медицинские доказательства. Последствием ошибки типа 1 в этом случае будет судебная ошибка, когда невиновный человек будет осужден и наказан за преступление, которого он не совершал.
  2. Ошибка 2-го типа (ложноотрицательный). С другой стороны, ошибка 2-го типа возникает, если виновный преступник ошибочно идентифицируется следователями как невиновный (не отвергает нулевую гипотезу), что приводит к их неправомерный оправдательный приговор. Это может произойти из-за отсутствия доказательств, процессуальных ошибок или других факторов, которые приводят к невозможности осудить фактического преступника. Последствием ошибки 2-го типа в этом случае будет неспособность привлечь к ответственности истинного преступника, что может привести к тому, что он будет свободен для совершения новых преступлений.

Ошибки как 1-го, так и 2-го типа в этом сценарии имеют серьезные последствия, поскольку они могут привести к неправомерным осуждениям или неправомерным оправданиям, что приведет к судебной ошибке и повлияет на жизнь жертвы, ошибочно обвиненного и общества в целом. В нем подчеркивается важность тщательного и тщательного расследования, сбора доказательств и анализа в системе уголовного правосудия для сведения к минимуму рисков этих ошибок и обеспечения честного и справедливого результата.

Односторонний и двусторонний тест

Односторонний (односторонний) тест. Односторонний тест используется, когда исследователь заинтересован в проверке эффекта в определенном направлении (больше или меньше значения, указанного в нулевом поле). гипотеза). Альтернативная гипотеза в одностороннем тесте содержит неравенство (либо «›», либо «‹»).

Пример. Исследователь хочет проверить, увеличивает ли новое лекарство среднюю скорость выздоровления по сравнению с существующим лекарством.

Двусторонний (двухсторонний) тест: двусторонний тест используется, когда исследователь заинтересован в проверке эффекта в обоих направлениях (т. е. отличается ли значение, указанное в нулевой гипотезе, либо больше, либо меньше). Альтернативная гипотеза в двустороннем тесте содержит знак «не равно» (≠).

Пример. Исследователь хочет проверить, отличается ли средняя скорость выздоровления нового лекарства от уже существующего лекарства.

Преимущества недостатки

Двусторонний тест (двусторонний):

Преимущества:

  1. Обнаруживает эффекты в обоих направлениях. Двусторонние тесты могут обнаруживать эффекты в обоих направлениях, что делает их подходящими для ситуаций, когда направление эффекта неизвестно или когда исследователи хотят проверить любые различия между группами. или переменные.
  2. Более консервативный: двусторонний тест более консервативен, поскольку уровень значимости (α) разделен между обоими хвостами распределения. Это снижает риск ошибок типа I в случаях, когда направление эффекта неясно.

Недостатки:

  1. Менее эффективны: двусторонние тесты, как правило, менее эффективны, чем односторонние, поскольку уровень значимости (α) делится между обоими хвостами распределения. Это означает, что тест требует большего размера эффекта для отклонения нулевой гипотезы, что может привести к более высокому риску ошибок типа II (неспособность отклонить нулевую гипотезу, когда она ложна).
  2. Не подходит для направленных гипотез. Двусторонние тесты не идеальны для случаев, когда исследовательский вопрос или гипотеза являются направленными, поскольку они проверяют различия в обоих направлениях, которые могут не представлять интереса или не иметь значения.

Односторонний тест (односторонний):

Преимущества:

  1. Более мощный: односторонние тесты, как правило, более эффективны, чем двусторонние, поскольку весь уровень значимости (α) относится к одному хвосту распределения. Это означает, что тест с большей вероятностью обнаружит эффект в указанном направлении, если предположить, что эффект существует.
  2. Направленная гипотеза. Односторонние тесты подходят, когда есть веская теоретическая или практическая причина для проверки эффекта в определенном направлении.

Недостатки:

  1. Пропущенные эффекты. Односторонние тесты могут пропускать эффекты, противоположные заданной альтернативной гипотезе. Если эффект существует в противоположном направлении, тест не сможет его обнаружить, что может привести к неверным выводам.
  2. Повышенный риск ошибки типа I. Односторонние тесты могут быть более склонны к ошибкам типа I, если эффект на самом деле имеет противоположное направление, чем указанное в альтернативной гипотезе.

Где можно применить проверку гипотез?

  1. Проверка эффективности вмешательств или методов лечения. Проверка гипотезы может использоваться для определения того, оказывает ли новый препарат, терапия или образовательное вмешательство значительный эффект по сравнению с контрольной группой или существующим лечением.
  2. Сравнение средних или пропорций. Проверка гипотезы может использоваться для сравнения средних или пропорций между двумя или более группами, чтобы определить, есть ли существенная разница. Это можно применять для сравнения средних показателей удовлетворенности клиентов, коэффициентов конверсии или производительности сотрудников в разных группах.
  3. Анализ взаимосвязей между переменными. Проверка гипотез может использоваться для оценки взаимосвязи между переменными, например корреляции между возрастом и доходом или взаимосвязи между расходами на рекламу и продажами.
  4. Проверка независимости категориальных переменных. Проверка гипотез может использоваться для определения того, являются ли две категориальные переменные независимыми или между ними существует значительная связь. Например, его можно использовать для проверки наличия связи между типом продукта и вероятностью его возврата покупателем.
  5. A/B-тестирование. В маркетинге, разработке продуктов и дизайне веб-сайтов проверка гипотез часто используется для сравнения производительности двух разных версий (A и B), чтобы определить, какая из них более эффективна с точки зрения коэффициенты конверсии, вовлеченность пользователей или другие показатели.

В заключение, проверка гипотез является фундаментальным статистическим инструментом, используемым для принятия обоснованных решений и выводов о параметрах населения на основе выборочных данных. Это помогает исследователям и аналитикам оценить обоснованность утверждения или гипотезы, оценивая доказательства в данных. Благодаря формулированию нулевой и альтернативной гипотез, выбору подходящей тестовой статистики, определению уровня значимости и вычислению p-значений проверка гипотез позволяет делать объективные и систематические выводы в статистическом анализе. В различных областях, таких как наука, медицина, бизнес и социальные науки, крайне важно поддерживать принятие решений, проверять теории и делать значимые выводы на основе данных.