Проверка гипотез - важная концепция как в области статистики, так и в области науки о данных. В этом посте мы узнаем всю необходимую информацию, связанную с проверкой гипотез. Быть в курсе.

  1. Что такое проверка гипотез?
  2. Этапы проверки гипотез
  3. Определение нулевой и альтернативной гипотезы
  4. Выбор статистики теста
  5. Принятие решений через P-Value
  6. Заключение о населении
  7. Примеры

Давайте разберемся с каждой из этих концепций подробно.

Что такое проверка гипотез?

Основная цель статистики - проверить гипотезу. Возьмем пример: вы медицинский исследователь и в ходе эксперимента выяснили, что препарат «ABC» очень эффективен при лечении лихорадки. Но чтобы принять это во внимание, вам придется провести этот эксперимент несколько раз (может быть с разными образцами). В противном случае никто не сочтет ваши результаты точными.

Что такое гипотеза?

Гипотеза - это опровергнутое утверждение, которое требует подтверждения, обычно на основе экспериментальных или данных наблюдений, и которое позволяет делать прогнозы относительно будущих наблюдений.

Почему важны гипотезы?

Приведенные ниже причины проливают свет на то, почему гипотезы важны в области статистики.

  • Гипотезы улучшают дизайн эксперимента, критическое мышление и анализ данных.
  • Невозможно провести четкий и содержательный анализ данных без верной гипотезы.
  • Гипотезы превращают расплывчатые идеи или предположения в конкретные и конкретные утверждения.
  • Гипотезы используются для разработки новых и более точных теорий и опровержения плохих теорий.
  • Большинство достижений в науке, технике, медицине и технологиях - это результат проверки гипотез.

Типы гипотез

Гипотезы можно разделить на 2 типа. То есть →

  • Сильная гипотеза
  • Слабая гипотеза

Есть некоторые характеристики сильных гипотез, которые необходимо понять, прежде чем мы классифицируем утверждения или утверждения на сильные или слабые гипотезы.

Характеристики сильной гипотезы →

  • Должно быть ясно
  • Он должен быть конкретным
  • Оно должно быть фальсифицируемым, значит, оно может быть доказано неверным.
  • Хорошая гипотеза основана на предшествующих данных и теории.
  • Хорошая гипотеза приводит к статистической проверке. То есть должен быть способ проверить гипотезу.
  • Это должно быть заявление, а не вопрос.
  • Прогноз о направлении эффекта.
  • Хорошая гипотеза актуальна и для ненаблюдаемых данных.

Теперь, основываясь на приведенной выше информации, давайте классифицируем приведенные ниже утверждения на «сильные», «слабые» или «не гипотезы».

Положение 1 →

Медицинские исследования важны для лечения болезней.

Приведенное выше утверждение верно, но не является гипотезой, поскольку не предоставляет информации о данных, статистике и т. Д.

Положение 2 →

Лекарство действует.

Вышеприведенное утверждение относится к категории «слабых гипотез». Это утверждение может использоваться для опровержения утверждения, но это не четкое и конкретное утверждение, которое можно отнести к категории «Сильная гипотеза».

Положение 3 →

Сдадут ли учащиеся этот экзамен?

Это вопрос, а не заявление. Таким образом, это не гипотеза.

Положение 4 →

Учеба улучшает оценки.

Это гипотеза. Но не все ясно и конкретно. Таким образом, это будет отнесено к категории слабых гипотез.

Положение 5 →

Сочетание самостоятельной работы и группового обучения повысит оценки на выпускных экзаменах как минимум на 10%

Это четкое и конкретное заявление. Это будет категоризовано в сильную гипотезу.

Положение 6 →

Мытье рук в течение 20 секунд снижает распространение болезни.

Это четкое и конкретное утверждение. Это можно проверить. Таким образом, мы обозначим это как сильную гипотезу.

Надеюсь, вы поняли гипотезы и типы гипотез. Пришло время понять, что именно подразумевается под проверкой гипотез?

  • Проверка гипотез - это статистический метод, который используется для принятия статистических решений с использованием экспериментальных данных.
  • Проверка гипотез - это предположение, которое мы делаем о параметре популяции. Это предположение может быть правдой, а может и нет. Проверка гипотез относится к формальным процедурам, используемым статистиками для принятия или отклонения статистических гипотез.
  • Другими словами, мы можем сказать, что проверка гипотез - это не что иное, как проверка обоснованности утверждения.

Примеры: →

(A) Большинство людей получают работу в сети.

P ›0,50…. Использовано ключевое слово "Most", следовательно, это пропорция. Большинство означает, более половины.

(B) Средняя грузоподъемность грузовиков на шоссе составляет 18 000 фунтов.

μ = 18000…. Было дано среднее значение, следовательно, это μ.

(C) Фармацевтическая компания X недавно запустила препарат для выбора пола, в котором утверждается, что в случае употребления женщины имеют 80% шансов родить девочку. Для этой девочки было протестировано 100 пар.

Сформулируем здесь предположение.

«Этот препарат не работает, и вероятность иметь мальчика или девочку составляет 50%».

  • Здесь мы не предполагаем, что препарат работает. Потому что статистикой нельзя доказать, что что-то правильно.
  • Чтобы доказать, что что-то правильно, нам сначала нужно получить обратное от этого, а затем попытаться доказать, что обратное неверно, что в конечном итоге доказывает, что что-то правильно.

Предположим, мы протестировали этот препарат на 2 партиях по 100 пар, и результат ниже:

  • У 52/100 была девочка…. Это очень обычный сценарий
  • 97/100 была девочка…. Это очень необычный сценарий

В первом случае это можно назвать обычным случаем, так как вероятность составляет почти 50%. Но в случае 2, который является очень необычным сценарием, вероятность рождения девочки составляет 97%, что довольно много по сравнению с тем, что мы предполагали. Таким образом, второй случай доказывает ошибочность нашего предположения, и мы можем сказать, что лекарство работает.

Примечание →

Лучший способ определить, верна ли статистическая гипотеза, - это обследовать всю совокупность. Но обследование всего населения часто нецелесообразно. Поэтому исследователи стремятся изучить случайную выборку из населения. Если данные выборки не соответствуют статистической гипотезе, гипотеза отклоняется.

Этапы проверки гипотез

Определение нулевой и альтернативной гипотезы

На этом этапе нам нужно сформулировать две гипотезы из утверждения. Есть два типа статистических гипотез.

  • Нулевая гипотеза / H0
  • Альтернативная гипотеза / H1

Нулевая гипотеза (H0)

  • «Нулевая гипотеза» - это гипотеза о том, что с данными не происходит ничего интересного.
  • «Нулевая гипотеза» - это предположение о популяции, которое необходимо проверить. Пока мы проверяем предположение о параметре популяции, нулевая гипотеза считается верной до тех пор, пока против нее не найдены доказательства.
  • Нулевая гипотеза утверждает, что параметр популяции (μ, P) равен некоторому значению. H0: μ = 5 (или) H0: P = 0,5
  • Обозначается как H0.
  • Мы начинаем с предположения, что H0 истинно, а затем используем доказательства для заключения.

Отклонить H0 → Когда у нас будет достаточно доказательств, чтобы доказать, что H0 ошибочен.

Не удалось отклонить H0 → Когда у нас недостаточно доказательств, чтобы доказать, что H0 ошибается.

Примечание → Вы не можете принять нулевую гипотезу. Вы либо отвергаете его, либо не можете отвергнуть, в зависимости от доказательств.

Альтернативная гипотеза (H1)

  • Это противоположно сделанному предположению, то есть нулевой гипотезе. Он автоматически принимается, когда нулевая гипотеза отклоняется.
  • В исследовании вы указываете «альтернативную гипотезу»
  • Это следует назвать «гипотезой эффекта».
  • В статистическом анализе вы никогда не проверяете альтернативную гипотезу. Вы проверяете только нулевую гипотезу.
  • Обозначается как H1.
  • Альтернативная гипотеза утверждает, что параметр популяции (μ, P) имеет другое значение, чем H0…. H1: μ ≠ 5 (или) H1: P ›0,6
  • Если вы «отвергаете» нулевую гипотезу, это означает, что вы косвенно принимаете альтернативную гипотезу.
  • Если вам не удалось отвергнуть нулевую гипотезу, это означает, что вы не смогли принять альтернативную гипотезу.

Давайте разберемся в двух приведенных выше концепциях с помощью примеров.

  • Медицинское испытание проводится для проверки того, снижает ли новое лекарство холестерин на 25%.

H0: лекарство снижает уровень холестерина на 25%. | Р = 0,25

H1: Лекарства не снижают уровень холестерина на 25%. | P ≠ 0,25

  • Мы хотим проверить, отличается ли средний средний балл студентов американских колледжей от 2,0 (из 4,0).

H0: Средний академический балл студентов американских колледжей составляет 2,0 | μ = 2,0

H1: Средний академический балл студентов американских колледжей не равен 2,0 | μ ≠ 2,0

Выбор статистики теста

  • Статистика теста используется при проверке гипотез, чтобы принять решение: «Нулевая гипотеза» → следует ли отклонить нулевую гипотезу или не отклонить Нулевая гипотеза, основанная на доказательствах.
  • Это число рассчитывается на основе статистической проверки гипотезы. Он показывает, насколько далеко ваши наблюдаемые данные от H0
  • Чтобы определиться с вашей гипотезой, нам нужно рассчитать статистику тестов. Поскольку статистика теста является числом, это может быть p-значение или критическое значение (z-значение, t-значение, F-значение или x²-значение).

p-value Интерпретация

Если вы изучаете статистику, очень важно понимать «p-value». Большинство решений основано на интерпретации p-значения. И, позвольте вам сказать, это самая запутанная тема во всей статистике. Есть много мест, где я видел, как люди неверно цитируют p-значение. Я возьму простой пример, чтобы объяснить вам, что такое p-значение.

Пример подбрасывания монеты → Узнайте, розыгрыш монеты или нет.

H0: Это честная монета.

H1: Это Trick Coin.

Теперь мы определили наши H0 и H1. Следующим шагом будет поэкспериментировать.

  • Давайте в первый раз подбросим монетку и увидим результат. Допустим, у вас получилась сказка с первой попытки.

Основываясь на этом первом результате, следует ли называть это монетой-уловкой? Скорее всего, нет. Поскольку мы считаем верной нулевую гипотезу, которая утверждает, что это честная монета, и если это честная монета, то получение сказки при подбрасывании монеты является случайным. Имея эту ограниченную информацию, мы не можем просто отказаться от H0.

Следовательно, P (1T | H0) = 0,50.

  • Давайте подбросим монетку второй раз и посмотрим на результат. Допустим, у вас получилась сказка со второй попытки.

Можно ли, исходя из первых двух результатов, называть это монеткой-уловкой? Считая H0 истинным, существует 25% -ная вероятность, что это могло произойти из-за случайности. Следовательно, мы не можем отвергнуть нулевую гипотезу.

Следовательно, P (2T | H0) = 0,25

  • Подбросим монетку в третий раз и увидим результат. Допустим, у вас тоже сказка получилась с третьей попытки.

Можно ли, исходя из первых трех результатов, называть это монеткой-уловкой? Если считать, что H0 истинно, вероятность того, что это могло произойти из-за случайности, составляет 12,5%. Мы еще не уверены, что назовем это уловкой.

Следовательно, P (3T | H0) = 0,12

  • Подбросим монетку в четвертый раз и увидим результат. Допустим, у вас тоже сказка с четвертой попытки.

Можно ли, исходя из первых четырех результатов, называть это монеткой-уловкой? Теперь все становится немного подозрительно. Считая H0 истинным, существует только 6% (приблизительно) шанс, что это произошло случайно. Давайте подбросим монетку еще раз, чтобы подтвердить это доказательством.

  • Давайте подбросим монетку в пятый раз и увидим результат. Допустим, у вас тоже сказка с пятой попытки.

Следовательно, P (4T | H0) = 0,06.

Должны ли мы после проведенного эксперимента называть это розыгрышем монеты? Если предположить, что H0 истинно, вероятность того, что это произошло случайно, составляет всего 3%. Поскольку вероятность того, что это произойдет случайным образом, меньше, мы отклонили бы «нулевую гипотезу» и сочли бы эту монету уловкой и предвзято относящейся к сказке.

Результирующая вероятность, которую мы получили, составляет 3%, что меньше порогового значения, равного 5% (мы увидим, как мы определим этот порог позже в этом блоге). Это приводит к тому, что мы отвергаем H0 и принимаем альтернативную гипотезу.

Эта вероятность есть не что иное, как p-значение при проверке гипотез. Когда вероятность наблюдения, считая, что H0 истинна, падает ниже порогового значения / альфа / уровня значимости (т. Е. 0,05), мы отклоняем нулевую гипотезу и принимаем альтернативную гипотезу.

В этом примере мы легко вычислили p-значение с помощью различных концепций вероятности. Но с увеличением размера выборки будет нелегко вычислить p-значение с помощью основных концепций вероятности. В таких случаях мы в основном используем метод под названием «Проверка перестановок» для вычисления p-значения.

Расчет P-значения: проверка перестановок

Давайте разберемся с перестановочным тестированием на одном примере.

Люди, соблюдающие строгую диету и занятия в тренажерном зале, значительно влияют на потерю веса, чем люди, которые ходит только в тренажерный зал.

Давайте рассмотрим два набора образцов с размером выборки 50, которые мы собрали в пунктах A и B. Первоначальный вес всех участников составлял 80 кг.

A → Содержит выборку тех, кто придерживается строгой диеты в тренажерном зале.

B → Содержит выборку тех, кто занимается только тренировками в тренажерном зале.

Позвольте мне определить, каково значение P в приведенном выше случае.

P-значение - это p (средняя разница в весе ≥ 6 кг | H0), в котором указывается, что вероятность обнаружения разницы (назовем ее Δ ≥ 6 кг) среднего веса при рассмотрении нулевой гипотезы. истинный. Теперь давайте посмотрим на вычисление этой вероятности, то есть p-значения, с помощью перестановочного тестирования.

Таким образом, p-значение буквально представляет собой процент значений, превышающих Δ. В приведенном выше примере это 3%, следовательно, значение p равно 0,03. Теперь, что говорит нам это p-значение? Следует ли нам прямо сейчас отвергнуть нулевую гипотезу? … Нет, мы не должны, поскольку мы еще не обсуждали, как принимать решение на основе p-значения. Мы узнаем, как принимать решения на основе p-значения, позже в этом сообщении в блоге, но перед этим давайте узнаем кое-что, чего мы не узнали до сих пор. Альтернативы p-значения: z-value и t-Value.

z-значение и t-значение

При проверке гипотез мы можем заключить гипотезу с помощью z-значения или t-значения. Не обязательно, что нам всегда требуется p-значение.

Как принять решение?

Как мы уже говорили, нам нужна тестовая статистика (p-значение, z-значение или t-значение), чтобы принять решение о нашей гипотезе. В этом разделе мы узнаем о процессе принятия решений.

В процессе принятия решения нам необходима информация о следующих концепциях →

Доверительный интервал

  • Это «диапазон», который используется для оценки параметра совокупности.
  • С доверительным интервалом связано нечто, называемое «уровнем уверенности».

Уровень уверенности

  • Уровень достоверности говорит о том, «насколько вы уверены, что фактическое значение параметра совокупности будет лежать в пределах диапазона или интервала».
  • Этот уровень достоверности выражается как ‘1-α’, где α - дополнительный уровень достоверности.
  • В основном мы имеем дело с 3 уровнями уверенности

  • ДИ 0,95 или 95% чаще всего используется в статистике. (Обозначено зеленым выше)

Критическое значение

  • При проверке гипотез критическое значение - это точка шкалы или график, используемый для разделения графика на такие разделы, как «область отклонения» или «область без отклонения». Если ваша тестовая статистика попадает в эту область, мы отклоняем нулевую гипотезу.
  • Он выводится из уровня значимости α, т. Е. Z = α / 2
  • Z-оценка, которая отделяет «Вероятный регион» от «Маловероятный регион».
  • Мы не рассчитываем z-оценку, когда значение параметров популяции неизвестно. Вместо этого мы вычисляем так называемый t-рейтинг.

Критическое значение - это значение, которое отделяет область отклонения от области принятия.

Критическое значение служит граничным значением (или условием) для проверки статистики. Если статистика теста попадает в область отклонения (α), которая является статистикой теста ›критическое значение, то мы отклоняем H0.

Если статистика теста попадает в область приемлемости (1-α), которая является не чем иным, как статистикой теста ‹критической, то мы не можем отклонить H0. Приведенный выше пример имеет правый хвост, поэтому критическое значение расположено справа. Это может быть позиция как слева, так и на обеих позициях.

Примечание. На критические значения в значительной степени влияет тест с левым хвостом, тест с правым хвостом или тест с двумя хвостами. Дополнительную информацию см. в таблице выше.

Принятие решения на основе p-значения / z-значения / t-значения

Примечание Давайте рассмотрим наиболее часто используемый уровень достоверности 95% или 0,95

Давайте рассмотрим следующие значения:

  • z-значение = 3,81 | z-критический = 1,96
  • p-значение = 0,03
  • t-значение = 0,87 | t-критический = 1,96
  • α = 0.05
  • 1-α = 0.95

С z-значением: z-значение ›z-критическое, мы отвергаем нулевую гипотезу.

С t-значением: t-значение ‹t-критическое, мы не можем отвергнуть нулевую гипотезу.

С p-значением: p-значение ‹α, мы отвергаем нулевую гипотезу.

В современной вычислительной среде в настоящее время возможно вычислить p-значение, и большинство инструментов / программного обеспечения возвращают p-значение для нас. Таким образом, p-значение в качестве тестовой статистики используется большинством людей для принятия решения о проверке гипотез.

Ошибки в статистическом тесте

При статистической проверке гипотез ни один тест никогда не бывает 100% уверенным, поскольку мы полагаемся на p-значение, которое основано на вероятностях, всегда есть шанс сделать неправильный вывод относительно принятия или отклонения нулевой гипотезы.

Помните, что когда мы принимаем решения на основе статистики, всего возможны 4 исхода.

  • Истинно положительный
  • Истинно отрицательный
  • Ложный положительный результат
  • Ложноотрицательный

Шансы на совершение этих двух типов ошибок обратно пропорциональны: то есть уменьшение частоты ошибок типа I увеличивает частоту ошибок типа II, и наоборот.

ОШИБКА ТИПА I: → ЛОЖНО ПОЛОЖИТЕЛЬНО

  • Ошибка типа 1 также называется ложным срабатыванием. Это происходит, когда нулевая гипотеза отклоняется, даже если она точна и не должна отклоняться.
  • Вероятность ошибки 1-го типа представлена ​​вашим альфа-уровнем или уровнем достоверности. (α)
  • Значение p 0,05 указывает на то, что мы готовы принять 5% -ную вероятность того, что мы ошибаемся, когда отвергаем нулевую гипотезу.
  • Мы можем снизить риск совершения ошибки типа 1, используя меньшее значение для p. Например, p -значение 0,01 будет означать, что существует 1% вероятность совершения ошибки типа I.
  • Но использование более низкого значения альфа означает, что вы с меньшей вероятностью обнаружите истинную разницу, если она действительно существует. Таким образом, возникает риск ошибки 2-го типа.
  • Что касается примера зала суда, ошибка типа I соответствует осуждению невиновного обвиняемого.

ОШИБКА ТИПА II: → ЛОЖНО ОТРИЦАТЕЛЬНЫЙ

  • Ошибка 2-го типа также известна как ложноотрицательный результат.
  • Это происходит, когда исследователь не может отвергнуть нулевую гипотезу, которая действительно ложна.
  • Здесь исследователь приходит к выводу, что существенного эффекта нет, хотя на самом деле он есть.
  • Вероятность совершения ошибки 2-го типа называется бета (β), которая связана с мощностью статистического теста. (1-β)
  • Мы можем снизить риск совершения ошибок 2-го типа, убедившись, что у теста достаточно мощности. Мы можем сделать это, убедившись, что размер выборки достаточно велик, чтобы обнаруживать практические различия, когда они действительно существуют.
  • На примере зала суда ошибка типа II соответствует оправданию преступника.

КРОССОВЕРСКАЯ ОШИБКА (CER)

  • Коэффициент перекрестных ошибок - это точка, в которой ошибки, относящиеся к ошибке 1-го и 2-го типа, равны.
  • Он представляет собой лучший способ измерения эффективности биометрических данных. Система с более низким значением CER обеспечивает большую точность, чем система с более высоким значением CER.

Код Python для вычисления P-значения с использованием перестановочного тестирования

treatment = [ 28.44,  29.32,  31.22,  29.58,  30.34,  28.76,  29.21,  30.4 ,
              31.12,  31.78,  27.58,  31.57,  30.73,  30.43,  30.31,  30.32,
              29.18,  29.52,  29.22,  30.56]
control = [ 33.51,  30.63,  32.38,  32.52,  29.41,  30.93,  49.78,  28.96,
            35.77,  31.42,  30.76,  30.6 ,  23.64,  30.54,  47.78,  31.98,
            34.52,  32.42,  31.32,  40.72]
from mlxtend.evaluate import permutation_test
p_value = permutation_test(treatment, control,
                           method='approximate',
                           num_rounds=10000,
                           seed=0)
print(p_value)
if p_value <= 0.05 :
    print("Null Hypothesis is rejected and Accepted the alternate hypothesis")
if p_value > 0.05 :
    print("Failed to reject the null hypothesis")

Выход →

0.0066993300669933005
Null Hypothesis is rejected and Accepted the alternate hypothesis