Примеры:

Стьюдентный критерий для одной выборки

Предположим, производитель заявляет, что средний вес его новых плиток шоколада составляет 50 граммов. Мы очень сомневаемся в этом и хотим проверить это, поэтому мы взяли образец из 25 плиток шоколада и измерили их вес. 49,7 грамма, а стандартное отклонение образца составило 1,2 грамма. Считайте уровень значимости равным 0,05.

Решение: -

Шаг 1. Предположения

Нормальность:здесь у нас недостаточно данных для выполнения теста, мы можем предположить, что данные подчиняются нормальному распределению.

Независимость. Независимость обычно предполагается при случайном отборе. Если плитки шоколада были выбраны из популяции случайным образом, разумно предположить, что они независимы друг от друга.

Случайная выборка: выборка была собрана случайным образом, что означает, что каждая плитка шоколада в совокупности имела равные шансы попасть в выборку.

Неизвестное стандартное отклонение генеральной совокупности. Поскольку стандартное отклонение генеральной совокупности неизвестно, для его оценки мы используем стандартное отклонение выборки. Стандартное отклонение выборки рассчитывается на основе данных и используется в формуле t-критерия.

Шаг 2: Гипотезы

Нулевая гипотеза (H0): средний вес плитки шоколада составляет 50 граммов (H₀: μ = 50).

Альтернативная гипотеза (Ha): средний вес плитки шоколада отличается от 50 граммов. (H₁ или Hₐ: μ ≠ 50)

Шаг 3: Рассчитайте t-значение

Среднее значение популяции (μ) = 50, стандартное отклонение популяции (σ) = не знаю

Размер выборки (n) = 25, Среднее значение выборки (x̄) = 49,7, Стандартное значение выборки = 1,2

α = 0.05

Формула для t-значения в одновыборочном t-критерии:

z = (x̄ — μ )/(s/√n) = (49.7–50)/ (1.2/√25) = — 0.3*5/1.2 = — 1.25

Df = n — 1 = 24

Из Питона

a1 = 0.111675 = a2

p = a1+a2 = 0.22335

p > α = 0.05

мы не можем отвергнуть нулевую гипотезу.

Шаг 4: Заключение

Основываясь на одновыборочном t-тесте с уровнем значимости 0,05, у нас недостаточно доказательств, чтобы отвергнуть заявление производителя о том, что средний вес его новых плиток шоколада составляет 50 граммов. Среднее значение выборки в 49,7 грамма существенно не отличается от заявленного среднего значения для населения.

Case-Study Single Sample t-test Python:

Независимый t-критерий с двумя выборками

Предположим, что владелец компании утверждает, что средняя заработная плата сотрудников мужского и женского пола не отличается. Чтобы проверить это утверждение, мы собираем данные о средней зарплате 30 мужчин и 30 женщин относительно их средней зарплаты в тысячах.

Male_salaries = [12, 15, 18, 16, 20, 17, 14, 22, 19, 21, 23, 18, 25, 17, 16, 24, 20, 19, 22, 18, 15, 14, 23, 16 , 12, 21, 19, 17, 20, 14]
Женские_зарплаты = [10, 12, 14, 13, 16, 15, 11, 17, 14, 16, 18, 14, 20, 15, 14, 19, 16, 15, 17, 14, 12, 11, 18, 15, 10, 16, 15, 13, 16, 11]

Заработная плата мужчин:

○ Размер выборки (n1): 30
○ Среднее значение выборки (mean1): 18,5 минут
○ Стандартное отклонение выборки (std_dev1): 3,5 минуты

Заработная плата женщин:

○ Размер выборки (n2): 30
○ Среднее значение выборки (mean2): 14,3 минуты
○ Стандартное отклонение выборки (std_dev2): 2,7 минуты
Мы будем использовать уровень значимости (α), равный 0,05. для проверки гипотез.

Примечание. Размер выборки для обеих групп одинаков, в данном примере это n1 = n2 = 30. Он также может быть разным, но дисперсии должны быть одинаковыми.

H0: μm= μf (среднее значение заработной платы мужчины и средней заработной платы женщины)

H1: μm ≠ μf

Предположения для теста:

Независимость наблюдений можно предположить, что данные собираются от разных сотрудников мужского и женского пола, работающих в компании, и их заработная плата не зависит друг от друга.

Нормальность:

Если p-значение больше выбранного вами уровня значимости (α = 0,05), мы можем предположить, что данные получены из нормально распределенной совокупности.

используя питон

p-значение для мужчин > 0,05, а p-значение для женщин > 0,05.

мы можем предположить, что данные получены из нормально распределенной совокупности.

Равные отклонения (гомоскедастичность):

Если p-значение теста Левена больше выбранного вами уровня значимости (α = 0,05), мы можем предположить равные дисперсии

питон

так что здесь p-значение = 0,09 > 0,05

поэтому мы можем предположить равные отклонения.

Случайная выборка: мы можем предположить, что данные собираются случайным образом.

Из Питона

Area from left side upto -5.25 is  1.128184873466612e-06

 p-value =  2.256369746933224e-06

Основываясь на результатах независимого двухвыборочного t-критерия, я могу отвергнуть нулевую гипотезу. Статистический анализ показывает, что существует значительная разница в средней заработной плате между мужчинами и женщинами. Значение p равно 2,256369746933224e-06, что намного меньше выбранного уровня значимости (альфа) 0,05. Это указывает на убедительные доказательства против нулевой гипотезы и подтверждает вывод о том, что средняя заработная плата мужчин-служащих не совпадает со средней заработной платой женщин-сотрудников в компании.

Case-Study Independent 2 sample t-test python:

Парный 2-выборочный t-критерий

Предположим, фитнес-центр оценивает эффективность новой 8-недельной программы похудения. Они регистрируют 15 участников в программе и измеряют их вес до и после программы. Цель состоит в том, чтобы проверить, приводит ли новая программа похудения к значительному снижению веса участников.
До программы:
[80, 92, 75, 68, 85, 78, 73, 90, 70, 88, 76, 84, 82, 77, 91]
После программы:
[78, 93, 81, 67, 88, 76, 74, 91, 69, 88, 77, 81, 80, 79, 88]
Уровень значимости (α) = 0,05

H0: μ_before = μ_after

H1: μ_before › μ_after

Сначала мы рассчитаем разницу между весом до и после веса для каждого человека, создав новый набор данных, отражающий изменения веса. Затем мы проверим, соответствует ли этот набор разностных данных нормальному распределению или нет. Если набор разностных данных примерно нормально распределен, мы можем продолжить дальнейший анализ.

Предполагая, что набор разностных данных нормально распределен, мы рассчитаем выборочное среднее (x̄) и выборочное стандартное отклонение (s) разностей весов. Мы будем использовать эту статистику для расчета t-статистики для парного t-критерия с двумя выборками.

Для парного двухвыборочного t-критерия наша нулевая гипотеза (H0) утверждает, что средняя разница (μ_diff) между весами до и после равна нулю. Это означает, что нет существенной разницы в весе до и после.

Для расчета t-статистики воспользуемся формулой:

t = (x̄ - μ_diff) / (s / √n)

Здесь:

  • x̄ - выборочное среднее разницы весов,
  • μ_diff — гипотетическая средняя разница, равная 0 при нулевой гипотезе,
  • s - выборочное стандартное отклонение разностей веса,
  • n — количество парных наблюдений.

Рассчитав t-статистику, мы можем затем оценить, существует ли значительная разница между весами до и после, учитывая изменчивость выборки и размер парных наблюдений.

Из Питона

Основываясь на результатах парного двухвыборочного t-критерия с p-значением 0,5410005146857456 и с учетом выбранного уровня значимости (альфа) 0,05, мы не можем отвергнуть нулевую гипотезу (H0).

В заключение следует отметить, что статистический анализ не дает достаточных доказательств, чтобы предположить значительную разницу в весе до и после вмешательства. Следовательно, мы не можем сделать вывод, что вмешательство оказало значительное влияние на вес особей в выборке.

"Нажми сюда, чтобы прочитать больше:"