F — Распределение

  1. Непрерывное распределение вероятностей. F-распределение — это непрерывное распределение вероятностей, используемое при статистической проверке гипотез и дисперсионном анализе (ANOVA).
  2. Распределение Фишера-Снедекора. Оно также известно как распределение Фишера-Снедекора, названное в честь Рональда Фишера и Джорджа Снедекора, двух выдающихся статистиков.
  3. Степени свободы. F-распределение определяется двумя параметрами — степенями свободы для числителя (df1) и степенями свободы для знаменателя (df2).
  4. Положительно скошено и ограничено:форма F-распределения скошена положительно, а его левая граница равна нулю. Форма распределения зависит от значений степеней свободы.
  5. Проверка равенства дисперсий. F-распределение обычно используется для проверки гипотез о равенстве двух дисперсий в разных выборках или популяциях.
  6. Сравнение статистических моделей. F-распределение также используется для сравнения соответствия различных статистических моделей, особенно в контексте дисперсионного анализа.
  7. F-статистика. F-статистика рассчитывается путем деления отношения двух выборочных дисперсий или средних квадратов из таблицы ANOVA. Это значение затем сравнивается с критическими значениями F-распределения для определения статистической значимости.
  8. Применения. F-распределение широко используется в различных областях исследований, включая психологию, образование, экономику, а также естественные и социальные науки, для проверки гипотез и сравнения моделей.

F-распределение обычно используется в тестах дисперсионного анализа (ANOVA), которые используются для сравнения средних значений двух или более групп. Например, предположим, что вы хотите сравнить средний рост людей из три разные страны. Вы можете собрать данные из случайной выборки людей из каждой страны и выполнить тест ANOVA, чтобы определить, есть ли статистически значимая разница в среднем росте трех групп.

Чтобы использовать F-распределение, вы сначала вычисляете F-статистику, которая представляет собой отношение дисперсии между группами к дисперсии внутри групп. Если F-статистика достаточно велика, вы можете отклонить нулевую гипотезу и сделать вывод о наличии статистически значимой разницы между группами.

Есть два типа.

1. односторонний дисперсионный анализ

2 Двусторонний анализ

Однофакторный дисперсионный анализ

Однофакторный дисперсионный анализ (дисперсионный анализ) — это статистический метод, используемый для сравнения средних значений трех или более независимых групп, чтобы определить, есть ли между ними существенные различия. Это расширение t-критерия, который используется для сравнения средних значений двух независимых групп. Термин «односторонний» относится к тому факту, что в этом анализе есть только одна независимая переменная (фактор) с несколькими уровнями (группами). Основная цель однофакторного дисперсионного анализа — проверить нулевую гипотезу о том, что все средние группы равны. Альтернативная гипотеза состоит в том, что по крайней мере одно среднее значение группы значительно отличается от других.

Шаги •

1. Определите нулевую и альтернативную гипотезы.

2. Рассчитайте общее среднее значение (среднее значение) всех групп вместе взятых и среднее значение всех групп по отдельности. •

3. Рассчитайте сумму квадратов «межгрупповую» и «внутригрупповую» (SS).

4. Найдите межгрупповую и внутригрупповую степени свободы. Вычислите средние квадраты «межгруппы» и «внутри группы» (MS), разделив их соответствующую сумму квадратов на их степени свободы.

5• Рассчитайте F-статистику, разделив средний квадрат «между группами» на средний квадрат «внутри группы».

рассчитать p-значение, связанное с рассчитанной F-статистикой, используя F-распределение и соответствующие степени свободы. Значение p представляет вероятность получения F-статистики как экстремальной или более экстремальной, чем вычисленное значение, при условии, что нулевая гипотеза верна.

• Выберите уровень значимости (альфа), обычно 0,05.

Сравните рассчитанное значение p с выбранным уровнем значимости (альфа).

Если p-значение меньше или равно альфа, отклонить нулевую гипотезу в пользу альтернативной гипотезы, сделав вывод о наличии существенной разницы по крайней мере между одной парой групповых средних.

Если p-значение больше, чем альфа, не отвергают нулевую гипотезу, заключая, что нет достаточных доказательств, чтобы предположить значительную разницу между средними значениями группы.

Вот шаги для применения однофакторного теста ANOVA на примере:

Предположим, вы проводите эксперимент, чтобы проверить, по-разному ли влияют три разных удобрения (А, В и С) на рост растений томата. Вы случайным образом назначаете 10 растений каждой группе удобрений и через четыре недели измеряете их высоту в дюймах. Данные показаны ниже:

Шаг 1. Сформулируйте нулевую и альтернативную гипотезы.

Нулевая гипотеза (H0) состоит в том, что нет существенных различий в средней высоте растений томата для трех групп удобрений. Альтернативная гипотеза (Ha) состоит в том, что существует по крайней мере одно существенное различие в средней высоте растений томатов для трех групп удобрений.

H0: μA = μB = μC

Ha: по крайней мере один из µA, µB, µC отличается

Шаг 2. Рассчитайте среднее значение, сумму квадратов и степени свободы. Рассчитайте среднее значение для каждой группы:

СреднееА = (12 + 14 + 16 + 15 + 13 + 14 + 15 + 12 + 11 + 13) / 10 = 13,5

Среднее B = (14 + 16 + 15 + 13 + 15 + 13 + 14 + 16 + 12 + 11) / 10 = 14,1

Среднее C = (10 + 11 + 12 + 10 + 11 + 12 + 13 + 14 + 10 + 12) / 10 = 11,5

Вычислите общее среднее значение:

Общее среднее = (13,5 + 14,1 + 11,5) / 3 = 13,03

Вычислить сумму квадратов между группами (SSB):

SSB = 10 * (13,5–13,03)² + 10 * (14,1–13,03)² + 10 * (11,5–13,03)² = 30,57

Вычислить степени свободы между группами (DFB):

DFB = k — 1 = 3–1 = 2

где k – количество групп (видов удобрений).

Вычислить сумму квадратов внутри групп (SSW):

SSW = Σ(xi — xi.mean)²

где Σ(xi — xi.mean)² — сумма квадратов отклонений от среднего значения для каждой группы.

SSW = Σ(xij — xi.mean)²

= (12–13.5)² + (14–13.5)² + … + (10–11.5)² + (12–11.5)² = 34.4

Вычислить степени свободы внутри групп (DFW):

DFW = N — k = 30–3 = 27

где N — общее количество наблюдений (n = 10 на группу).

Шаг 3: Рассчитайте средний квадрат между группами (MSB) и средний квадрат внутри групп (MSW).

Средний квадрат между группами (MSB) – это сумма квадратов между группами (SSB), деленная на степени свободы между группами (DFB):

MSB = SSB / DFB = 30,57 / 2 = 15,29

Средний квадрат внутри групп (MSW) – это сумма квадратов внутри групп (SSW), деленная на степени свободы внутри групп (DFW):

MSW = SSW / DFW = 34,4 / 27 = 1,27

Шаг 4. Рассчитайте F-статистику.

F-статистика представляет собой отношение среднего квадрата между группами (MSB) к среднему квадрату внутри групп (MSW):

F = MSB / MSW = 15,29 / 1,27 = 12,05

Шаг 5: Определите p-значение и примите решение.

Используя уровень значимости α = 0,05, мы можем найти F-распределение с 2 и 27 степенями свободы, чтобы найти критическое значение F:

Fкрит = 3,354

Поскольку рассчитанная нами F-статистика (12,05) больше критического значения F (3,354), мы можем отклонить нулевую гипотезу и сделать вывод о значительной разнице в средней высоте растений томата в трех группах удобрений.

Чтобы подтвердить этот результат, мы также можем рассчитать значение p, связанное с нашей F-статистикой. Значение p — это вероятность наблюдения F-статистики как экстремальной или более экстремальной, чем наше вычисленное значение, при условии, что нулевая гипотеза верна. Мы можем использовать таблицу F-распределения или статистическое программное обеспечение, чтобы найти p-значение, связанное с нашей F-статистикой. В этом примере значение p очень мало (менее 0,001), что дает убедительные доказательства против нулевой гипотезы.

Таким образом, мы можем сделать вывод, что по крайней мере одно из значений средней высоты растений томата в трех группах удобрений значительно отличается от других.

import scipy.stats as stats

# Heights of tomato plants for each fertilizer group
fertilizer1 = [5.6, 4.8, 6.2, 5.4, 5.5, 4.9, 6.0, 5.2, 5.9, 5.0]
fertilizer2 = [6.1, 6.4, 5.6, 6.2, 6.5, 5.9, 5.8, 6.3, 6.1, 5.7]
fertilizer3 = [4.9, 4.5, 4.8, 5.2, 4.7, 5.0, 4.6, 5.1, 4.9, 5.3]

# Perform one-way ANOVA
fvalue, pvalue = stats.f_oneway(fertilizer1, fertilizer2, fertilizer3)

# Print results
print("F-value:", fvalue)
print("p-value:", pvalue)

Важно отметить, что однофакторный дисперсионный анализ определяет только наличие существенной разницы между средними значениями группы; он не определяет, какие конкретные группы имеют существенные различия. Чтобы определить, какие пары групп значительно отличаются,

апостериорные тесты, такие как HSD Тьюки или Бонферрони, проводятся после значительного результата ANOVA.

Предположения:

Тест One-Way ANOVA делает определенные предположения о данных, которые должны быть соблюдены, чтобы тест был действительным. Эти предположения таковы:

  1. Независимость: наблюдения внутри каждой группы независимы друг от друга.
  2. Нормальность: распределение каждой группы соответствует нормальному распределению.
  3. Однородность дисперсии: дисперсия наблюдений в каждой группе примерно одинакова.
  4. Случайная выборка: данные получают путем случайной выборки из населения.

Нарушения этих допущений могут повлиять на достоверность теста One-Way ANOVA и привести к неверным выводам. Например, если допущение о нормальности нарушено, то p-значения могут быть неточными, а если нарушено допущение об однородности дисперсии, то у теста может не хватить мощности для выявления различий между группами.

Рекомендуется проверить эти предположения перед проведением теста однофакторного дисперсионного анализа. Это можно сделать путем визуальной проверки данных с использованием диагностических графиков, таких как гистограммы или графики нормальной вероятности, или с помощью статистических тестов, таких как критерий Шапиро-Уилка для нормальности или критерий Левена для однородность дисперсии. Если допущения не выполняются, могут оказаться более подходящими альтернативные методы, такие как непараметрические тесты.

Апостериорный тест

После проведения одностороннего ANOVA и отклонения нулевой гипотезы мы можем захотеть выполнить апостериорный тест, чтобы определить, какие группы значительно отличаются друг от друга. Апостериорный тест — это статистический тест, который сравнивает все возможные пары групп, чтобы определить, какие из них имеют значительно разные средние значения.

Существует несколько типов апостериорных тестов, но некоторые из наиболее распространенных:

Тест Тьюки HSD:

  1. Тест Тьюки HSD — это апостериорный тест, который сравнивает все возможные пары групп, чтобы определить, какие из них имеют значительно разные средние значения. Он контролирует частоту ошибок по семействам, которая представляет собой вероятность совершения хотя бы одной ошибки типа I во всех попарных сравнениях. Этот тест часто используется, когда есть три или более групп, а нулевая гипотеза была отвергнута в однофакторном дисперсионном анализе.

В тесте Тьюки HSD критическое значение рассчитывается на основе количества групп, размера выборки и уровня значимости. Статистика теста представляет собой абсолютную разницу между средними значениями двух групп, деленную на стандартную ошибку разницы. Если абсолютная разница между двумя средними больше критического значения, то мы можем заключить, что средние значения существенно различаются.

В примере, который мы использовали ранее, мы обнаружили значительную разницу в средней высоте растений томата в трех группах удобрений. Чтобы определить, какие конкретные группы отличались, мы можем провести апостериорный тест. Давайте используем HSD-тест Тьюки в качестве примера:

Шаг 1: Рассчитайте среднее значение и стандартное отклонение для каждой группы.

import numpy as np

fertilizer1 = np.array([5.6, 4.8, 6.2, 5.4, 5.5, 4.9, 6.0, 5.2, 5.9, 5.0])
fertilizer2 = np.array([6.1, 6.4, 5.6, 6.2, 6.5, 5.9, 5.8, 6.3, 6.1, 5.7])
fertilizer3 = np.array([4.9, 4.5, 4.8, 5.2, 4.7, 5.0, 4.6, 5.1, 4.9, 5.3])

mean_fertilizer1 = np.mean(fertilizer1)
mean_fertilizer2 = np.mean(fertilizer2)
mean_fertilizer3 = np.mean(fertilizer3)

std_fertilizer1 = np.std(fertilizer1, ddof=1)
std_fertilizer2 = np.std(fertilizer2, ddof=1)
std_fertilizer3 = np.std(fertilizer3, ddof=1)

print("Mean and standard deviation for fertilizer group 1: {:.2f} and {:.2f}".format(mean_fertilizer1, std_fertilizer1))
print("Mean and standard deviation for fertilizer group 2: {:.2f} and {:.2f}".format(mean_fertilizer2, std_fertilizer2))
print("Mean and standard deviation for fertilizer group 3: {:.2f} and {:.2f}".format(mean_fertilizer3, std_fertilizer3))
``

Среднее и стандартное отклонение для группы удобрений 1: 5,47 и 0,49
Среднее и стандартное отклонение для группы удобрений 2: 6,10 и 0,30
Среднее и стандартное отклонение для группы удобрений 3: 4,90 и 0,27

Шаг 2: Рассчитайте значение HSD Тьюки, используя библиотеку statsmodels.

from statsmodels.stats.multicomp import MultiComparison

data = np.concatenate([fertilizer1, fertilizer2, fertilizer3])
groups = np.concatenate([np.ones(10), np.full(10, 2), np.full(10, 3)])

mc = MultiComparison(data, groups)
result = mc.tukeyhsd()

print(result)
Multiple Comparison of Means - Tukey HSD,FWER=0.05
==============================================
 group1  group2  meandiff  lower    upper  reject
----------------------------------------------
   1      2      0.6300  -0.1466   1.4066 False 
   1      3     -0.5700  -1.3466   0.2066 False 
   2      3     -1.2000  -1.9766  -0.4234  True 
----------------------------------------------

Выходные данные показывают среднюю разницу между каждой парой групп, а также нижнюю и верхнюю границы 95% доверительного интервала для каждой разницы. Столбец reject показывает, отвергается ли нулевая гипотеза (что средние равны) для каждого сравнения. В данном случае мы видим, что между группами 2 и 3 существует значительная разница, но не между группами 1 и 2 или группами 1 и 3. Следовательно, мы можем сделать вывод, что средняя высота растений томатов достоверно различается между группами 2 и 3. 3, но не между группами 1 и 2 или группами 1 и 3.

2. Поправка Бонферрони:

Этот метод регулирует уровень значимости (α) путем деления его на количество сделанных сравнений. Это консервативный метод, который можно применять при множественных сравнениях, но он может иметь меньшую статистическую мощность, когда задействовано большое количество сравнений.

Например, если у нас есть три группы и мы хотим провести все возможные попарные сравнения, будет три сравнения: группа 1 с группой 2, группа 1 с группой 3 и группа 2 с группой 3. Если исходный уровень альфа равен 0,05. , альфа-уровень с поправкой Бонферрони будет 0,05/3 = 0,0167. Следовательно, мы будем отвергать нулевую гипотезу для каждого попарного сравнения, только если p-значение меньше 0,0167.

И критерий HSD Тьюки, и поправка Бонферрони обычно используются апостериорными тестами после однофакторного дисперсионного анализа, чтобы определить, какие группы значительно отличаются друг от друга.

Почему t-критерий не используется более чем для 3 категорий.

  1. iувеличение ошибки типа I. когда вы выполняете несколько сравнений с использованием отдельных t-тестов, вероятность совершения ошибки типа I (ложноположительный результат) увеличивается. Чем больше тестов вы проведете, тем выше вероятность того, что вы ошибочно отклоните нулевую гипотезу хотя бы в одном из тестов, даже если нулевая гипотеза верна для всех групп.
  2. Сложность интерпретации результатов. При сравнении нескольких групп с использованием нескольких t-тестов интерпретация результатов может усложниться. Например, если у вас есть 4 группы и вы выполняете 6 парных t-тестов, может быть сложно интерпретировать и суммировать общую картину различий между группами.
  3. IЭффективность. Использование нескольких t-тестов менее эффективно, чем использование одного теста, учитывающего все группы, например однофакторного дисперсионного анализа. Однофакторный дисперсионный анализ использует информацию из всех групп одновременно для оценки изменчивости внутри и между группами, что может привести к более точным выводам.

Приложения в машинном обучении

  1. Настройка гиперпараметров. При выборе наилучших гиперпараметров для модели машинного обучения можно использовать однофакторный дисперсионный анализ для сравнения производительности моделей с различными настройками гиперпараметров. Рассматривая каждую настройку гиперпараметра как группу, вы можете выполнить однофакторный дисперсионный анализ, чтобы определить, есть ли какие-либо существенные различия в производительности для различных настроек.
  2. Выбор признаков. Однофакторный дисперсионный анализ (ANOVA) можно использовать в качестве метода выбора одномерных признаков для выявления признаков, которые в значительной степени связаны с целевой переменной, особенно когда целевая переменная является категориальной с более чем двумя уровнями. В этом контексте для каждого признака выполняется однофакторный дисперсионный анализ, и признаки с низкими значениями p считаются более подходящими для прогнозирования.
  3. Сравнение алгоритмов. При сравнении производительности различных алгоритмов машинного обучения можно использовать однофакторный дисперсионный анализ, чтобы определить, есть ли какие-либо существенные различия в их показателях производительности (например, точность, оценка F1 и т. д.). через несколько прогонов или сгибов перекрестной проверки. Это может помочь вам решить, какой алгоритм лучше всего подходит для конкретной задачи.
  4. Оценка стабильности модели. Однофакторный дисперсионный анализ можно использовать для оценки стабильности модели машинного обучения путем сравнения ее производительности при различных случайных исходных значениях или инициализациях. Если производительность модели значительно различается между различными инициализациями, это может указывать на то, что модель нестабильна или очень чувствительна к выбору начальных условий.