Аналитический метод статистики, известный как дисперсионный анализ (ANOVA), делит общее количество вариаций в наборе данных на две категории: те, которые можно объяснить набором констант или «контролей», и те, которые зависят от случая. Систематические переменные оказывают статистическое влияние на предоставленный набор данных, а случайные факторы — нет. Тест дисперсионного анализа (ANOVA) используется аналитиками для определения влияния точности независимых факторов на зависимую переменную регрессионного исследования.

Процедуры t- и z-критерия, установленные в 20 веке, использовались для статистического анализа до 1918 года, когда Рональд Фишер представил метод дисперсионного анализа.

Расширенные версии t- и z-тестов, ANOVA также известен как дисперсионный анализ Фишера. Слово стало широко известным в 1925 году, после появления в книге Фишера «Статистические методы для научных работников». Сначала он использовался в экспериментальном обучении психологии, а затем был расширен до более сложных тем.

Курс машинного обучения может быть полезен для лучшего понимания этого предмета.

Ключевые выводы

  1. Дисперсионный анализ, или ANOVA, представляет собой статистический подход, при котором наблюдаемые данные дисперсии разбиваются на несколько компонентов для использования в последующем тестировании.
  2. Односторонний ANOVA используется для трех или более наборов данных, чтобы получить информацию о связи между зависимыми и независимыми переменными.
  3. Если между группами нет реальной разницы, F-коэффициент дисперсионного анализа должен быть близок к 1.

Что показывает дисперсионный анализ?

Дисперсионный анализ (ANOVA) — это первый этап определения влияния нескольких переменных на набор данных. После завершения первого теста аналитик данных проведет последующие тесты для изучения любых методологических проблем, которые могли способствовать противоречивым результатам. Аналитик запускает f-тест на основе результатов дисперсионного анализа, чтобы предоставить дополнительные данные, которые соответствуют гипотетическим регрессионным моделям.

Чтобы установить связь между многими группами, тест ANOVA позволяет проводить одновременные сравнения. Изучение многочисленных наборов данных стало возможным благодаря F-статистике (иногда называемой F-коэффициентом), которая является результатом формулы ANOVA и измеряет степень, в которой один образец отличается от другого.

Если нет существенной разницы между тестируемыми группами (нулевая гипотеза), то значение F-отношения, полученное с помощью дисперсионного анализа, будет очень близко к 1. F-распределение описывает диапазон значений для F-статистики. Степени свободы числителя и степени свободы знаменателя являются двумя отличительными чертами этого набора функций распределения.

Курс Наука о данных и машинное обучение может помочь вам лучше понять эту тему.

Пример использования ANOVA

Чтобы определить, обычно ли выпускники одной школы превосходят выпускников других учебных заведений, исследователь может, например, проводить стандартизированные тесты для учащихся более чем одного учебного заведения. Примером такого рода тестирования в коммерческом контексте может быть сравнение двух методов производства продукта, чтобы определить, какой из них более экономичен. Есть несколько переменных, которые определяют, какой тип теста ANOVA выполняется. Когда требуются экспериментальные данные, используется этот метод. Когда статистическое программное обеспечение недоступно, дисперсионный анализ выполняется вручную. Он прост в использовании и хорошо подходит для тестирования на ограниченных выборках. Размеры выборки для различных комбинаций уровней факторов должны быть одинаковыми для нескольких экспериментальных планов.

Если вы хотите сравнить три или более переменных, ANOVA — полезный инструмент. Это очень похоже на серию t-тестов с набором данных из двух выборок. Тем не менее, он производит меньше ошибок типа I и может использоваться для решения других задач. В дисперсионном анализе вариации рассредоточены по многим факторам, и группы дифференцируются путем сравнения их соответствующих средних значений. Он используется с людьми в экспериментах, контрольных группах, при сравнении между группами и в самих исследованиях.

Однофакторный дисперсионный анализ по сравнению с двухфакторным дисперсионным анализом:

Односторонний (или однонаправленный) и двусторонний ANOVA являются двумя наиболее распространенными формами. ANOVA имеет несколько итераций. Например, при сравнении ANOVA с MANOVA становится ясно, что MANOVA (многомерный ANOVA) отличается, поскольку позволяет одновременно тестировать несколько зависимых переменных. Является ли ваш анализ дисперсии односторонним или двусторонним, зависит от общего количества независимых переменных, на которые вы смотрите. Влияние одной независимой переменной на другую исследуется с помощью однофакторного дисперсионного анализа. Проверяет, есть ли согласованность между образцами. Однофакторный дисперсионный анализ используется для проверки статистической значимости средних различий между тремя или более неродственными группами.

Дисперсионный анализ (ANOVA) можно проводить двумя способами. Односторонние отношения включают только один внешний фактор, влияющий на зависимую переменную. В двустороннем дисперсионном анализе используются две независимые переменные. Двусторонний дисперсионный анализ, например, позволит организации оценить относительную эффективность различных пакетов оплаты и обучения с точки зрения производительности сотрудников. Он используется для того, чтобы увидеть, как два компонента взаимодействуют друг с другом, и он ставит две вещи на свои места.

Онлайн-курс по машинному обучению может улучшить ваши навыки.