Будьте хорошо подготовлены

Статистика: основные термины, которые нужно знать

В этой статье я расскажу вам обо всех основных моментах статистики.

Главная тенденция

Центральная тенденция — это описательная сводка набора данных с помощью одного значения, отражающего центр распределения данных.

Наряду с изменчивостью (дисперсией) набора данных центральная тенденция является ветвью описательной статистики.

Центральная тенденция является одним из наиболее существенных понятий в статистике.

Хотя он не предоставляет информацию об отдельных значениях в наборе данных, он предоставляет исчерпывающую сводку всего набора данных.

Значит

Он представляет собой сумму всех значений в наборе данных, разделенную на общее количество значений.

медиана

Среднее значение в наборе данных, расположенное в порядке возрастания (от наименьшего значения к наибольшему).

Если набор данных содержит четное количество значений, медиана набора данных является средним значением двух средних значений.

Режим

Определяет наиболее часто встречающееся значение в наборе данных.

В некоторых случаях набор данных может содержать несколько режимов, а некоторые наборы данных могут вообще не иметь режима.

Какой метод центральной тенденции используется, если существуют какие-либо выбросы

Медиана является наиболее информативной мерой центральной тенденции для асимметричных распределений или распределений с выбросами.

Что такое Центральная предельная теорема?

Центральная предельная теорема (ЦПТ) утверждает, что распределение выборочных средних (средних) приближается к нормальному распределению по мере увеличения размера выборки, независимо от распределения населения.

Размеры выборки, равные или превышающие 30, часто считаются достаточными для выполнения CLT.

Ключевым аспектом CLT является то, что среднее значение выборочных средних и стандартных отклонений будет равно среднему значению генеральной совокупности и стандартному отклонению.

Достаточно большой размер выборки может более точно предсказать характеристики совокупности.

Хи-квадрат тест

Критерий согласия хи-квадрат определяет, соответствуют ли данные выборки генеральной совокупности.

Тест хи-квадрат на независимость сравнивает две переменные в таблице непредвиденных обстоятельств, чтобы определить, связаны ли они между собой.

A/B-тестирование

Пожалуйста, обратитесь к этой замечательной статье об A/B-тестировании:



Разница между распределением Z и t (связано с A/B-тестированием)

Прочтите страницу ниже, чтобы узнать разницу между ними:



Метод обработки выбросов

Что такое выбросы

Выброс — это наблюдение в данном наборе данных, которое находится далеко от остальных наблюдений.

Это означает, что выброс значительно больше или меньше остальных значений в наборе.

Каковы критерии для определения выброса?

  • Точка данных, которая в 1,5 раза превышает межквартильный диапазон выше 3-го квартиля и ниже 1-го квартиля
  • Точка данных, выходящая за пределы 3 стандартных отклонений. Мы можем использовать Z-оценку.

По какой причине в наборе данных существует выброс?

  • Изменчивость данных
  • Экспериментальная ошибка измерения

Каковы последствия наличия выбросов в наборе данных?

  • Это вызывает различные проблемы во время нашего статистического анализа
  • Это может оказать значительное влияние на среднее значение и стандартное отклонение.

Различные способы нахождения выброса

  • Использование точечных диаграмм
  • Коробчатый сюжет
  • Использование z-показателя
  • Использование IQR (межквантильный диапазон)

Дисперсионный анализ