С вариантами использования среднего, медианного и режима

Введение

В статистике меры центральной тенденции представляют собой набор «средних» значений, представляющих точки данных. Центральная тенденция описывает распределение данных с упором на центральное место, вокруг которого сгруппированы все остальные данные. Это противоположность дисперсии, которая измеряет, насколько наблюдения разбросаны относительно центрального значения.

Как мы увидим ниже, центральная тенденция - это элементарное статистическое понятие, но широко используемое. Среди показателей средней тенденции наиболее часто цитируются и используются медиана и мода. Ниже мы увидим, почему они важны в области науки о данных и аналитики.

1. Среднее арифметическое

Среднее - это среднее значение некоторых точек данных. Это простейшая мера центральной тенденции, которая берет сумму наблюдений и делит сумму на количество наблюдений.

В математической записи среднее арифметическое выражается как:

Где xi - отдельные наблюдения, а N - количество наблюдений.

В более практическом примере, если заработная плата 3 сотрудников ресторана составляет 12, 14 и 15 долларов в час, то средняя заработная плата составляет 13,6 долларов в час. Просто как тот.

Применение среднего

  • В повседневной жизни мы делаем всевозможные средние значения. Мы спрашиваем друзей о средней арендной плате за дом в их районе; рассчитываем ежемесячные расходы перед переездом в новый город. Мы используем среднее арифметическое каждый день во всех контекстах.
  • Компании используют средства для сравнения средних дневных продаж продукта в период с января по февраль.
  • В науке о данных среднее значение является важным показателем в исследовательском анализе данных (EDA) и является входом для всех видов расширенного моделирования. Среднее значение работает негласно при вычислении показателей точности RMSE (среднеквадратическая ошибка), MAE (средняя абсолютная ошибка) в алгоритмах классификации или регрессии.

Типология

Есть несколько вариантов среднего. Они используются не так часто, но являются полезными инструментами в специализированных случаях использования. Вот несколько примеров:

Средневзвешенное значение При обычном среднем значении все точки данных обрабатываются одинаково, и всем точкам данных присваиваются равные веса (неявно). В средневзвешенном значении некоторым данным присваивается более высокий (или более низкий) вес в зависимости от целей.

Среднее геометрическое В отличие от обычного среднего, среднее геометрическое умножается на N значений и извлекается из корня N. Итак, для двух значений 2 и 8 среднее геометрическое будет равно 4.

Гармоническое среднее . Это еще один вид среднего, который вычисляется путем взятия обратных значений точек данных, затем взятия их превышения и, наконец, обратного результата.

Ограничения среднего

Хотя среднее арифметическое является наиболее широко известным показателем центральной тенденции, это не надежный показатель; он может быть очень чувствительным к выбросам.

Рассмотрим следующие два случая. Слева среднее из четырех значений идеально соответствует середине набора данных. Однако справа только один выброс (16) изменил «центр тяжести» и сдвинул среднее значение вправо. Чтобы преодолеть это ограничение среднего арифметического, у нас есть еще один показатель центральной тенденции - медиана.

2. Медиана

Какое число находится в центре списка [2, 3, 4]? Ответ, конечно, 3. И это медиана. Что, если одни и те же числа расположены по-разному, например [2, 4, 3]? Сейчас медиана 4? Нет, по-прежнему 3. Таким образом, медиана - это число в центре ряда после, которое они упорядочены (по возрастанию или по убыванию).

Допустим, у нас есть список из пяти чисел [4, 6, 2, 10, 7], и мы хотим найти медиану. Процесс прост:

  1. Данные: [4, 6, 2, 10, 7]
  2. Закажите список: [2, 4, 6, 7, 10]
  3. Найдите число в центре: 6 (медиана)

Но что, если в списке есть четные числа [4, 7, 6, 2, 10, 8]? Теперь посередине есть два значения, поэтому в этом случае решение состоит в том, чтобы взять среднее из них:

  1. Данные: [4, 7, 6, 2, 10, 8]
  2. Закажите список: [2, 4, 6, 7, 8, 10]
  3. Найдите два числа в центре: [6, 7]
  4. Возьмем среднее значение: 6,5 (медиана).

Преимущества и недостатки медианы

Почему медиана и каковы преимущества ее использования в качестве меры центральной тенденции? Одна важная причина заключается в том, что, в отличие от среднего, он не чувствителен к экстремальным значениям. Например, в списке [2, 3, 4] последнее значение могло быть 400 вместо 4, но медиана останется прежней 3.

Другой хороший случай для медианы - это интерпретация данных. Медиана идеально разделяет данные на две половины, поэтому, если средний доход в округе Ховард составляет 100 000 долларов в год, можно просто сказать, что половина населения в округе имеет более высокий доход, а оставшаяся половина имеет доход ниже 100 000 долларов.

Однако есть очевидный недостаток. Медиана использует положение точек данных, а не их значения. Таким образом, некоторая ценная информация теряется, и нам приходится полагаться на другие виды измерений, такие как меры дисперсии (следующий раздел), чтобы получить больше информации о данных.

Примеры использования

Некоторые применения медианы хорошо известны. Вы заметили, что Бюро переписи населения США указывает доход домохозяйства как «средний доход домохозяйства»? Или Бюро статистики труда сообщает о заработной плате американцев как о «средней заработной плате»? Это связано с тем, что большое количество данных, собранных в ходе обследований или переписей, сильно рассредоточено и имеет как очень маленькие, так и большие значения. В таких случаях медиана является лучшей мерой центра распределений, чем среднее значение.

3. Режим

В списке чисел - скажем, [2, 3, 4, 4] - наиболее часто встречается 4; это режим. Это также может применяться к текстовым данным, например, режим набора {«Джон», «Келли», «Надя», «Джон», «Майкл»} - «Джон», потому что он встречается дважды в этом наборе. имен.

В распределении может быть более одного режима, как в списке [2, 2, 3, 4, 4]; это называется бимодальным распределением дискретной переменной. В соответствии с этой логикой распределение с более чем двумя режимами называется мультимодальным распределением.

Примеры использования

  • Понимание способа распределения важно, потому что часто встречающиеся значения с большей вероятностью будут выбраны в случайной выборке.
  • Какое имя наиболее часто встречается в городе? У Mode есть ответ. Режим понимания помогает решать многие другие проблемы в области обработки естественного языка (NLP).
  • Режим может помочь продуктовой сети выяснить, какой продукт продается больше всего в разные дни недели, месяца или года.

Резюме

Таким образом, центральная тенденция - это важный набор концепций в статистике и науке о данных, который измеряет расположение некоторых наблюдений вокруг центрального значения. Арифметическое среднее - это просто среднее значение точек данных, медиана - это значение в центре набора данных, а режим возвращает наиболее часто встречающееся значение (числовое или текст). Эти меры имеют широкий спектр вариантов использования в науке о данных - от исследовательского анализа данных до измерения показателей точности в алгоритмах классификации и обработки естественного языка.