Неспециалисты называют его Средним, а статистики называют его Средним арифметическим. Среднее значение является одним из наиболее часто используемых показателей центральной тенденции. Одно значение показывает нам центр данных и то, как эти данные выглядят. Но у него есть свои оговорки;

Экстремальные значения

Ситуация возникает, когда отдельное или группа наблюдений в данных слишком высока или низка. Такое число сильно повлияет на среднее значение. Давайте посмотрим на пример 10учащихся, набравших баллы за викторину по математике по шкале 100.

Среднее значение наблюдений будет приблизительно 50, что неверно. Если посмотреть данные. Большинство оценок учащегося находится в пределах 30–45, но благодаря двум учащимся с высокими оценками 95 и 98. Среднее значение означает, что центр данных находится на 50, что неверно!

Удалив два числа и получив среднее,

у вас есть приблизительно 38, что описывает, как выглядит центр данных.

Отсутствующие значения

В отличие от моды и медианы, мы не можем вычислить среднее значение, если значение отсутствует. Используя тот же пример выше,

Здесь отсутствует 8-я точка данных, но каким бы ни было значение, мы уверены, что режим 35, а медиана 40,5.

Осмотром определить нельзя.

В отличие от моды и медианы, которые мы можем найти, наблюдая за данными, нам нужно выполнить вычисления, чтобы получить среднее значение. Хотя иногда это можно считать преимуществом среднего над медианой и модой. Потому что мы уверены, что результаты не предвзяты исследователем.

нельзя определить графически

В отличие от медианы, которую мы можем определить, рисуя кумулятивную кривую частоты,

или режим, который мы можем визуализировать, найдя самую высокую точку на гистограмме. Это невозможно со средним значением.

Разница в последствиях

Два студента могут иметь одинаковое среднее значение, но иметь разные последствия;

Их среднее значение может быть одинаковым, но Учащийся А становится хуже, а Учащийся Б улучшается.

Несмотря на свои минусы, у среднего все же есть некоторые преимущества:

  • Он прост в использовании и понимании
  • На него меньше всего влияет выборка. Среднее значение выборки из совокупности, которое мы можем использовать для определения всего среднего значения совокупности. Отсюда и надежность.
  • Его важные математические свойства делают его популярным в логической статистике.

Заключение

Знание средней слабости позволит Data Scientist понять, когда ее не использовать.

Таким образом, мы знаем, что среднее значение будет плохой мерой, когда у нас есть экстремальные и пропущенные значения в наборе данных. Мы не можем использовать его, чтобы сделать вывод или увидеть его с помощью визуализации.