Статистика для машинного обучения: меры центральной тенденции

Все проекты Data Science должны начинаться с: исследовательского анализа данных, а каждый EDA должен очищать данные, а затем начинать с описательной статики.

Этот пост является первым из списка описательной статистики для EDA.

Меры центральной тенденции

Также известная как мера местоположения, она должна быть одной из первых статистических данных, вычисляемых для всех непрерывных переменных набора данных.

Среднее арифметическое

Этот показатель центральности, который иногда называют средним или средним, хорошо сочетается с интервалом, данными отношения и непрерывными переменными.

Чтобы вычислить среднее значение, нужно получить сумму всех элементов и разделить ее на количество элементов.

Когда мы выражаем среднее значение переменной, например x или возраст, мы используем те же имена, выделенные сверху.

Среднее как центральная тенденция может быть смещенным, например, если данные содержат 2 элемента, которые сильно отличаются от остальных, эти элементы будут влиять на распределение данных, и результат будет иметь тенденцию быть ближе к этим выбросам. Поясним это на примере:

  • Случай 1. Среднее - хороший показатель центральной тенденции.

  • Случай 2: Среднее значение не является хорошей метрикой центральной тенденции.

Один из способов решения этой проблемы, который используется с помощью Винсоризованного среднего, также известного как усеченное среднее, - это отбрасывать процент от крайних значений, в последнем примере будет вычислено среднее значение. сбросив значение -50, результат будет 2,5.

Медиана

Это среднее значение упорядоченных данных, оно оставляет половину значений с каждой стороны. Если данные асимметричны или содержат выбросы, медиана является лучшим показателем центральности, чем среднее значение, потому что она не заботится о значениях.

Способ вычисления медианы зависит от количества элементов, первая часть - товар, упорядочить данные по возрастанию или убыванию.

  • Если количество элементов нечетное, центральным элементом будет медиана.
  • Если количество элементов четное, медиана будет средним значением двух элементов центра.

Примеры:

Во втором примере мы видим, как выброс не изменяет результаты.

Режим

Он относится к наиболее повторяющемуся значению в данных, он рассчитывается путем подсчета количества раз, когда каждое значение появляется в данных, и получения значений с большим количеством появлений. Подводя итог, самое обыкновенное значение.

Чаще всего используется для порядковых или категориальных данных.

Пример расчета режима:

Чтобы использовать режим для непрерывных данных, статики обычно преобразуют данные, используя стандартные диапазоны (диапазоны одинаковой длины, считая количество элементов, которые попадают в пределы), потому что, если мы используем все возможные значения, это будет очень сложно. чтобы получить элемент с хорошим внешним видом.

Связь между метриками и распределением данных

В идеально симметричных переменных все 3 показателя будут одинаковыми, но при асимметричном или асимметричном распределении они будут отличаться.

Если данные смещены влево, среднее значение будет ниже медианы, в противном случае, если данные смещены вправо, медиана будет ниже среднего.

Резюме

Центральная тенденция полезна для обозначения центральных значений переменных в наших наборах данных, они являются одним из первых элементов для анализа перед любым машинным обучением, предоставляя специалистам по данным базовую информацию о данных, которая может привести к ответам на важные вопросы, как если бы мы нормализовали данные или нет? и т. д.

Следующее сообщение из этой серии о Мерах Дисперсии здесь:



Предыдущий пост из этой серии о теореме Байеса здесь:



Это пятая публикация моего конкретного # 100daysofML, я буду публиковать достижения в этой задаче на github, twitter и Medium.

Https://twitter.com/CrunchyML

Https://github.com/CrunchyPistacho/100DaysOfML