Асимметрия – это важная мера формы распределения вероятностей, которая может существенно повлиять на статистический анализ. Это мера симметрии или асимметрии набора данных относительно его среднего значения.

В этом сообщении блога мы обсудим, что такое асимметрия, как ее вычислить и как она связана со средним значением и медианой.

Что такое асимметрия?

Асимметрия — это мера отклонения от нормального распределения в распределении вероятностей. Он говорит нам, является ли распределение симметричным или нет. Если распределение симметрично, среднее значение и медиана совпадают, и распределение имеет нулевую асимметрию. Однако, если распределение несимметрично, среднее значение и медиана могут различаться, и распределение будет иметь ненулевую асимметрию.

Типы асимметрии:

Существует два типа асимметрии:

Положительная асимметрия:

Когда хвост распределения длиннее с правой стороны, говорят, что распределение имеет положительную асимметрию. Это указывает на то, что в левой части распределения больше наблюдений, а в правой — несколько экстремальных значений.

Отрицательная асимметрия:

Когда хвост распределения длиннее с левой стороны, говорят, что распределение имеет отрицательную асимметрию. Это указывает на то, что в правой части распределения больше наблюдений, а в левой — несколько экстремальных значений.

Как рассчитать асимметрию?

Существуют различные формулы для расчета асимметрии, но одной из наиболее часто используемых формул является моментный коэффициент асимметрии Пирсона. Формула выглядит следующим образом:

Асимметрия = 3*(среднее — медиана) / стандартное отклонение

Если значение асимметрии равно нулю, распределение симметрично. Если значение асимметрии отрицательное, распределение имеет отрицательную асимметрию, а если значение асимметрии положительное, распределение имеет положительную асимметрию.

Влияние асимметрии на среднее и медиану:

Как упоминалось ранее, асимметрия говорит нам об асимметрии распределения. Это также влияет на среднее значение и медиану.

Если распределение симметрично, среднее значение и медиана совпадают. Однако, если распределение асимметрично, среднее значение и медиана будут различаться.

При положительно асимметричном распределении среднее значение больше медианы, а при отрицательно асимметричном распределении среднее значение меньше медианы. Это связано с тем, что на среднее значение влияют экстремальные значения или выбросы, тогда как на медиану эти значения не влияют.

Рассмотрим пример положительной асимметрии. Предположим, у нас есть набор данных о зарплатах сотрудников компании, как показано ниже:

$30,000, $40,000, $50,000, $60,000, $70,000, $80,000, $90,000, $100,000, $1,000,000

В этом примере большинство зарплат сгруппировано между 30 000 и 100 000 долларов США, и только одно предельное значение составляет 1 000 000 долларов США. Этот набор данных имеет положительную асимметрию, поскольку хвост распределения длиннее с правой стороны.

Если мы вычислим среднее значение и медиану этого набора данных, мы получим:

Среднее значение = (30 000 долл. США + 40 000 долл. США + 50 000 долл. США + 60 000 долл. США + 70 000 долл. США + 80 000 долл. США + 90 000 долл. США + 100 000 долл. США + 1 000 000 долл. США) / 9 = 168 888,88 долл. США.

Медиана = 70 000 долларов США

Как мы видим, среднее значение намного больше, чем медиана, которая смещена вправо на максимальное значение в 1 000 000 долларов. В этом случае медиана является лучшим показателем центральной тенденции, чем среднее значение.

Теперь давайте рассмотрим пример отрицательной асимметрии. Предположим, у нас есть набор данных тестовых результатов учащихся в классе, как показано ниже:

1, 60, 70, 80, 90, 100, 110, 120, 130

В этом примере большинство оценок сгруппировано в верхней части распределения, и лишь несколько более низких оценок. Этот набор данных имеет отрицательную асимметрию, поскольку хвост распределения длиннее с левой стороны. Если мы вычислим среднее значение и медиану этого набора данных, мы получим:

Среднее = (1 + 60 + 70 + 80 + 90 + 100 + 110 + 120 + 130) / 8 = 84,55

Медиана = 90

Как мы видим, среднее значение меньше медианы, которая смещена влево несколькими более низкими оценками. В этом случае медиана является лучшим показателем центральной тенденции, чем среднее значение.

Заключение

В заключение, асимметрия данных является важной концепцией, которую необходимо понимать при анализе данных. Искаженные данные могут оказывать существенное влияние на среднее значение и медиану, при этом на среднее значение больше влияют экстремальные значения, а медиана более устойчива к выбросам.