Асимметрия – это важная мера формы распределения вероятностей, которая может существенно повлиять на статистический анализ. Это мера симметрии или асимметрии набора данных относительно его среднего значения.
В этом сообщении блога мы обсудим, что такое асимметрия, как ее вычислить и как она связана со средним значением и медианой.
Что такое асимметрия?
Асимметрия — это мера отклонения от нормального распределения в распределении вероятностей. Он говорит нам, является ли распределение симметричным или нет. Если распределение симметрично, среднее значение и медиана совпадают, и распределение имеет нулевую асимметрию. Однако, если распределение несимметрично, среднее значение и медиана могут различаться, и распределение будет иметь ненулевую асимметрию.
Типы асимметрии:
Существует два типа асимметрии:
Положительная асимметрия:
Когда хвост распределения длиннее с правой стороны, говорят, что распределение имеет положительную асимметрию. Это указывает на то, что в левой части распределения больше наблюдений, а в правой — несколько экстремальных значений.
Отрицательная асимметрия:
Когда хвост распределения длиннее с левой стороны, говорят, что распределение имеет отрицательную асимметрию. Это указывает на то, что в правой части распределения больше наблюдений, а в левой — несколько экстремальных значений.
Как рассчитать асимметрию?
Существуют различные формулы для расчета асимметрии, но одной из наиболее часто используемых формул является моментный коэффициент асимметрии Пирсона. Формула выглядит следующим образом:
Асимметрия = 3*(среднее — медиана) / стандартное отклонение
Если значение асимметрии равно нулю, распределение симметрично. Если значение асимметрии отрицательное, распределение имеет отрицательную асимметрию, а если значение асимметрии положительное, распределение имеет положительную асимметрию.
Влияние асимметрии на среднее и медиану:
Как упоминалось ранее, асимметрия говорит нам об асимметрии распределения. Это также влияет на среднее значение и медиану.
Если распределение симметрично, среднее значение и медиана совпадают. Однако, если распределение асимметрично, среднее значение и медиана будут различаться.
При положительно асимметричном распределении среднее значение больше медианы, а при отрицательно асимметричном распределении среднее значение меньше медианы. Это связано с тем, что на среднее значение влияют экстремальные значения или выбросы, тогда как на медиану эти значения не влияют.
Рассмотрим пример положительной асимметрии. Предположим, у нас есть набор данных о зарплатах сотрудников компании, как показано ниже:
$30,000, $40,000, $50,000, $60,000, $70,000, $80,000, $90,000, $100,000, $1,000,000
В этом примере большинство зарплат сгруппировано между 30 000 и 100 000 долларов США, и только одно предельное значение составляет 1 000 000 долларов США. Этот набор данных имеет положительную асимметрию, поскольку хвост распределения длиннее с правой стороны.
Если мы вычислим среднее значение и медиану этого набора данных, мы получим:
Среднее значение = (30 000 долл. США + 40 000 долл. США + 50 000 долл. США + 60 000 долл. США + 70 000 долл. США + 80 000 долл. США + 90 000 долл. США + 100 000 долл. США + 1 000 000 долл. США) / 9 = 168 888,88 долл. США.
Медиана = 70 000 долларов США
Как мы видим, среднее значение намного больше, чем медиана, которая смещена вправо на максимальное значение в 1 000 000 долларов. В этом случае медиана является лучшим показателем центральной тенденции, чем среднее значение.
Теперь давайте рассмотрим пример отрицательной асимметрии. Предположим, у нас есть набор данных тестовых результатов учащихся в классе, как показано ниже:
1, 60, 70, 80, 90, 100, 110, 120, 130
В этом примере большинство оценок сгруппировано в верхней части распределения, и лишь несколько более низких оценок. Этот набор данных имеет отрицательную асимметрию, поскольку хвост распределения длиннее с левой стороны. Если мы вычислим среднее значение и медиану этого набора данных, мы получим:
Среднее = (1 + 60 + 70 + 80 + 90 + 100 + 110 + 120 + 130) / 8 = 84,55
Медиана = 90
Как мы видим, среднее значение меньше медианы, которая смещена влево несколькими более низкими оценками. В этом случае медиана является лучшим показателем центральной тенденции, чем среднее значение.
Заключение
В заключение, асимметрия данных является важной концепцией, которую необходимо понимать при анализе данных. Искаженные данные могут оказывать существенное влияние на среднее значение и медиану, при этом на среднее значение больше влияют экстремальные значения, а медиана более устойчива к выбросам.