Что такое стандартное отклонение? Зачем нам это нужно? Почему определенная формула, а не что-то другое?

Представьте, что вас недавно назначили тренером по физкультуре школьной футбольной команды. Вы делитесь своим опытом со своей подругой Арьей, которая преподает психологию. Она спрашивает вас о весе парней, с которыми вы работаете. Какое описание поможет вашему другу представить распределение веса команды?

Вы говорите, что они в среднем весят 65 килограммов. Она отвечает: «О! Они не сильно отличаются от учеников моего класса. Мои ученики в среднем весят одинаково». Но вы интуитивно понимаете, что футболисты, как правило, находятся в лучшей физической форме, чем население в целом. Вы смотрите на оба распределения и находите именно то, что искали: веса футболистов более плотно упакованы вокруг среднего значения, тогда как веса учеников в классе Арьи гораздо больше. более разнообразны, хотя среднее значение для обоих распределений равно 65:

Вы показываете это своей подруге и спрашиваете ее: "Если вы выберете одного человека из футбольной команды и одного из вашего класса, кто, по вашему мнению, с большей вероятностью будет весить ближе к 65?"

Она говорит: «Глядя на распределения, видно, что человек из футбольной команды чаще весит ближе к 65 килограммам. Таким образом, несмотря на то, что оба средства одинаковы, лежащие в их основе популяции по своей сути различны».

Какие дополнительные детали вам нужны, чтобы передать эту изменчивость объективно вашему другу?

Давайте посмотрим, что мы пытаемся передать. Мы хотим передать, насколько разбросаны точки данных от среднего значения. Оно должно быть выражено в виде одного числа, чтобы было ясно, что оно должно быть средним. Чтобы вычислить расстояние точки от среднего, мы можем вычесть среднее значение из этой точки. Чтобы найти среднее, суммируем все эти расстояния:

Но сумма получается нулевой. Это связано с тем, что значения выше среднего точно компенсируют значения ниже среднего. Среднее значение является центром распределения, сумма значений больше среднего равна сумме значений ниже среднего.

Чтобы решить эту проблему, вы решаете взять абсолютные значения отклонений от среднего и суммировать их:

Затем вы делите это на количество наблюдений, чтобы найти среднее отклонение:

Этот показатель, известный как среднее отклонение, достаточно точно отражает разброс. Этот метод обрабатывает все отклонения линейно, независимо от их расстояния от среднего значения. Вдвое большее расстояние от среднего будет дважды способствовать расчету отклонения. Разброс для футболистов, использующих этот метод, составляет 3,6 кг, а для учеников Арьи — 8 кг.

Однако при использовании этого метода есть одно предостережение:

Рассмотрите два наблюдения — 1, 3. Вы хотите найти общий разброс этих наблюдений из определенной точки в этих наблюдениях; скажем, 1,5. При использовании метода абсолютного отклонения общий разброс составит|1–1,5| + |3–1,5| = 2. Если мы хотим измерить общий разброс около 3, ответ будет|1–3| + |3–3| = 2. На самом деле, вы можете выбрать любое значение между [1, 3], и общий разброс будет равен 2. Чем дальше мы движемся от 1, тем ближе мы движемся к 3, и эти движения идеально сбалансированы. Это говорит о том, что 1 и 3 одинаково распределены вокруг 1,5, как и вокруг 2, 1, 3 и т. д.

В зависимости от сценария это может быть или не быть желательным. Бывают случаи, когда вы можете захотеть оштрафовать наблюдения на основе их расстояний от среднего значения. Чем дальше точка от среднего, тем больше вы хотите, чтобы ее вклад в расчет вариации. При таком способе расчета вариации отклонения рассматриваются не линейно, а экспоненциально. Чтобы найти общую вариацию, вы можете возвести в квадрат расстояния точек данных от среднего значения, которое удаляет отрицательные знаки, и сложить их:

Затем вы делите это на количество наблюдений, чтобы найти среднее отклонение:

Эта мера известна как дисперсия. Но поскольку вы возвели в квадрат отклонения, единицы также возводятся в квадрат. Чтобы вернуть их к исходным единицам, вы должны извлечь квадратный корень из общей вариации:

Этот показатель известен как стандартное отклонение. В этом подходе точки данных наказываются экспоненциально в зависимости от их отклонения от среднего значения. Точки, расположенные дальше от среднего, вносят экспоненциально больший вклад в дисперсию, чем точки, расположенные ближе к среднему. Разброс для футболистов, использующих этот метод, составляет 4,25 кг, а для учеников Арьи — 10,19 кг.

Рассмотрите два наблюдения — 1 и 3, и вы хотите найти общий разброс этих наблюдений с определенной точки, скажем, 1,5. При использовании метода квадрата отклонения общий разброс составит(1–1,5)²+ (3–1,5)² = 2,5. Если вы хотите измерить общий разброс около 3, ответ будет(1–3)²+ (3–3)² = 4. Очевидно, что общие спреды меняются по мере того, как вы меняете точки, вокруг которых рассчитывается спред.

Другими словами, этот метод более чувствителен к выбросам. В нашем случае любая из двух метрик является хорошей метрикой для определения разброса распределений. Эти меры в сочетании со средним значением дадут лучшее представление об основных популяциях. Он передает сообщение о том, что, хотя оба распределения имеют одно и то же среднее значение, веса футболистов более тесно связаны со средним значением, чем веса студентов-психологов.

Хотя в этом примере это кажется тривиальным, стандартное отклонение широко используется в статистике, чтобы делать выводы о генеральной совокупности на основе выборки, и служит основой для выводной статистики. Надеюсь, это послужит хорошей отправной точкой для понимания стандартного отклонения в таких ситуациях.