Прояснение нормального распределения и центральной предельной теоремы с примерами на Python

Джон: Привет, Бен, ты знаешь, что такое нормальное распределение.

Бен: Да, я кое-что знаю об этом . Теоретически данные представляют собой колоколообразную кривую плотности, обычно мы представляем ее со средним значением и стандартным отклонением. Среднее - это среднее значение всех значений и стандартного отклонения от ширины разброса данных.

Джон: Да, я читал все это в вики, что 68% данных находятся в пределах 1 стандартного отклонения, 95% данных имеют 2 отклонения и 99,7% данных находятся в пределах 3 стандартных отклонений. Но у меня вопрос: зачем нам это нужно и какие данные следует нормальному распределению.

Бен: Я не статистик, но позвольте мне объяснить вам на языке непрофессионала. Теперь вам нужно будет ответить на несколько быстрых вопросов.

Джон: Хорошо.

Бен: Есть ли у вас дома точные весы.

Джон: У меня есть весы, но они не очень точные. В большинстве случаев он близок к вашему фактическому весу.

Бен: Если я подброшу монетку 100 раз, как вы думаете, сколько раз я бы получил «орел».

Джон: Поскольку вероятность составляет 50%, я бы сказал почти 50 раз.

Бен: Какого возраста студенты вашего университета.

Джон: По-разному, но большинству студентов от 23 до 28 лет, но у нас мало 18 лет и немного 50 лет. Но какое отношение они имеют к нормальному распределению.

Бен: Хорошо, позвольте мне объяснить это сейчас. Всякий раз, когда какие-либо данные имеют общую тенденцию к некоторому значению, они подчиняются нормальному распределению. Это означает, что если кто-то спрашивает о данных, вы можете ответить о поведении данных, говоря в общем, большую часть времени или в среднем и т. Д., Как вы это делали в быстрых вопросах. Например результативность экзаменационного класса, результативность сотрудников любой организации, возраста, роста, веса населения. Среднее значение распределения - это тенденция данных, поскольку большая часть данных относится к этому значению, а стандартное отклонение - это степень разброса. Означает, что если вы взвешиваете себя на весах 100 раз, и его показания колеблются в пределах + -5% от вашего фактического веса, тогда оно имеет низкое стандартное отклонение, и если все значения находятся в пределах 15% от вашего веса, тогда оно будет иметь высокое стандартное отклонение. Речь идет не только о минимальном и максимальном значениях, но и о том, насколько все точки данных отклоняются от среднего. Как видно на изображении ниже, все 4 кривые колокола имеют стандартное отклонение разницы.

Но если вы возьмете данные о росте людей в начальной школе, вы можете получить в данных 2 кривые колокола. Одна кривая для роста учителя и одна для роста ученика.

Позвольте мне показать вам нормальное распределение на нашем примере монеты. Я собираюсь написать код на Python, чтобы генерировать случайный выбор из (0,1) 200 раз (0 - хвост, а 1 - голова). И я бы посчитал, сколько раз мы получали голову. Я проделаю этот процесс 1000 раз и попытаюсь построить гистограмму данных. И, как показано ниже, эти данные обычно распределяются и следуют правилу 68–95–99.

Джон: Хорошо, я понял. Но почему в центральной предельной теореме говорится, что любые данные будут следовать нормальному распределению.

Бен: Это не говорит о том, что какие-либо данные будут соответствовать нормальному распределению. В нем говорится, что «в большинстве ситуаций, когда добавляются независимые случайные величины, их правильно нормализованная сумма стремится к нормальному распределению (неформально« кривая »), даже если сами исходные переменные не имеют нормального распределения. ”

Это означает, что вы берете любые данные, которые могут не иметь нормального распределения, берете множество выборок данных и вычисляете среднее значение каждой выборки. Согласно центральной предельной теореме, средние значения всех выборок должны иметь нормальное распределение.

Позвольте мне еще раз показать вам пример: я случайным образом сгенерирую 100 000 чисел от 0 до 90. Я пытаюсь смоделировать данные для возраста 100 000 человек. Эти данные будут полностью случайными и не будут соответствовать нормальному распределению. Как вы можете видеть на изображении ниже:

Затем я брал случайную выборку (от 80 до 140) данных и брал среднее значение каждой выборки.

Затем я построил бы гистограмму среднего значения всех образцов, и она должна быть нормально распределена.

И, как вы можете видеть, он имеет распределение кривой колокола и соответствует нормальному распределению.