Нормальное распределение - важное понятие в статистике и основа машинного обучения. Специалист по анализу данных должен знать о нормальном распределении, когда он работает с линейными моделями (хорошо работают, если данные распределяются нормально), центральной предельной теореме и исследовательском анализе данных.

Как обнаружил Карл Фридрих Гаусс, Нормальное распределение / Гауссово распределение представляет собой непрерывное распределение вероятностей. Он имеет колоколообразную кривую, симметричную от средней точки до обеих половин кривой.

Математическое определение:

Говорят, что непрерывная случайная величина «x» подчиняется нормальному распределению с параметром μ (среднее значение) и σ (стандартное отклонение), если ее функция плотности вероятности задается следующим образом:

Это также называется нормальным вариантом.

Стандартная нормальная переменная:

Если «x» - нормальная переменная со средним значением (μ) и стандартным отклонением (σ), то,

где z = стандартная нормальная переменная

Стандартное нормальное распределение:

Простейший случай нормального распределения, известный как стандартное нормальное распределение, имеет ожидаемое значение μ (среднее) 0 и σ (s.d.) 1 и описывается этой функцией плотности вероятности,

Характеристики кривой распределения:

  1. Общая площадь под нормальной кривой равна 1.
  2. Это непрерывное распространение.
  3. Он симметричен относительно среднего. Каждая половина распределения является зеркальным отображением другой половины.
  4. Он асимптотичен относительно горизонтальной оси.
  5. Это одномодальный.

Свойства области:

Нормальное распределение предполагает допущения и может быть полностью определено двумя параметрами: средним значением и стандартным отклонением. Если известно среднее значение и стандартное отклонение, вы можете получить доступ к каждой точке данных на кривой.

Эмпирическое правило - это удобная быстрая оценка разброса данных с учетом среднего и стандартного отклонения набора данных, который следует нормальному распределению. В нем говорится, что:

  • 68,26% данных будут находиться в пределах 1 стандартного отклонения от среднего (μ ± 1σ)
  • 95,44% данных будут находиться в пределах 2 SD от среднего (μ ± 2σ)
  • 99,7% данных будут находиться в пределах 3 SD от среднего (μ ± 3σ)
  • 95% — (μ±1.96σ)
  • 99% — (μ±2.75σ)

Таким образом, почти все данные находятся в пределах 3 стандартных отклонений. Это правило позволяет нам проверять выбросы и очень полезно при определении нормальности любого распределения.

Применение в машинном обучении:

В машинном обучении данные, удовлетворяющие нормальному распределению, полезны для построения модели. Это упрощает математику. Такие модели, как LDA, гауссовский наивный байесовский анализ, логистическая регрессия, линейная регрессия и т. Д., Явно рассчитываются из предположения, что распределение является двумерным или многомерным нормальным. Кроме того, сигмовидные функции наиболее естественно работают с нормально распределенными данными.

Многие природные явления в мире подчиняются нормальному логарифмическому распределению, например, финансовые данные и данные прогнозов. Автор Применяя методы преобразования, мы можем преобразовать данные в нормальное распределение. Кроме того, многие процессы следуют нормальности, например, множество ошибок измерения в эксперименте, положение частицы, которая испытывает диффузию, и т. Д.

Поэтому лучше критически изучить данные и проверить базовые распределения для каждой переменной, прежде чем подбирать модель.

Примечание. Нормальность - это предположение для моделей машинного обучения. Необязательно, чтобы данные всегда соответствовали нормам. Модели машинного обучения очень хорошо работают и в случае ненормально распределенных данных. Такие модели, как дерево решений, XgBoost, не предполагают никакой нормальности и также работают с необработанными данными. Кроме того, линейная регрессия статистически эффективна, если только ошибки модели имеют гауссовский характер, а не весь набор данных.

Здесь я проанализировал набор данных о ценах на жилье в Бостоне. Я объяснил методы визуализации и преобразования, а также графики, которые могут подтвердить нормальность распределения.

Методы визуализации:

Гистограммы: . Это своего рода гистограмма, которая представляет собой оценку распределения вероятностей непрерывной переменной. Он определяет числовые данные и разделяет их на одинаковые интервалы, которые представляют собой последовательные неперекрывающиеся интервалы переменной.

kdeplot: это график оценки распределения ядра, который отображает функцию плотности вероятности непрерывных или непараметрических переменных данных, то есть мы можем построить график для одномерных или нескольких переменных вместе.

Анализ функций:

Рассмотрим пример функции rm (среднее количество комнат в доме), очень похожей на нормальное распределение.

Хотя у него есть некоторые искажения в правом хвосте, нам нужно проверить, насколько оно похоже на нормальное распределение. Для этого нам нужно проверить График Q-Q.

Когда квантили двух переменных наносятся друг на друга, полученный график известен как график квантиль-квантиль или qqplot. Этот график дает сводную информацию о том, схожи ли распределения двух переменных в зависимости от местоположения.

Здесь мы ясно видим, что функция не распространяется нормально. Но чем-то это напоминает. Мы можем сделать вывод, что стандартизация (StandardScaler) этой функции перед ее использованием в модели может дать хороший результат.

Центральная предельная теорема и нормальное распределение:

CLT утверждает, что когда мы добавляем большое количество независимых случайных величин в набор данных, независимо от исходного распределения этих переменных, их нормализованная сумма стремится к распределению Гаусса.

Модели машинного обучения обычно обрабатывают данные обучения как смесь детерминированных и случайных частей. Пусть зависимая переменная (Y) состоит из этих частей. Модели всегда хотят выражать зависимые переменные (Y) как некоторую функцию нескольких независимых переменных (X). Если функция является суммой (или выражается как сумма какой-либо другой функции) и количество X действительно велико, тогда Y должен иметь нормальное распределение.

Здесь модели ml пытаются выразить детерминированную часть как сумму детерминированных независимых переменных (X):

детерминированный + случайный = func (детерминированный (1)) +… + func (детерминированный (n)) + model_error

Если вся детерминированная часть Y объясняется X,, то model_erro r отображает только случайную часть и должно иметь нормальное распределение.

Так что, если распределение ошибок нормальное, мы можем предположить, что модель успешна. Остальные некоторые другие функции отсутствуют в модели, но имеют достаточно большое влияние на Y,, либо модель неверна.

Примечание. Ссылку на блог Центральной предельной теоремы можно найти здесь.

Пожалуйста, найдите код здесь.

Использованная литература: