Распределения являются неотъемлемой частью машинного обучения, поскольку помогают анализировать данные. Вероятность предоставляет теоретическую концепцию, лежащую в основе этого, тогда как распределение помогает нам визуализировать данные.

Предварительные требования:

Есть два типа переменных:

  1. Дискретная переменная: поскольку дискретная относится к каждому отдельному значению, например, количество учеников в классе, ответы на вопросы теста даны правильно.
  2. Непрерывная переменная: относится к переменной данных, где информация измеряется на шкале, например, рост учеников в классе, температура и т. Д.

Темы содержания:

  1. Гауссово / нормальное распределение
  2. Равномерное распределение
  3. Биномиальное распределение
  4. Распределение Бернулли
  5. Журнал Нормальное распределение
  6. Распределение степенного закона

Нормальное распределение (среднее = 0, дисперсия = конечное)

Это также называется распределением Гаусса. В этом типе распределения данные симметричны относительно среднего значения, показывая, что данные чаще встречаются около среднего. Это распределение иногда также называют распределением кривой Белла из-за его формы.

Для x, который является случайной непрерывной величиной, функция распределения вероятностей (PDF) строится с использованием этого уравнения, которое представляет собой плотность вероятности нормального распределения.

куда,

x = случайная непрерывная переменная

σ = стандартное отклонение и σ² = дисперсия

μ = среднее

если предположить: μ = 0 и σ² = 1

тогда это уравнение примет вид (без учета постоянных членов)

y = exp (-x²), что выглядит как колоколообразная кривая.

затем это следует по кривой, подобной этой, поскольку значение μ = 0, т.е. среднее значение равно 0, если значение дисперсии увеличивается, кривая станет более толстой, а пик уменьшится, как показано на кривой красной и оранжевой линиями. .

Свойства нормального распределения:

  1. По мере увеличения x значение x² будет увеличиваться, а уравнение y = exp (-x²) будет уменьшаться.
  2. Это симметричная кривая, так как его левая сторона равна правой стороне, то есть это никогда не искаженное распределение.
  3. Кривая следует за правилом 68–95–99,7, в котором говорится, что 68% распределения будет до 1σ, 95% - до 2σ и 99,7% до 3σ.

4. Функция совокупной плотности:

Он определяется как вероятность того, что X примет значение меньше x, и рассчитывается как площадь под кривой PDF.

На кривой по мере увеличения значения дисперсии кривая уходит от горизонтальной линии x = 0, как показано синей, красной и желтой линиями.

Стандартная нормальная переменная (z):

z~ N(μ=0,σ²=1)

где z - случайная величина, соответствующая нормальному распределению среднего значения = 0 и дисперсии = 1.

Итак, для x = {x1, x2, x3 ………} следующее Нормальное распределение, имеющее μ, σ²

x~ N(μ,σ²)

затем они стандартизируются путем преобразования каждого xi в x с помощью

xi’=xi -μ/σ

так что теперь x ~ N (μ = 0, σ² = 1)

Графики Q-Q:

Это графический метод, который используется для определения, является ли распределение гауссовым / нормальным распределением или нет?

Шаги для построения графиков Q-Q:

  1. Отсортируйте все xi в порядке возрастания и вычислите их процентили.
  2. Y ~ N (μ = 0, σ² = 1), где Y является стандартным нормальным распределением, где y также отсортированы по возрастанию, а y - это процентили y.
  3. Теперь график Q-Q строится с использованием значений процентилей x и y, где y находятся на оси x, которая является теоретическими величинами, а x - на оси y.
  4. Если y для всех yi и x для всех xi находятся на прямой линии, тогда, если это так, то распределение по оси y является распределенным по Гауссу.

Ограничения графика Q-Q:

Если размер выборки распределения меньше, то трудно определить, является ли распределение гауссовым или нет.

2. Равномерное распределение

2.1 Дискретное равномерное распределение:

Функция вероятности массы (которая рассчитывается для дискретной случайной переменной) определяется как случай, когда конечное число переменных с равной вероятностью может наблюдаться, когда каждая переменная имеет вероятность 1 / n, где n не является конечным значением.

Обозначение: U {a, b} или unif {a, b}

куда ,

b≥a и n = b-a + 1

Итак, здесь n = 5, где a = 2 и b = 6, и каждая переменная имеет вероятность 1/6.

2.2 Равномерное непрерывное распределение:

Функция плотности вероятности (которая рассчитывается для непрерывной случайной величины) определяется как симметричное вероятностное распределение, в котором случайные величины в интервале равновероятны с вероятностью 1 / (b-a)

Обозначение: U (a, b)

где a и b определены как минимальное и максимальное значения

3. Биномиальное распределение и распределение Бернулли:

Это дискретное вероятностное распределение с параметрами n и p, где n - количество следов (независимых следов), а p - вероятность успеха каждого испытания, где каждая переменная имеет логический результат (Да, т.е. Вероятность = p / Нет, т.е. Вероятность = 1-п)

Замечание: X ~ B (n, p)

Здесь функция массы вероятности для случайной величины X определяется, когда

n € N (размер популяции) и p € [0,1]

где k успехов происходит с вероятностью p ^ k и n-k неудач с вероятностью (1 - p) n - k

4. Особый случай: когда n = 1, тогда распределение называется распределением Бернулли, которое принимает случайную величину, которая принимает выходное значение как 1 как вероятность успеха (p) и q = 1-p.

Вероятностная функция масс,

5. Нормальное распределение журнала:

Это непрерывное распределение вероятностей случайной величины, логарифм которой нормально распределен. Здесь случайная величина, которая является логарифмически нормальным распределением, будет принимать только положительные значения.

ln(X) ~ N(μ,σ²)

Функция плотности вероятности аналогична распределению Гаусса,

Здесь с увеличением значения дисперсии кривая становится толще.

Важность нормального распространения журнала:

Этот тип распределения часто встречается в электронной коммерции, поведении людей, науке, технологиях и многих других областях.

  1. Длина комментариев, размещаемых в дискуссионных форумах в Интернете, соответствует нормальному логарифмическому распределению.
  2. Длина комментариев, размещаемых в дискуссионных форумах в Интернете, соответствует нормальному логарифмическому распределению.
  3. В компьютерных сетях и анализе Интернет-трафика логнормальное значение используется как хорошая статистическая модель для представления количества трафика в единицу времени.

6. Распределение по степенному закону:

Степенной закон - это функция, в которой относительное изменение одной величины приводит к пропорциональному относительному изменению другой величины, то есть одна величина изменяется как степень другой.

Здесь, на графике ниже, хвост кривой очень длинный, тогда как слева преобладает количество точек. Это соответствует правилу 80–20.

Правило 80–20 называется правилом Парето, а следующее за ним распределение называется распределением Парето или распределением по закону мощности, например, 80% благосостояния общества принадлежит 20% населения.

PDF: где альфа, которая называется индексом хвоста или параметром формы, который также называется положительным параметром, если это распределение используется для моделирования распределения богатства, то этот индекс называется индексом Парето.

Когда альфа становится бесконечной, кривая становится дельта-функцией Дирака, где значение функции равно нулю везде, кроме одной точки здесь, в 1.

Связь между логарифмически нормальным натяжением и распределением Парето:

Распределение Парето и логнормальное распределение - это альтернативные распределения для описания одних и тех же типов величин. Одна из связей между ними заключается в том, что они оба являются распределениями экспоненты случайных величин, распределенных согласно другим общим распределениям, соответственно экспоненциальному распределению и нормальному распределению.

Как определить, является ли распределение распределением Парето?

Это делается путем построения графика логарифма x и логарифма y по оси x и оси y.

Если кривая следует за прямой линией, тогда распределение является Распределением потерь мощности.

Как преобразовать степенное распределение в распределение Гаусса:

Преобразование Бокса Кокса:

Преобразование Бокса-Кокса - это способ преобразования ненормальных зависимых переменных в нормальную форму.

В основе преобразования Бокса Кокса лежит показатель степени, лямбда (λ), который варьируется от -5 до 5. Учитываются все значения λ и выбирается оптимальное значение для ваших данных; Оптимальное значение - это значение, которое дает наилучшее приближение к кривой нормального распределения. Преобразование Y имеет вид:

Например

График Бокса-Кокса

Значение лямбда указывает степень, до которой должны быть повышены все данные. Для этого степенное преобразование Бокса-Кокса выполняет поиск от Лямбда = -5 до Лямбда = +5, пока не будет найдено лучшее значение.

Преобразование мощности Бокса-Кокса не является гарантией нормальности. Это потому, что на самом деле он не проверяет нормальность; метод проверяет наименьшее стандартное отклонение. Предполагается, что среди всех преобразований со значениями лямбда между -5 и +5 у преобразованных данных самая высокая вероятность - но не гарантия - нормального распределения при наименьшем стандартном отклонении. Следовательно, абсолютно необходимо всегда проверять преобразованные данные на нормальность с помощью вероятностного графика.

Кроме того, преобразование мощности Бокса-Кокса работает только в том случае, если все данные положительны и больше 0. Это, однако, обычно легко достигается путем добавления константы c ко всем данным, так что все они становятся положительными до преобразования.

Ссылки:

  1. Https://desktop.arcgis.com/en/arcmap/latest/extensions/geostatistical-analyst/normal-qq-plot-and-general-qq-plot.htm
  2. Https://en.wikipedia.org/wiki/Cumulative_distribution_function
  3. Https://www.katemarshallmaths.com/chapter-3-bell-shaped-distribution.html
  4. Https://en.wikipedia.org/wiki/Normal_distribution
  5. Https://techcrunch.com/2018/09/24/microsofts-machine-learning-tools-for-developers-get-smarter/

Пожалуйста, найдите мой профиль в Linkedin