Это третья серия статей по статистике, в которой мы будем обсуждать интеграцию и применение вероятности в статистике.

Для предыдущих двух статей вы можете проверить мой профиль, где я кратко обсудил описательную статистику и важный жаргон, связанный с ней.

Случайная переменная

Что такое случайные величины в статистике и вероятности?

Можно сказать, что случайные переменные представляют собой набор результатов случайного эксперимента.

Например, если мы проводим эксперимент по бросанию игральной кости, единственными возможными результатами могут быть {1,2,3,4,5,6}, и это называется случайной переменной.

Типы случайных величин

  1. Дискретные случайные переменные. Дискретная случайная величина — это переменная, которая может принимать только счетное число различных значений. Это часто связано с проблемами подсчета и принимает целые значения. Примеры включают количество детей в семье, количество автомобилей на стоянке, количество выпавших орлов при подбрасывании монеты и количество покупателей, прибывающих в магазин.
  2. Непрерывные случайные переменные. Непрерывная случайная величина — это переменная, которая может принимать любое значение в пределах определенного диапазона или интервала. Он часто связан с проблемами измерения и принимает реальные значения. Примеры включают рост человека, вес фрукта, температуру в комнате и время, необходимое для выполнения задачи.

Функция распределения вероятностей

Распределение вероятностей — это список всех возможных результатов вместе с соответствующими значениями вероятности. Он показывает, насколько вероятно появление каждого возможного значения.

Вот один пример суммы двух игральных костей, когда они бросаются одновременно:

А вероятности исходов таковы:

Итак, как видно из рисунка, соответствующие вероятности представлены очень лаконично.

Но табличное представление результатов невозможно в сложных сценариях. Например, создать таблицу суммы результатов одновременно на 10 игральных костях, после чего на сцену выходит математическая функция.
Математическая функция может определить формулу вероятности данного набора результатов эксперимента. Проще говоря, если мы проводим эксперимент по прокатке игральной кости, то функция может быть определена как

f(x) = 1/6, если x принадлежит {1,2,3,4,5,6} или иначе 0.

Типы вероятностных распределений

  1. Дискретное. Распределение вероятностей называется дискретным, если его случайная величина принимает только конечное или счетно бесконечное число различных значений.
  2. Непрерывное. Распределение вероятности называется непрерывным, если его случайная величина может принимать любое значение в пределах определенного диапазона или интервала.

Известные распределения вероятностей

Вот некоторые из известных распределений вероятностей, которым следуют.

Распределения вероятностей важны, поскольку они дают вам представление о данных, и если наши данные следуют одному из известных распределений, тогда мы можем получить решающее понимание данных, которые мы можем использовать в нашем анализе.

Есть два основных аспекта функций распределения вероятностей:

  1. Функция массы вероятности (PMF)
  2. Функция плотности вероятности (PDF)

Функция массы вероятности (PMF)

Функция массы вероятности — это способ описать вероятность того, что дискретная случайная величина примет определенное значение.

Например, предположим, что у нас есть дискретная случайная величина X, которая может принимать значения 1, 2, 3 и 4, каждое с вероятностью 0,1, 0,3, 0,2 и 0,4 соответственно. PMF X будет:

P(X = 1) = 0.1

P(X = 2) = 0.3

P(X = 3) = 0.2

P(X = 4) = 0.4

Обратите внимание, что вероятности должны удовлетворять двум условиям: они должны быть неотрицательными и в сумме должны равняться 1.

Кумулятивная функция распределения (CDF) PMF

Кумулятивная функция распределения (CDF) функции массы вероятности (PMF) — это функция, которая дает вероятность того, что случайная величина меньше или равна определенному значению. CDF PMF определяется как:

F(x) = P(X ≤ x)

где X — дискретная случайная величина, а F(x) — CDF X при значении x.

Чтобы найти CDF PMF, нам нужно просуммировать вероятности всех возможных значений X, которые меньше или равны x. Например, предположим, что у нас есть PMF дискретной случайной величины X:

P(X = 1) = 0.2

P(X = 2) = 0.3

P(X = 3) = 0.4

P(X = 4) = 0.1

Чтобы найти CDF X при x = 2, нам нужно просуммировать вероятности всех возможных значений X, которые меньше или равны 2:

F(2) = P(X ≤ 2) = P(X = 1) + P(X = 2) = 0.2 + 0.3 = 0.5

Это означает, что существует 50%-ная вероятность того, что X меньше или равно 2. Аналогичным образом мы можем рассчитать CDF для других значений x.

Функция плотности вероятности

Функция плотности вероятности (PDF) — это математическая функция, которая описывает вероятность того, что непрерывная случайная величина примет определенное значение в заданном диапазоне. В отличие от функции массы вероятности (PMF), которая используется для дискретных случайных величин, PDF используется для непрерывных случайных величин.

PDF определяется таким образом, что площадь под кривой между двумя точками на оси X представляет вероятность того, что случайная величина попадает в этот диапазон. Общая площадь под кривой должна быть равна 1.

Мы можем рассчитать вероятность появления значений между двумя значениями, вычислив площадь кривой, лежащей между теми же двумя значениями, интегрируя функцию, и установив верхний и нижний пределы, используя эти два числа.

Оценка плотности

Оценка плотности — это статистический метод, при котором мы вычисляем функцию плотности вероятности для заданного набора данных. Проще говоря, это включает в себя оценку базовой оценки данных.

Оценка плотности может использоваться для различных целей, таких как проверка гипотез, анализ данных и визуализация данных. Это особенно полезно в таких областях, как машинное обучение, где оно часто используется для оценки распределения вероятностей входных данных или для моделирования вероятности определенных событий или результатов.

Существуют различные методы оценки плотности, включая параметрический и непараметрический подходы. Параметрическиеметоды предполагают, что данные подчиняются определенному распределению вероятностей (например, нормальному распределению), в то время как непараметрические методы не делают никаких предположений о распределении, а вместо этого оценивают его. непосредственно из данных.

Параметрическая оценка плотности

Оценка параметрической плотности — это метод оценки функции плотности вероятности (PDF) случайной величины путем предположения, что базовое распределение принадлежит определенному параметрическому семейству распределений вероятностей, например нормальному, экспоненциальному или распределению Пуассона.

Давайте возьмем пример этого, мы рассчитаем функцию плотности вероятности данных, которые будут следовать нормальному распределению, поскольку параметрический метод работает на предположении о типе распределения, которому следуют наши данные.

import matplotlib.pyplot as plt
import numpy as np
from numpy.random import normal

sample = normal(loc=50, scale=5,size=1000)
#We are generating sample of 1000 values with mean 50 and standard deviation 5.

Теперь построим гистограмму.

# plot histogram to understand the distribution of data
plt.hist(sample,bins=10)

# calculate sample mean and sample std dev
sample_mean = sample.mean()
sample_std = sample.std()

# fit the distribution with the above parameters

from scipy.stats import norm
dist = norm(sample_mean, sample_std)

То, что мы точно сделали в приведенной выше части, сначала мы вычислили среднее значение выборки и стандартное отклонение выборки.

На втором этапе мы настроили уравнение функции нормального распределения с вычислением выборочного среднего и выборочного стандартного отклонения.

# We are generating 100 values here using numpy between sample minimum and sample maxiumum values
values = np.linspace(sample.min(),sample.max(),100)
probabilities = [dist.pdf(value) for value in values]

Затем мы, наконец, строим распределение выборки в виде гистограмм и линейного графика, используя сгенерированные значения и соответствующие вероятности.

# plot the histogram and pdf
plt.hist(sample,bins=10,density=True)
plt.plot(values,probabilities)

Итак, поскольку мы заключаем, что в случае параметрической оценки мы делаем предположение о том, что наши данные имеют распределение, подобное известному распределению, и с помощью параметров (среднее и стандартное отклонение в случае нормального распределения), мы смогли получить функцию плотности вероятности для наших данных.

Непараметрическая оценка плотности

Непараметрическая оценка плотности — это статистический метод, используемый для оценки функции плотности вероятности случайной величины без каких-либо предположений об основном распределении. Его также называют непараметрической оценкой плотности, поскольку он не требует
использования предопределенной функции распределения вероятностей, в отличие от параметрических методов, таких как нормальное распределение.

Метод непараметрической оценки плотности включает в себя построение оценки функции плотности вероятности с использованием доступных данных. Обычно это делается путем создания оценки плотности ядра.

Непараметрическая оценка имеет несколько преимуществ перед параметрической оценкой:

  1. Гибкость. Непараметрические методы не требуют предположения о функциональной форме базового распределения данных. Это позволяет им быть более гибкими и применимыми к более широкому диапазону наборов данных.
  2. Надежность. Непараметрические методы менее чувствительны к выбросам и отклонениям от нормальности, поскольку они не предполагают определенной формы распределения. Следовательно, они могут обеспечить более точные оценки в случаях, когда основное распределение неизвестно или может отклоняться от предполагаемой параметрической формы.
  3. Отсутствие предвзятости. Параметрические методы часто предполагают предположения о базовом распределении, которые в действительности могут не соответствовать действительности. Непараметрические методы не делают таких предположений и, следовательно, не имеют смещения.

Оценка плотности ядра (KDE)

Техника KDE включает использование функции ядра для сглаживания данных и создания непрерывной оценки базовой функции плотности.

Исходное представление данных в гистограмме дано на левом рисунке, а распределение вероятностей рассчитано с помощью KDE, как показано на правом рисунке.

KDE использует каждую точку данных для оценки распределения вероятностей таким образом, что нормальное распределение для каждой точки данных сохраняется как среднее значение, а затем для каждой точки, если мы попытаемся провести вертикальную линию под углом 90 градусов от этой точки до пересечения. распределение Гаусса, если вертикальная линия пересекает два нормальных распределения, то она добавляется, и конечная точка отображается на оси Y, это делается для каждой точки, а затем линия соединяется через все конечные точки, как синий линия формируется на правом изображении.

Существует гиперпараметр с именем пропускная способность, который должен быть настроен на правильное значение, чтобы получить сглаженную кривую, если его значение будет слишком меньше, то стандартное отклонение также будет меньше, и расстояние между данными будет меньше, что приведет к кривая с шипами, то в графическом линейном представлении будет сформировано много шипов, и если его значение будет слишком большим, то форма кривой будет слишком сглаженной.

Попробуем оценить распределение вероятностей, используя метод KDE в Python.

# generate a sample
sample1 = normal(loc=20, scale=5, size=300)
sample2 = normal(loc=40, scale=5, size=700)
sample = np.hstack((sample1, sample2))

# plot histogram bins=50
plt.hist(sample,bins=50)

Мы создали собственную выборку данных, где распределение данных не имеет сходства ни с одним из известных распределений.

from sklearn.neighbors import KernelDensity

model = KernelDensity(bandwidth=5, kernel='gaussian')

# convert data to a 2D array
sample = sample.reshape((len(sample), 1))

model.fit(sample)

Здесь мы импортировали модель KernelDensity и настроили параметр пропускной способности на значение 3, а ядро ​​другого параметра — на «гауссовское», так как мы хотим, чтобы вокруг каждой точки данных было создано нормальное распределение, чтобы создать окончательное распределение вероятностей.

values = np.linspace(sample.min(),sample.max(),100)
values = values.reshape((len(values), 1))
probabilities = model.score_samples(values)
probabilities = np.exp(probabilities)

Здесь мы создали 100 значений между минимальным и максимальным значениями выборки, а затем с помощью модели KernelDensity мы рассчитали вероятность для каждой точки данных, которую мы создали в значениях.

Примечание. Метод score_samples() класса KernelDensity возвращает логарифм оценки плотности вероятности, а не фактическую оценку плотности вероятности. По этой причине мы рассчитали экспоненту каждой точки данных, чтобы экспоненциальная функция нейтрализовала логарифмический результат, полученный как вероятности.

plt.hist(sample, bins=50, density=True)
plt.plot(values[:], probabilities)
plt.show()

Наконец, мы построили нашу исходную выборку, которую мы создали, и линейный график, который действует как наше распределение вероятностей.

Кумулятивная функция распределения (CDF) PDF

Кумулятивная функция распределения оценивается путем вычисления площади под кривой до любого соответствующего значения.

Например, если существует диапазон значений от 0 до 10, и нам нужно рассчитать вероятность исхода меньше 5, то мы можем оценить ее, интегрируя функцию вероятности, сохраняя нижний предел равным 5, а верхний предел равным 10. или бесконечность. Таким образом, мы можем получить вероятность результата больше 5 в случае непрерывного распределения данных.

Если мы хотим рассчитать вероятность получения результата меньше 5, мы можем интегрировать функцию вероятности, сохранив нижний предел равным 0, а верхний предел равным а.

CDF может использоваться в различных приложениях, в том числе:

  1. Расчеты вероятности. CDF можно использовать для расчета вероятности того, что случайная величина X примет значение между двумя конкретными значениями. Это делается путем вычитания значения CDF на нижней границе из значения CDF на верхней границе.
  2. Проверка гипотез. CDF можно использовать при проверке гипотез для расчета p-значения. Значение p — это вероятность наблюдения тестовой статистики, столь же экстремальной, как наблюдаемое значение, или более экстремальной, чем наблюдаемое значение, при условии, что нулевая гипотеза верна.
  3. Управление рисками. CDF можно использовать для оценки вероятности экстремальных явлений. Например, CDF можно использовать для оценки вероятности падения цены акций ниже определенного порога, что может помочь инвесторам принимать обоснованные решения по управлению рисками.

Заключение

В заключение, понимание концепций функции плотности вероятности (PDF), функции массы вероятности (PMF) и кумулятивной функции плотности (CDF) необходимо для всех, кто работает в области теории вероятностей и статистики. Эти функции предоставляют важные инструменты для вычисления вероятностей, оценки параметров и данных моделирования.

PDF и PMF используются для описания распределения вероятностей непрерывных и дискретных случайных величин соответственно. Они помогают нам понять форму распределения и рассчитать вероятность конкретных событий. CDF, с другой стороны, дает нам вероятность того, что случайная величина принимает значение, меньшее или равное определенному значению.

Понимая эти концепции, мы можем принимать лучшие решения в различных областях, таких как финансы, инженерия и наука. Например, мы можем оценить вероятность падения цены акции ниже определенного порога, что может помочь инвесторам принимать обоснованные решения об управлении рисками. В науке мы можем использовать эти функции для моделирования распределения данных и оценки параметров статистической модели.

В заключение отметим, что эти функции имеют фундаментальное значение для теории вероятностей и статистики, и их приложения обширны и разнообразны. Освоив их, мы сможем глубже понять окружающий мир и принимать более взвешенные решения.