Я всегда хотел получить шпаргалку по различным распределениям вероятностей, поскольку они могут быть весьма полезны при моделировании поведения в реальном мире и настройке различных подходов к машинному обучению. При этом многие из них могут иметь сходство, и разные дистрибутивы можно легко спутать друг с другом. В этой статье я представлю краткий обзор вероятностных распределений и различных общих распределений на поверхностном уровне. Я включил изображения распределений, чтобы проиллюстрировать их форму, а также их функции плотности вероятности или функции массы вероятности для тех, кто интересуется математическим управлением свойствами этих распределений или вычислением некоторых значений вручную. Для всех этих дистрибутивов, скорее всего, есть библиотека на выбранном вами языке программирования, которая их реализует, поэтому, если вы не создаете соединения или не выполняете какие-либо манипуляции, вам не нужно беспокоиться о функциях массы и плотности.

Что такое распределение вероятностей?

Распределение вероятностей — это представление вероятности различных исходов. Например, вероятность получения учащимся 100 баллов за тест вплоть до вероятности получения 0 баллов и все промежуточные значения.Другой пример – игра в кости, где вероятность каждого числа на шестигранной кости 1/6.

Вероятность всех возможностей в сумме равна единице, что означает, что вероятности меньше единицы и больше 0. Чтобы вычислить вероятности исходов, вы измеряете частоту исхода, деленную на количество выборок или испытаний. Например, если вы бросаете кости 6 раз и получаете две единицы, то вероятность того, что выпадет единица, равна 2/6. Чем больше у вас выборок, тем точнее и точнее будет ваша вероятность. С большим количеством выборок вы можете уточнить модель, которая хорошо предсказывает вероятность возникновения результата.

Следует отметить, что для всех этих распределений существует непрерывный и дискретный вариант. Очевидно, что выборка является дискретной, но если то, что вы моделируете, является непрерывным, то используемое распределение будет другим. Точно так же существуют одномерные версии и многомерные версии. Для некоторых из них одномерная и многомерная версии имеют одно и то же имя, а для других две версии имеют разные имена.

Распределение Гаусса или нормальное распределение

Распределение Гаусса или колоколообразная кривая обладает уникальным свойством, когда среднее значение является центром кривой. Это известно как центральная предельная теорема. Это хорошо для многих естественных событий, таких как особенности населения. Например, рост, вес, средний размер звезды и т. д.



Распределение Парето (степенной закон)

80% исходов обусловлены 20% причин. Это распределение, описывающее многие природные и социальные явления. В сценариях «победитель получает все» степенной закон представляет наилучшие результаты. Богатые владеют большей частью богатства, лучшие игроки набирают больше всего очков и т. д. Это описывает сценарии, в которых небольшие улучшения в определенных характеристиках приводят к более драматичным результатам, что приводит к кривой распределения Парето.



«Распределение Парето — Википедия
Распределение Парето, названное в честь итальянского инженера-строителя, экономиста и социолога Вильфредо Парето (…en.wikipedia.org)



Равномерное распределение

Это распределение, в котором вероятность любого исхода такая же, как и всех других исходов. Это распределение вы используете для подбрасывания монеты, игры в кости и других сценариев, где все возможности равны. Кривая в основном плоская, потому что все возможности равны.

https://en.wikipedia.org/wiki/Continuous_uniform_distribution

Биномиальное распределение/распределение Бернулли

Что вы используете, когда вам нужно ответить на вопрос «да/нет»? Для этого у нас есть либо биномиальное распределение, либо распределение Бернулли. Распределение Бернулли используется для одного испытания. Например, один раз подбросить монету. Биномиальное распределение используется для множественных испытаний. Это означает, что распределение Бернулли в основном является биномиальным распределением, если у вас есть только одно испытание.





Распределение Пуассона

Распределение Пуассона (произносится как «пвасан» вместо «яд», как французское слово «рыба») предназначено для количества событий, происходящих в течение определенного интервала. Этот интервал может относиться к чему угодно, но обычно он относится к периоду времени во многих случаях использования или некоторой мере пространства. Например, произойдет ли определенное событие в течение интервала и в какое время в интервале. Следует отметить, что события считаются независимыми, если прошлые события не влияют на вероятность будущих событий и наоборот.



Гамма-распределение

Гамма-распределение принимает несколько параметров (существует версия с двумя параметрами и версия с тремя параметрами) и используется для моделирования данных с асимметрией вправо. Что касается того, для чего это используется, оно используется во многих различных случаях, когда вхождения или более высокие значения отображаются меньше по мере приближения к правому краю распределения. Вы можете заметить, что это свойство похоже на распределение Парето, и вы будете правы. Причина этого в том, что распределение Парето представляет собой соединение экспоненциального и гамма-распределения.





Распределение хи-квадрат

Это распределение часто используется в статистике. На самом деле это связано с гамма-распределением, поскольку является его частным случаем. Это распределение используется в критериях хи-квадрат для определения степени соответствия, которая определяет, насколько хорошо модель собирает фактические данные в ходе эксперимента. Он также используется для проверки независимости, чтобы определить, связаны ли две категориальные переменные друг с другом.



T-распределение Стьюдента (T-тесты)

Это еще одно распределение, которое используется в статистике и проверке гипотез. Оно имеет форму, аналогичную нормальному распределению, и используется для определения статистической значимости с использованием доверительных интервалов.



Распределение F

Последнее распределение, которое я хотел бы рассмотреть, является основой F-статистики. Подобно хи-квадрату и гамме, это асимметричное распределение, которое используется для определения равенства дисперсий между двумя наборами данных.



Заключение

Существует гораздо больше распределений, чем перечисленные здесь, но это должно стать хорошим началом для понимания повсеместности вероятностных распределений и их использования. Понимание этого даст вам хороший набор инструментов при проведении научных исследований или создании моделей для различных форм данных.