Случайные переменные и различные функции распределения, лежащие в основе машинного обучения.

Содержание

  • Вступление
  • Случайная переменная и ее типы
  • PDF (функция плотности вероятности)
  • PMF (функция вероятностных масс)
  • CDF (кумулятивная функция распределения)
  • Пример
  • Дальнейшее чтение

Вступление

PDF и CDF - часто используемые методы в исследовательском анализе данных для нахождения вероятностной связи между переменными.

Прежде чем просматривать содержимое этой страницы, сначала ознакомьтесь с основными понятиями, такими как случайная величина, pmf, pdf и cdf.

Случайная переменная

Случайная величина - это переменная, значение которой неизвестно функции, т.е. значение зависит от результата эксперимента.

Например, при броске кубика значение переменной зависит от результата.

В основном случайные переменные используются для регрессионного анализа для определения статистической взаимосвязи между собой. Есть 2 типа случайных величин:

1 - непрерывная случайная величина

2 - дискретная случайная величина

Непрерывная случайная величина: - Переменная, значения которой находятся между диапазоном / интервалом и могут принимать бесконечное количество возможных способов, называется непрерывной случайной величиной. ИЛИ переменные, значения которых получены путем измерения, называются непрерывной случайной величиной. Например, средний рост 100 человек, измерение количества осадков.

Дискретная случайная переменная: - переменная, которая принимает счетное количество различных значений. ИЛИ переменные, значения которых получены путем подсчета, называются дискретными случайными переменными. Например, количество учащихся, присутствующих в классе.

PDF (функция плотности вероятности): -

PDF - это статистический термин, описывающий распределение вероятностей продолжения случайной величины.

PDF чаще всего следует распределению Гаусса. Если функции / случайные величины распределены по Гауссу, тогда PDF также следует распределению по Гауссу. На графике PDF вероятность единственного результата всегда равна нулю, это произошло потому, что единственная точка представляет собой линию, которая не покрывает область под кривой.

PMF (функция массы вероятности): -

PMF - это статистический термин, описывающий распределение вероятностей дискретной случайной величины.

Люди часто путают PDF и PMF. PDF применим для непрерывной случайной величины, в то время как PMF применим для дискретной случайной величины, например, для игры в кости (вы можете выбрать только от 1 до 6 чисел (счетные))

CDF (кумулятивная функция распределения): -

PMF - это способ описания распределения, но он применим только для дискретных случайных величин, а не для непрерывных случайных величин. Кумулятивная функция распределения применима для описания распределения случайных величин, будь то непрерывное или дискретное.

Например, если X - это рост человека, выбранного наугад, тогда F (x) - это вероятность того, что человек будет ниже x. Если F (180 см) = 0,8. тогда есть 80% шанс, что случайно выбранный человек будет ниже 180 см (эквивалентно 20% шанс, что он будет выше 180 см)

Пример Python для PDF и CDF в наборе данных Iris: -

Набор данных радужной оболочки содержит следующие данные: -

Подробное описание набора данных iris находится здесь.

PDF на радужной оболочке: -

CDF на Ирис: -

Визуализация как PDF, так и CDF: -

Подробное объяснение с кодом Python вы найдете на Github Здесь.

Использованная литература: