Наше будущее, как мы все знаем, неопределенно. Используя методы, доступные прямо сейчас, почти невозможно предсказать будущее. Но мы все равно строим планы на будущее, предполагая, что все пойдет определенным образом. Но как мы можем сделать такое предположение? Люди имеют ограниченные знания о многих вещах, происходящих вокруг нас. Предсказать исход действия без полного знания о предмете невозможно. Но мы все же можем сделать некоторые предположения, исходя из доступного объема знаний. Это предположение основано на вероятности.

Вероятность — это мера неопределенности события, т. е. она измеряет вероятность того, что неопределенное событие произойдет. Используя теории вероятностей, мы можем делать прогнозы о будущем на основе имеющейся у нас ограниченной информации.

Вся теория вероятностей начинается с основного уравнения вероятности. Для вычисления вероятности события x, P(x), воспользуемся формулой.

Следует отметить, что для использования этой формулы все события должны иметь одинаковую вероятность.
Из этого простого уравнения мы можем вывести множество результатов в теории вероятностей.

Условная возможность

Условная вероятность имеет дело с двумя или более событиями, которые зависят друг от друга. Возьмем простую ситуацию. Есть две классные комнаты, класс-X и класс-Y. В классе X 10 мальчиков и 20 девочек, а в классе Y 30 мальчиков и 15 девочек. Директор хочет выбрать из них случайного ученика для задания. Нам нужно найти вероятность того, что он выберет мальчика или девочку.

Найдем вероятность того, что он выбрал мальчика. Всего из 75 учеников 40 мальчиков. Так что вероятность выбора мальчика 40/75. Используем обозначения:
XB — количество мальчиков в X
XG — количество девочек в X
YB — количество мальчиков в Y
YG — количество девочек в Y

Давайте посмотрим на три разных уравнения. Во-первых, какова вероятность того, что директор выбрал мальчика из класса X?

Теперь, когда выбран случайный ученик, какова вероятность того, что он/она из класса-X?

Теперь директор решил взять ученицу из самого класса X. Теперь вероятность выбора мальчика из заданного класса X, обозначаемая P(B|X), изменяется на

здесь мы замечаем, что если мы перемножим последние два уравнения, мы получим первое уравнение P(Boy from X) = P(X) x P(B|X)Это называется правилом произведения в вероятности теория.

Правило произведения гласит, что вероятность того, что два события произойдут вместе, является произведением вероятности одного события и вероятности второго события при заданном первом событии.
Здесь мы хотим найти вероятность того, что два события произойдут вместе, ученик должен быть мальчиком и он должен быть из класса X. Мы видим, что между ними нет никакого порядка. Итак, уравнение симметрично.

P(X) * P(B|X) также можно записать как P(B) * P(X|B). Мы можем использовать это, чтобы найти P(X|B)

Это называется теоремой Байе. Здесь P(X|B) — вероятность того, что ученик будет выбран из класса X при условии, что выбранный ученик — мальчик.
В приведенном выше примере весь процесс выбора мальчика был разбит на ситуацию где выбран класс-X. Фактически процесс состоит из двух ситуаций: выбора класса X и выбора класса Y.
Мы можем найти вероятность выбора мальчика из класса Y.

Теперь, складывая их обоих, мы можем получить вероятность выбора мальчика. Это называется правилом сумм.
Правило сумм гласит, что вероятность события представляет собой сумму вероятностей события, которое произойдет после каждой из возможных ситуаций.
Использование эти два правила, мы можем вывести сложные теоремы в вероятности.

До сих пор мы нашли вероятности дискретных переменных. Что делать, если переменная непрерывна? Предположим, вы бросаете камень в пустую землю, камень может достичь расстояния x. Какова вероятность того, что он достигнет 53,48 метра? Здесь расстояние x является непрерывной величиной. Мы можем определить функцию x, которая дает вероятность. Эта функция называется функцией плотности вероятности. Эта функция имеет некоторые свойства. Он может выводить только значение в [0,1]. Если мы хотим найти вероятность того, что x находится между двумя значениями, скажем, a и b, мы можем проинтегрировать функцию от a до b. Если мы проинтегрируем функцию от отрицательной бесконечности до положительной бесконечности, мы всегда получим 1.
Эта концепция немного усложняется, когда мы выполняем преобразование переменной. Здесь переменная x — это расстояние, пройденное камнем. Вместо этого, если мы взяли y, максимальную высоту, полученную камнем, мы можем записать x через y, используя соотношение между x и y, скажем, x = g(y). Теперь функцию плотности f(x) можно записать в виде новой функции f(g(y)) = h(y). Эти две функции соответствуют друг другу, и мы можем сказать, что небольшое изменение f(x) сравнимо с небольшим изменением h(y). Это можно записать как

Случаи, которые мы видели до сих пор, представляют собой классические вероятностные задачи, которые можно решить с помощью приведенных выше уравнений. Как насчет расстояния, пройденного камнем? Вероятность достижения определенного диапазона расстояний можно найти, подсчитав, сколько раз мы получаем благоприятный результат, повторяя эксперимент (в то время как другие условия остаются постоянными). Чем больше мы проводим эксперимент, тем больше мы приближаемся к реальной вероятности.
Теперь подумайте об этом. Какова вероятность того, что Австралия выиграет чемпионат мира по крикету в 2075 году? Это зависит от множества сложных факторов, о которых мы не имеем представления. Повторно опробовать его также невозможно. Как в таких случаях мы можем найти вероятность того, что событие произойдет? Это случай неопределенности, и ранее он рассматривался как расширение булевой логики для ситуаций, связанных с неопределенностью. Путем численной количественной оценки факторов, влияющих на событие, соблюдались правила вероятности. Этот тип вероятности называется байесовской вероятностью.

В машинном обучении основной целью алгоритма обучения с учителем является нахождение весов. Веса оцениваются на основе входных данных, которые мы получаем. Мы можем использовать байесовскую вероятность, чтобы найти фактические значения весов. Прежде чем углубиться в это, рассмотрим пример школьника, упомянутый ранее. При этом вероятность того, что выбранный ученик будет из класса X, равнялась 0,4. Но если дано, что ученик мальчик, то вероятность того, что он из класса X, равна 0,25. Здесь мы видим, что вероятность класса имеет некоторое отношение к полу ученика и меняется, когда мы получаем дополнительную информацию. Точно так же в случае машинного обучения веса зависят от данных, и мы можем использовать наши знания о данных для изменения весов в соответствии с теоремой Байе.

В этом уравнении P(D|w) — это вероятность получения фактического результата с заданными весами. Этот термин называется вероятностью получения D из w. Принято выбирать такое w, которое максимизирует вероятность D. Но здесь есть проблема.

Вероятность события определяется повторным экспериментированием. Предположим, мы хотим найти вероятность выпадения решки при подбрасывании монеты. Мы подбрасывали монету 3 раза, и все 3 раза она выпадала орлом. Если вероятность выпадения орла равна p, то вероятность того, что мы выпадем орлом, равна p³. Чтобы максимизировать эту функцию, p должно иметь максимально возможное значение, равное 1 (поскольку p — это вероятность). Но мы знаем, что вероятность выпадения орла определенно не равна 1. Если бы мы использовали некоторую априорную информацию, мы могли бы предотвратить это. Байесовская вероятность использует априорную информацию для решения этой проблемы. В приведенном выше уравнении P(w) и P(D) включают ранее известные значения в функцию вероятности.

Проблемы машинного обучения могут быть решены с помощью байесовской вероятности с использованием концепции, называемой байесовскими сетями. Условная вероятность также используется в других подобных приложениях для получения точных прогнозов. Эти темы будут обсуждаться в следующих статьях. Следуйте за мной, чтобы получать больше статей на такие темы. Дайте свои предложения в качестве ответа, и они будут рассмотрены в следующих статьях. Приятного чтения!!!