На первый взгляд теорема Байеса кажется чрезвычайно простой.

Доказательство можно записать в несколько строк:

Используя свойство условной вероятности,

Разделите на P(B) и получите теорему Байеса.

Почему важна теорема Байеса

Важность теоремы Байеса заключается в ее интерпретации. Аналогия есть в физике. Эйнштейну приписывают открытие специальной теории относительности, но преобразование между различными системами отсчета называется преобразованием Лоренца. Сама формула изучалась несколькими физиками, в том числе Лоренцем, прежде чем Эйнштейн дал удовлетворительную физическую интерпретацию.

В целом существует два способа интерпретации вероятностей и математических объектов, содержащих вероятности: байесовский и частотный. Согласно Стэнфордской энциклопедии философии, байесовская интерпретация интерпретирует вероятности как степени уверенности, достоверности или частичных убеждений, тогда как частотная интерпретация интерпретирует вероятности как частоту реальных событий. Таким образом, байесовская интерпретация моделирует, как много мы знаем о мире, тогда как частотная интерпретация моделирует то, каков мир.

В этой статье мы сосредоточимся на байесовской интерпретации теоремы Байеса, поскольку она имеет интересные приложения в машинном обучении. Теорема Байеса позволяет нам обновлять модели по мере поступления данных. Поэтому иногда ее также называют правилом Байеса.

Представьте себе компьютер, пытающийся выяснить, является ли монета честной или загруженной. Честная монета будет иметь 50% вероятности выпадения орла и 50% вероятности выпадения решки. Для простоты предположим, что загруженная монета всегда показывает орел. Компьютер не имеет предварительных знаний о монете и не может напрямую узнать о честности монеты. Таким образом, он может вывести вероятность того, что он загружен, только путем наблюдения. Интуиция такова, что если компьютер видит несколько решек подряд, он, вероятно, должен заподозрить, что монета загружена. Как нам формализовать эту интуицию? Воспользуемся теоремой Байеса.

Назовем событие загрузки монеты A и запишем его вероятность как P(A). Назовем событие, когда монета выпадет орлом, B, а его вероятность запишем как P(B).

Чтобы запустить процесс определения того, загружена ли монета, компьютеру сначала необходимо угадать вероятность того, что монета загружена (называемая априорной). Допустим, компьютер предполагает, что P(A) = 0,1, т. е. вероятность того, что монета загружена, составляет 10%. Затем компьютер наблюдает за подбрасыванием монеты и обновляет свое предположение, чтобы лучше отразить реальность. Если предположить, что выпал орел (B), какова вероятность того, что монета загружена? Применим теорему Байеса. Мы уже установили P(A) равным 0,1. нам нужно вычислить две другие величины в правой части уравнения.

P(B | A) (называемая вероятностью) — это вероятность того, что монета выпадет орлом при условии, что она загружена. P(B|A) = 1 по нашему предположению, что загруженная монета всегда показывает орел.

Что такое P(B) (коллективный маргинал)? Это вероятность того, что монета выпадет орлом независимо от того, загружена она или нет. Чтобы вычислить P(B), мы разделим его на два случая:

  • Случай 1: Монета загружена. Вероятность того, что выпадет орёл, равна

  • Случай 2: Монета не загружена. Опять же, основываясь на предыдущем, мы знаем, что, учитывая, что монета не загружена, вероятность того, что она выпадет орлом, равна

Потому что монета либо честная, либо заряженная, но не то и другое вместе:

Мы можем вычислить P(B):

Обратите внимание, что здесь нам нужна не действительная вероятность А, а то, что, по нашему мнению, является А. Мы можем сделать это, потому что используем байесовскую интерпретацию, в которой вероятности интерпретируются как убеждения.

Мы подставляем значения в теорему Байеса и получаем изученную вероятность (называемую апостериорной), что монета загружена после наблюдения одного орла.

Компьютер повысил вероятность загрузки монеты с 0,1 до 0,18. Для продолжения учебного процесса. Мы используем апостериорную как новую априорную. Если компьютер наблюдает другие головки, апостериор становится

Теперь компьютер считает, что вероятность того, что монета загружена, составляет более 30%. Если компьютер наблюдает решку, мы вычисляем апостериорную

Это соответствует предположению о том, что если монета загружена, то она всегда показывает орел — если монета показывает решку, она не может быть загружена. В качестве проверки работоспособности мы добавляем еще одно событие C для двух бросков, оба из которых выпадают решкой, и вычисляем апостериорную вероятность с учетом априорного значения P(A) = 0,1. Теперь вероятность того, что это событие произойдет, составляет 0,25, если монета честная.

Это то же самое значение, как если бы мы вычисляли его в два этапа, как и ожидалось.

Краткое содержание

Несмотря на то, что теорема Байеса кажется простой, ее интерпретация позволяет нам формализовать важное интуитивное представление о том, как мы и машина узнаём о скрытом состоянии окружающей среды посредством наблюдения.