Время от времени я пытаюсь угадать, будет ли сегодня дождь или нет… почти каждый раз это неверно. У моей бабушки есть такая сверхспособность, а она даже не знает о теореме Байеса. В науке о данных это одно из самых полезных правил статистики, которое мы можем использовать при прогнозировании чего-либо. Так как же условная вероятность помогает нам делать наши прогнозы лучше?

Теорема Байеса дает нам способ обновить нашу предсказательную способность по мере того, как мы узнаем новую информацию, связанную с интересующим нас событием. Изменение нашего решения по мере того, как мы находим новую информацию, необходимо для принятия эффективных решений, которые могут быть такими важными, как принятие решения о крупной коммерческой сделке, выявление раковых клеток у пациента, инвестиционная возможность, выбор рекламной кампании и т. д. Итак, давайте попробуем понять, как точно работает условная вероятность.

Это последняя формула, называемая теоремой Байеса, но прежде чем перейти к ней, давайте сначала разберемся с совместной и условной вероятностью. Совместная вероятность — это вероятность того, что два или более события произойдут одновременно. Он представлен пересечением двух событий на диаграмме Венна.

Вероятность того, что из колоды из 52 карт выпадет и красная карта, и шестерка, равна P(6∩Red) = 2/52 = 1/26. Если есть два события A и B, то совместная вероятность представлена ​​как P (A ∩ B). Условная вероятность — это вероятность того, что событие A произойдет при условии, что произошло даже B, что представляется как P (A│B). Например, вероятность получить 6 при условии, что я выбрал красную карточку, будет P(6│красная) = 2/26 = 1/13, поскольку на всех красных карточках две шестерки. Мы можем использовать условную вероятность для вычисления совместной вероятности как таковой: P(6∩Red) = P(6│red) * P(Red) = 1/13 * 26/52 = 1/26, что также соответствует нашему предыдущему логическому ответу. Теперь вероятность получить 6 при условии, что я выбрал красное, не то же самое, что вероятность получить красное при условии, что я выбрал 6. И я предоставляю вам проверить это, но совместная вероятность получения 6 и красный - это то же самое, что получить красный и 6, P (6 ∩ красный) = P (6 │ красный) * P (красный) = P (красный ∩ 6) = P (красный │ 6) * P (6). Это приводит нас к теореме Байеса. P(6│красный) = [P(красный│6) * P(6)] / P(красный)

Назовем событие А «сегодня дождь», а событие Б — «сегодня облачно». Итак, нам нужно найти вероятность дождя, учитывая, что сегодня облачно, P(A| B). P(A) — это априорная вероятность, она представляет вероятность, когда у нас нет априорной информации о дожде. Так что это что-то вроде значения по умолчанию.P(B|A) – это вероятность, которая представляет собой способ анализа доказательств с учетом гипотезы, вероятности того, что будет облачно, когда мы знаем, что идет дождь. (эти значения взяты в основном из исторических данных). P(A|B) называется апостериорной вероятностью, которая нас интересует. P(B) – это предельная вероятность, которая используется для нормализации данных.

Предположим, что мы знаем P(A), вероятность дождя равна 0,05 (5%), P(B) - вероятность того, что день будет облачным, равна 0,15 (15%). И мы обнаруживаем, что 50% случаев дождя были пасмурными днями, поэтому P(B|A) = 0,5. Таким образом, используя теорему Байеса, мы можем найти P(A|B) = P(B|A) * P(A) / P(B) = 0,5 * 0,05/0,15 = 0,167. Итак, теперь мы знаем, что вероятность дождя в облачную погоду составляет 16,66%, поэтому наша способность прогнозировать улучшилась почти в 3 раза. По мере того, как мы добавляем больше доказательств в наш набор, наша предсказательная сила продолжает расти. Например, если мы добавим информацию о влажности, мы сможем увеличить вероятность предсказания дождя. Однако у моей бабушки просто есть представление об этом, интересно, можно ли когда-нибудь смоделировать шестое чувство!

Есть много приложений в реальном мире и много исследований. Wiki сообщает: Недавнее развитие методов Монте-Карло с цепями Маркова в байесовской статистике стало ключевым шагом на пути к вычислению больших иерархических моделей, требующих интегрирования сотен или даже тысяч неизвестных параметров.