Математика для науки о данных

Теорема Байеса 101 - Пример решения

Простой подход к теореме Байеса с примером

Условная вероятность - непременное условие науки о данных и статистики. Есть много полезных объяснений и примеров условной вероятности и теоремы Байеса. В этой статье я объясню основы теоремы Байеса на примерах, используя простую математику.

Теорема Байеса выглядит простой в математических выражениях, таких как;

P(A|B) = P(B|A)P(A)/P(B)

Важным моментом в науке о данных является не само уравнение, его применение к вербальной задаче более важно, чем запоминание уравнения. Итак, я решу простую задачу условной вероятности с теоремой и логикой Байеса.

Проблема 1:

Давайте поработаем над простой проблемой НЛП с теоремой Байеса. Используя NLP, я могу обнаруживать спам в своем почтовом ящике. Предположим, что слово «предложение» встречается в 80% спам-сообщений в моем аккаунте. Кроме того, предположим, что «предложение» встречается в 10% желаемых мной электронных писем. Если 30% полученных писем считаются мошенничеством, и я получаю новое сообщение, содержащее «предложение», какова вероятность того, что это спам?

Теперь я предполагаю, что получил 100 электронных писем. Процент спама во всем электронном письме составляет 30%. Итак, у меня есть 30 спам-писем и 70 желаемых писем в 100 электронных письмах. Процент слова «предложение», встречающегося в спаме, составляет 80%. Это означает 80% от 30 писем, а получается 24. Теперь я знаю, что 30 писем из 100 являются спамом, и 24 из них содержат «предложение», а 6 из них не содержат «предложение».

Процент слова «предложение», встречающегося в желаемых электронных письмах, составляет 10%. Это означает, что 7 из них (10% из 70 желаемых электронных писем) содержат слово «предложение», а 63 из них - нет.

Теперь мы можем увидеть эту логику на простой диаграмме.

Вопрос заключался в том, какова вероятность спама, когда письмо содержит слово «предложение»:

  1. Нам нужно найти общее количество писем, содержащих «предложение»;

24 +7 = 31 письмо содержит слово «предложение»

2. Определите вероятность спама, если письмо содержит «предложение»;

В 31 письме 24 содержится «предложение», что означает 77,4% = 0,774 (вероятность).

ПРИМЕЧАНИЕ. В этом примере я выбираю проценты, которые дают целые числа после расчета. В качестве общего подхода вы можете подумать, что у нас есть 100 единиц в начале, поэтому, если результаты не являются целыми числами, это не создаст проблемы. Таким образом, мы не можем сказать 15.3 электронных писем, но можем сказать 15.3 единицы.

Решение с уравнением Байеса:

A = Спам

B = содержит слово «предложение»

P (содержит предложение | спам) = 0,8 (указано в вопросе)

P (спам) = 0,3 (указано в вопросе)

Теперь посмотрим, какова вероятность получения электронного письма со словом «предложение». Мы можем вычислить это, добавив «предложение» в спам и желаемые электронные письма. Такой, что;

P (содержит предложение) = 0,3 * 0,8 + 0,7 * 0,1 = 0,31

Как видно в обоих случаях, результаты одинаковы. В первой части я решил тот же вопрос с помощью простой диаграммы, а во второй части я решил тот же вопрос с помощью теоремы Байеса.

Проблема 2:

Хочу решить еще один пример из такой популярной темы, как Covid-19. Как известно, тесты на Covid-19 в настоящее время распространены, но некоторые результаты тестов не соответствуют действительности. Предположим; диагностический тест имеет точность 99%, и 60% всех людей имеют Covid-19. Если у пациента положительный результат теста, какова вероятность того, что он действительно болен?

Общее количество единиц с положительным результатом = 59,4 + 0,4 = 59,8

59,4 единицы (истинно положительный результат) составляет 59,8 единицы, что означает 99,3% = 0,993 вероятности.

С Байесом;

P (положительный | covid19) = 0,99

P (covid19) = 0,6

P (положительный результат) = 0,6 * 0,99 + 0,4 * 0,01 = 0,598

И снова мы находим тот же ответ с диаграммой. Есть много примеров для изучения приложений теоремы Байеса, таких как проблема Монти Холла, которая представляет собой небольшую головоломку с тремя дверями. За дверями 2 козы и 1 машина. Вам предлагается выбрать одну дверь, чтобы найти машину. Выбрав одну дверь, ведущий открывает одну из невыбранных дверей и показывает козла. Затем вас попросят переключить двери или придерживаться вашего первого выбора. Запустив этот процесс тысячу раз и смоделировав его, вы можете определить вероятность выигрыша и понять идею теоремы Байеса и байесовской статистики в целом с помощью задачи Монти Холла.

Когда мы думаем о теореме Байеса в концепции машинного обучения, она предоставляет способ вычислить вероятность гипотезы на основе условий, используя взаимосвязь между данными и гипотезой. Кроме того, это первый шаг к пониманию истинных положительных, ложноположительных, истинно отрицательных и ложноотрицательных концепций в задачах классификации науки о данных и наивном байесовском классификаторе.

Если вам понравилась эта статья и вы хотите поделиться своими мыслями или задать вопросы, не стесняйтесь связаться со мной через LinkedIn.

Дополнительные ресурсы:

Если вы хотите глубже изучить эти ресурсы: