Наивный Байес в самой простой форме

Введение

Naïve Bayes — вероятностный алгоритм машинного обучения с учителем, основанный на теореме Байеса. Он используется в различных задачах классификации, но в основном используется в текстовой классификации, которая включает в себя многомерный набор обучающих данных. поскольку это вероятностный классификатор, он предсказывает на основе вероятности объекта.

Теорема Байеса

Теорема Байеса, также известная как правило Байеса или закон Байеса, используется для определения вероятности гипотезы на основе априорных знаний. Это зависит от условной вероятности.

Условная вероятность – это мера вероятности наступления события при условии, что произошло другое событие (на основании предположения, презумпции, утверждения или свидетельства).

Формула теоремы Байеса:

P(A|B) — апостериорная вероятность: вероятность гипотезы A относительно наблюдаемого события B.

P(B|A) – вероятность правдоподобия: вероятность того, что при наличии данных вероятность гипотезы верна.

P(A) – это априорная вероятность: вероятность гипотезы до наблюдения доказательств.

P(B) — предельная вероятность: вероятность доказательства.

Проще говоря, теорема Байеса — это способ найти вероятность, когда мы знаем некоторые другие вероятности.

Как работает наивный байесовский алгоритм

Для начала давайте рассмотрим вымышленный набор данных.

Рассмотрим задачу угона автомобиля с атрибутами Цвет, Тип, Происхождение и цель, Украдено может быть либо Да, либо Нет.

Предположения

Фундаментальное предположение Наивного Байеса состоит в том, что каждая функция создает:

1. независимый

2. равно

вклад в результат. Что значит

1. Никакая пара пар признаков не является зависимой. т. е. «красный» цвет не имеет ничего общего с типом или происхождением автомобиля. Следовательно, предполагается, что функции являются независимыми.

2. Каждая функция имеет одинаковое влияние. т. е. знание единственного типа и происхождения не может точно предсказать результат. Таким образом, ни один из атрибутов не является нерелевантным и предполагается, что он в равной степени влияет на результат.

Примечание: эти предположения обычно неверны в реальной ситуации. Первое предположение о независимости никогда не бывает правильным, но на практике часто работает хорошо. Вот почему название Наивный.

Теперь, учитывая особенности автомобиля, наша задача классифицировать

Угнали машину или нет.

Столбцы представляют эти функции, а строки представляют отдельные записи. Если мы возьмем первую строку набора данных, мы увидим, что автомобиль украден, если цвет красный, тип — спортивный, а происхождение — домашнее. Итак, мы хотим классифицировать красный отечественный внедорожник, угоняют его или нет. Обратите внимание, что в нашем наборе данных нет примера красного отечественного внедорожника.

Согласно этому примеру, теорему Байеса можно переписать так:

Переменная y — это переменная класса, а X — зависимый вектор признаков (размера n). где

Здесь x1, x2,…,xn представляют функции.

Подставив вместо X и расширив по цепному правилу, мы получим:

Так как знаменатель остается постоянным. Это можно записать как

В этом случае наша переменная класса имеет только два результата. В случае более двух возможных исходов необходимо найти переменную класса с максимальной вероятностью

Апостериорную вероятность P(y|X) можно рассчитать, сначала создав таблицу частот для каждой функции по отношению к цели, а затем мы должны создать таблицу правдоподобия, рассчитав вероятности и, наконец, вычислив наивный байесовский метод для расчета апостериорной вероятности для каждого класса. . Класс с наибольшей апостериорной вероятностью является результатом нашего прогноза.

Таблица частот для цвета:

Таблица вероятности

Таблица частоты и вероятности для типа:

Таблица частоты и вероятности для происхождения:

Теперь в нашем примере у нас есть три предиктора X :

Из уравнения, обсуждавшегося выше, мы можем вычислить апостериорную вероятность да

И P(no|X):

Поскольку 0,072 > 0,024, наш пример классифицируется как «НЕТ», машина не украдена.

Преимущества наивного байесовского классификатора:

. Это один из быстрых и простых алгоритмов ML для прогнозирования класса набора данных.
. Он хорошо работает в прогнозировании нескольких классов
Когда предположение о независимости выполняется, наивный байесовский классификатор работает лучше по сравнению с другими моделями, такими как логистическая регрессия, и вам требуется меньше обучающих данных.
. Он хорошо работает в случае категориальных входных переменных по сравнению с числовыми переменными.

Недостатки наивного байесовского классификатора:

. Если категориальная переменная имеет категорию (в тестовом наборе данных), которая не наблюдалась в обучающем наборе данных, тогда модель присвоит 0 (нулевую) вероятность и не сможет сделать прогноз. Это часто называют «нулевой частотой». Чтобы решить эту проблему, мы можем использовать технику сглаживания. Один из простейших методов сглаживания называется оценкой Лапласа.
Еще одним недостатком наивного байесовского метода является предположение о независимых предикторах. В реальной жизни очень трудно найти независимых предикторов.

Применения наивного байесовского классификатора:

Существует три типа наивной байесовской модели, которые приведены ниже:

Гауссова. Гауссова модель предполагает, что объекты имеют нормальное распределение. Это означает, что если предикторы принимают непрерывные значения вместо дискретных, то модель предполагает, что эти значения взяты из распределения Гаусса.

Полиномиальный: мультиномиальный наивный байесовский классификатор используется, когда данные имеют полиномиальное распределение. Он в основном используется для задач классификации документов, это означает, что конкретный документ принадлежит к какой категории, такой как спорт, политика, образование и т. д.

Классификатор использует частоту слов в качестве предикторов.

Бернулли. Классификатор Бернулли работает аналогично полиномиальному классификатору, но переменные-предикторы являются независимыми булевыми переменными. Например, если конкретное слово присутствует или нет в документе. Эта модель также известна задачами классификации документов.

Если что-то не так или у вас есть предложения для меня, пожалуйста, свяжитесь со мной по этим

Гитхаб. Твиттер. ЛинкедИн.

Спасибо.