Наивная байесовская классификация - это метод машинного обучения с учителем. Это простой, но один из самых эффективных методов классификации. Есть некоторые предположения, сделанные в наивном байесе. Даже если эти предположения немного нарушаются, он все равно работает достаточно хорошо. Предположения, сделанные в Наивном Байесе:

  1. Все выборки являются i.i.d, т.е. все случайные величины не зависят друг от друга и взяты из аналогичного распределения.
  2. Все функции условно независимы.

Давайте углубимся в теорему, на которой построен наивный байесовский классификатор, то есть теорему Байеса. Теорема Байеса утверждает, что,

Апостериорная вероятность

Апостериорная вероятность в контексте проблемы классификации может быть интерпретирована как: «Какова вероятность того, что конкретный объект принадлежит к классу i, учитывая его наблюдаемые значения характеристик?»

Например,

Здесь,

cj представляют j-й класс классов {1,2,3 ..n}

xi представляют вектор признаков i-й выборки выборок {1,2,3 ..m}

Апостериорная вероятность просто означает , «с учетом вектора признаков xi, какова вероятность того, что выборка i принадлежит классу cj?»

Целевая функция наивного байесовского метода: максимизировать апостериорную вероятность с учетом обучающих данных, чтобы сформулировать правило принятия решения для новых данных. Правило решения для вышеуказанной проблемы может быть сформулировано как,

Если образец принадлежит классу j, то P (cj | xi) будет максимальным.

Другими словами, для каждого тестового примера i мы находим:

Вероятность с условным классом

При наивном предположении, сделанном выше, условные вероятности класса или (правдоподобия) выборок могут быть непосредственно оценены из обучающих данных вместо оценки всех возможностей x. Таким образом, учитывая d-мерный вектор признаков x, условную вероятность класса можно вычислить следующим образом:

Здесь P (x∣cj) просто означает: «Насколько вероятно наблюдение этого конкретного паттерна x, учитывая, что он принадлежит классу cj?» «Индивидуальные» вероятности для каждого признака в векторе признаков можно оценить с помощью оценки максимального правдоподобия, которая представляет собой просто частоту в случае категориальных данных:

Где,

Nxi, cj: сколько раз функция xi появляется в выборках из класса cj.

Ncj: Общее количество всех функций в классе cj.

Априорная вероятность

В контексте классификации шаблонов априорные вероятности также называются априорными классами, которые описывают «общую вероятность встречи с конкретным классом». Здесь,

P (cj) = Вероятность того, что новый документ принадлежит классу j.

Если априорное распределение имеет равномерное распределение, оно будет одинаковым для всех классов, а апостериорная вероятность будет зависеть только от свидетельства и условной вероятности класса. Поскольку свидетельство является общим для всех классов, апостериорная вероятность будет зависеть только от условной вероятности класса.

Предварительные знания могут быть получены от экспертов или могут быть оценены с помощью имеющихся данных обучения. Для более позднего метода необходимо, чтобы обучающие данные были i.i.d. и репрезентативная выборка всего населения. Оценка максимального правдоподобия для априорной:

Ncj: количество образцов из класса cj.

Nc: общее количество образцов

Доказательства

Свидетельство P (x) можно понимать как вероятность встретить конкретный образец x, не зависящий от метки класса.

Мы знаем это,

So,

Хотя термин свидетельства требуется для точного вычисления апостериорных вероятностей, его можно удалить из правила принятия решения, поскольку его единственный вклад в классификацию - нормализация.

Аддитивное сглаживание

Если во время тестирования мы сталкиваемся с функцией, с которой не сталкивались во время обучения, тогда индивидуальная условная вероятность этой конкретной функции станет равной нулю, что сделает условные вероятности класса равными нулю. Таким образом, мы должны изменить формулу расчета индивидуальной условной вероятности. Чтобы избежать проблемы нулевых вероятностей, к полиномиальной байесовской модели можно добавить дополнительный сглаживающий член. Наиболее распространенными вариантами аддитивного сглаживания являются так называемое сглаживание Лидстоуна (α ‹1) и сглаживание Лапласа (α = 1).

Nxi, cj: сколько раз функция xi появляется в выборках из класса cj.

Ncj: Общее количество всех функций в классе cj.

α: параметр для аддитивного сглаживания

d: Размерность вектора признаков x