Генеративное вероятностное моделирование

В этой Части 1 на эту тему давайте обсудим теорию генеративного вероятностного моделирования и, в более широком смысле, наивный байесовский классификатор. В Части 2 этой темы мы обсудим некоторые примеры реализации.

Классификация как процесс в основном состоит из двух этапов — Этап вывода и Этап принятия решения. Фаза вывода включает в себя получение обучающих данных, состоящих из входных векторов и соответствующих выходных классов, и построение модели, которая определяет взаимосвязь между входными и выходными данными. После того, как модель построена, на этапе принятия решения она используется для классификации нового входного вектора.

Что такое генеративно-вероятностное моделирование?

Модели вероятностной классификации основаны на теории вероятностей. В генеративно-вероятностных моделях есть входной вектор X и выходной вектор класса C. Совместное распределение вероятностей входного и выходного векторов генерируется с использованием модели распределения вероятностей, например, на основе теоремы Байеса . Затем эта совместная функция распределения вероятностей используется для классификации нового входа.

Теорема Байеса

Теорема Байеса описывает вероятность события на основе предварительного знания условий, которые могут быть связаны с этим событием. Мы можем вывести теорему Байеса из определения совместной вероятности —

Переформулировав это, мы получим теорему Байеса в виде:

На простом языке приведенное выше уравнение можно выразить так:

Апостериорная вероятность = вероятность * априорная/доказательство

Теперь давайте воспользуемся теоремой Байеса, чтобы вывести поведение самого наивного байесовского классификатора.

Наивный байесовский классификатор

Рассмотрим входной вектор X = {X1, X2,…, Xn} и выходной вектор класса C = {C1, C2,…, Ck}. Вероятность для класса Cj при заданном входном векторе на основе теоремы Байеса равна —

Из-за количества задействованных комбинаций было бы очень сложно найти выделенную совместную условную вероятность всех атрибутов X при заданном Cj, т. е. Вероятность, в реальной жизни. Поэтому наивный байесовский классификатор предполагает, что входные параметры условно независимы при заданном Cj. Вероятность каждого параметра определяется с использованием совместной вероятности входного параметра и выходной метки. Применение условной независимости:

Требуется класс с максимальной вероятностью среди всех предсказанных классов. Поэтому используется функция argmax, которая выбирает ввод, максимизирующий значение результата. Кроме того, знаменатель P(X1,X2,…, Xn)одинаков для всех Cj и поэтому может быть опущен.

Окончательное уравнение для наивного байесовского классификатора:

Подводя итог: Наивный байесовский классификатор — это генеративно-вероятностная модель. Он использует вероятность и априорную вероятность для расчета условной вероятности класса. Наивный байесовский алгоритм упрощает вычисление правдоподобия за счет допущения условной независимости входных параметров. Вероятность для каждого параметра определяется с использованием совместной вероятности входного параметра и выходной метки.

Преимущества наивного байесовского классификатора

Алгоритм прост в реализации и быстр
Если условная независимость сохраняется, он будет сходиться быстрее, чем другие методы.
Требуется меньше обучающих данных из-за предположения об условной независимости
Может использоваться как для бинарных, так и для многоклассовых задач классификации
Обрабатывает как непрерывные, так и дискретные данные
Не чувствителен к несущественным функциям
Не переопределяет данные из-за небольшого размера модели по сравнению с другими алгоритмами, такими как Random Forest.
Хорошо обрабатывает пропущенные значения. Мы можем отказаться от всей функции и все равно не повлиять на результат, если отсутствующие значения значительны для населения.
Подходит для случаев, когда имеется большое количество условно независимых признаков при небольшом наборе данных, например, Классификация текста

Генеративное вероятностное моделирование

Что такое генеративно-вероятностное моделирование?

Теорема Байеса

Наивный байесовский классификатор

Преимущества наивного байесовского классификатора

Вопросы по теме