Чего разработчики хотели добиться с помощью машинного обучения, так это дать компьютерам возможность самостоятельно мыслить и научиться принимать решения самостоятельно. Такая цель, как мы знаем по нынешнему положению дел, требует сложных алгоритмов, работающих на передовых графических процессорах, что, в свою очередь, потребует огромных инвестиций. На ранних этапах разработки простота компьютерных систем привела к простым алгоритмам машинного обучения — линейной регрессии, логистической регрессии и наивному байесовскому классификатору, которые были основаны на принципах вероятности и статистики. Хотя в этой области было сделано много достижений, эти алгоритмы выдержали испытание временем и до сих пор используются в качестве основных алгоритмов для проверки эффективности других алгоритмов машинного обучения.

Здесь мы поговорим о наивном байесовском классификаторе, сначала установив фундаментальную теорему в теории вероятностей и статистике — теорему Байеса, и посмотрим, чем наивный байесовский классификатор отличается от теоремы Байеса, т. е. «наивный» в наивном байесовском Классификатор.

Некоторые основные определения и свойства

Эксперимент, в котором все возможные исходы известны, но результат конкретного выполнения эксперимента нельзя предсказать, называется случайным экспериментом. Набор всех таких возможных результатов случайного эксперимента называется его пространством выборки, S. Вероятность любого события E определяется как количество благоприятных исходов, деленное на общее количество возможных исходов, т.е.

Для любого события E выполняются следующие свойства:

Объединение двух событий A и B, т.е. AUB — это событие, которое происходит либо A, либо B, либо и то, и другое. Их пересечение — это событие, когда оба происходят одновременно. Условная вероятностьP(A|B) — это появление A при условии, что B уже произошло.

Предложение 1. Если A и B — любые два события, то

Два события A и B называются взаимоисключающими, если они не могут произойти одновременно. С другой стороны, они называются независимыми, если появление одного из них не зависит от появления или отсутствия другого.

Предложение 2. Если A и B — два независимых события, то

Предложение 3. Если A, B и C — три события, то

Предложение 4. Для любых двух событий A и B

Теорема полной вероятности

Следствие 1.

Теорема Байеса

Следствие 1.

Следствие 2.

Простота теоремы Байеса сопровождается ее широким использованием в области теории вероятностей и статистики. Проще говоря, он вычисляет апостериорную вероятность события на основе его априорной вероятности и других условий, которые могут быть связаны с ним. Таким образом, для данной гипотезы H и данных D по теореме Байеса

, где P(гипотеза|данные) — это апостериорная вероятность H при условии, что произошло D и P( гипотеза) является ее априорной вероятностью. Поскольку D может быть связано с H, нам также требуются априорная (т. е. P(данные)) и апостериорная (т. е. P (данные|гипотеза) вероятности D.

Наивный байесовский классификатор

Теперь, если у нас есть задача классификации нескольких классов, требующая четких результатов, чтобы каждая выборка относилась ровно к одному классу, то каждая выборка помечается классом, который дает максимальное значение для числителя, поскольку знаменатель не зависит от класса.

, которое является уравнением, используемым наивным байесовским классификатором.

Если вместо четкой многоклассовой классификации для каждой выборки мы хотим сравнить ее вероятность принадлежности к одному классу с ее вероятностями принадлежности к другим оставшимся классам.

Итак, мы видим, что наивный байесовский классификатор добавляет важное предположение о том, что признаки независимы друг от друга, к уже установленной теореме Байеса о вероятности. Это допущение является очень сильным, поскольку в большинстве сценариев реального мира функции рассматриваются как зависящие друг от друга. Это особенно верно, когда мы имеем дело с текстовыми данными для классификации, такой как создание спам-фильтров. Однако наивный байесовский классификатор отлично справляется со своей задачей, даже если функции не являются независимыми, и считается основным алгоритмом машинного обучения для спам-фильтров и других подобных текстовых классификаций.