Интуиция, лежащая в основе наивного байесовского классификатора

Машинное обучение

Интуиция, лежащая в основе наивного байесовского классификатора

Фундаментальная теория наивного Байеса

Наивный байесовский - это метод классификации, предполагающий независимость атрибутов. Проще говоря, наивный байесовский классификатор предполагает, что наличие определенного атрибута в классе не связано с наличием какого-либо другого атрибута. Наивный Байес родился на основе теоремы Байеса. Таким образом, чтобы понять наивный байесовский метод, нужно понять основную вероятность.

Вероятность

Вероятность - это математический способ описания вероятности наступления события. Он измеряется как число в диапазоне 0–1, 0 означает, что событие не произойдет, 1 означает, что событие обязательно произойдет, а любое число от 0 до 1 является мерой вероятности того, что событие произойдет. .

Например, если мы подбрасываем монету, на верхней лицевой стороне монеты отображается голова или хвост. Голова и Хвост называются совокупностью всех возможных событий, которые часто обозначаются буквой S.

Вероятность можно вычислить, разделив количество событий, которые происходит А, на количество всех возможных событий. Таким образом, вероятность подбросить монету и получить голову на верхней стороне монеты - это число H, деленное на все возможные события.

Таким образом, вероятность получить Head составляет 0,5.

Эксклюзивность

Событие называется взаимоисключающим, если одновременно может произойти только одно событие. Например, подбрасывание одной монеты является взаимоисключающим событием, поскольку невозможно, чтобы на верхней лицевой стороне монеты одновременно отображались хвост и голова. Взаимоисключающее событие можно математически записать следующим образом:

Однако, когда мы подбрасываем монету, у нас может быть голова или решка (шансы - 1 из 2 для каждого события) и сумма любого из произошедших событий является суммой обеих вероятностей. Математически это записывается следующим образом:

Говоря простым языком, когда мы подбрасываем монету, мы получаем либо голову, либо хвост, следовательно, вероятность получить голову или Tail при подбрасывании монеты всегда будет равен 1.

Событие называется не исключающим друг друга, если одновременно может происходить более одного события. Например, вытаскивание карты сердца или карты короля не является взаимоисключающим событием.

Общее количество карт-сердечков - 13, поэтому вероятность вытащить карту Heart составляет 13/52, что составляет 0,25. С другой стороны, общее количество карт короля равно 4, поэтому вероятность вытащить карту короля составляет 4/52, что составляет 0,07. В отличие от взаимоисключающих событий, где мы можем просто суммировать две вероятности, вероятность не исключающего взаимоисключающего события рассчитывается путем суммирования двух вероятностей и вычитания ее из вероятности двух событий, происходящих одновременно.

Это произошло из-за пересечения карт сердца и карты короля (красный прямоугольник на изображении выше). Суммируя 13/52 и 4/52, мы посчитаем King Heart дважды, поэтому нам нужно вычесть его с пересечением между двумя наборами. Математически это записывается следующим образом:

Таким образом, вероятность того, что вы вытащите карту Сердце или Короля, можно рассчитать следующим образом:

Зависимость

Событие называется независимым, если вероятность возникновения одного события не влияет на вероятность возникновения другого события. Например, когда мы подбрасываем монету в первый раз, вероятность получить голову на верхней стороне монеты составляет 0,5. Теперь, когда мы снова подбрасываем монету во второй раз, вероятность получить голову на верхней стороне монеты по-прежнему составляет 0,5, потому что она просто не зависит от того, что произошло в предыдущем событии. . С другой стороны, если происходит одно событие и оно изменяет вероятность другого события, то событие называется зависимым. Например, на столе целых 52 карты.

Вытаскиваем карту и выясняется, что это карта Короля Сердца. Вероятность получить эту сердечную карту составляет 13/52. А теперь представьте, что мы не кладем обратно карту, которую только что вытащили, и снова вытаскиваем карту во второй раз. Оказалось, что это карта Diamond. Вероятность вытащить эту карту Бриллиант во второй попытке больше не 13/52, а вероятность 13/51.

Поскольку во второй попытке мы не извлекаем карту из полного набора, вместо этого мы извлекаем карту из набора, в котором уже отсутствует карта короля сердца. . Математически вероятность событий A и B, если они являются зависимыми, можно записать следующим образом:

P (B | A) на изображении выше называется условной вероятностью, это просто означает, что вероятность того, что событие B произойдет, при условии, что событие A уже произошло. P (A и B) называется совместной вероятностью, это просто вероятность того, что A и B возникнут одновременно. Хотя P (A) называется предельной вероятностью, это просто вероятность наступления события A. Таким образом, вероятность вытащить карту Сердце, за которой следует карта Бриллиант, определяется следующим образом:

Используя простое правило алгебры, мы можем переписать приведенную выше формулу для вычисления условной вероятности следующим образом:

Формулу также можно перевернуть, это вопрос того, какое событие зависит от того, какое событие. В приведенном выше примере случай B зависит от A. Если наоборот, формула может быть отменена следующим образом:

Теорема Байеса

Теорема Байеса выводится из формулы условной вероятности. Поскольку совместные вероятности одинаковы, P (A и B) = P (B и A). Мы можем заменить условную вероятность A и B друг на друга, оставив нам следующую формулу:

Когда мы говорим о теореме Байеса, член приведенной выше формулы меняется. В теореме Байеса левая часть называется апостериорной вероятностью. Это условная вероятность, которая присваивается после того, как доказательства приняты во внимание. В правой части P (B | A) называется l вероятностью. Это условная вероятность до того, как доказательства будут приняты во внимание. P (A) называется априорной вероятностью. Это вероятность возникновения A. В то время как P (B) называется доказательством. Это вероятность того, что произойдет B.

Наивный байесовский

Наивный Байес - один из самых популярных алгоритмов машинного обучения. Этот алгоритм называется наивным, потому что он предполагает, что каждая функция независима. Как следует из названия, этот алгоритм основан на теореме Байеса. Наивный алгоритм Байеса предсказывает данные, вычисляя апостериорную вероятность для каждого признака и каждого класса. Используя формулу Байеса, просто поместите каждую характеристику как свидетельство, классы как априорную вероятность, а правдоподобие - это вероятность того, что особенность появится, при наличии определенного класса. Поскольку наивный Байес делает наивное предположение о независимости, поэтому нам не нужно заботиться о зависимостях между каждым атрибутом, используя теорему Байеса, мы можем вывести следующую формулу:

Где c и x - классы и атрибуты соответственно. Поскольку доминатор будет одинаковым для каждого класса, мы можем упростить формулу, удалив знаменатель, в результате чего мы получим:

Вышеупомянутая формула применяется к каждому классу, и окончательное решение принимается в зависимости от того, какой класс имеет наибольшую вероятность.

Например, на изображении выше представлены данные за последние 14 дней в гольф-клубе. Сегодняшние данные следующие:

Это означает, что мы берем наибольшую вероятность из следующих:

В результате чего:

Возьмем наивысшую вероятность, в данном случае это класс «да». Таким образом, Наивный Байес предсказывает, что если погода будет дождливой, высокой температурой, высокой влажностью и ложным ветром, на месте будут люди, играющие в гольф.

Вывод

Наивный Байесовский классификатор основан на теореме Байеса. Он предсказывает невидимые данные, беря наивысшую апостериорную вероятность из каждого класса. Недостатком наивного байесовского метода является то, что этот классификатор предполагает независимость между каждым атрибутом, хотя на самом деле может существовать значимая зависимость.