Обучение науке о данных: день 19

В последних двух статьях мы говорили о теореме Байеса и ее применении. Сегодня мы узнаем больше о наивном байесовском классификаторе.

Предыдущее, апостериорное, правдоподобие и доказательства

Чтобы узнать больше о Байесе, я думаю, будет лучше, если мы поймем правило Байеса более техническим способом. Так что у нас не было никаких проблем, когда мы попытались узнать больше.

Мы знали правило Байеса, не понимая роли каждой переменной. Упрощенное правило Байеса цитируется ниже.

Приор - Пр (А)

Ключевым моментом Prior являются данные, которые у нас есть до (до) нашего наблюдения. Скажем, из нашего предыдущего случая о спаме, тогда априорной является вероятность того, что определенная точка данных является спамом или нет.

Задний - Pr (A | X)

Posterior - это противоположность Prior, то есть данных, которые мы публикуем после (после) нашего наблюдения. Предположим, что в случае со спамом, апостериорная вероятность того, что определенное электронное письмо является спамом, основана на словах (X).

Доказательства - Pr (X)

Главное в доказательствах - это то, что нам известны некоторые электронные письма, которые являются спамом, а не спамом. Таким образом, теперь мы можем получить вероятность спамерских писем по сравнению с определенным набором рассылки. Эта вероятность того, что что-то произошло, называется доказательством.

Вероятность - Pr (X | A)

Значение вероятности - это вероятность того, что что-то произойдет. Некоторые люди считают этот термин взаимозаменяемым с вероятностью, что неверно. Таким образом, в случае спама это будет вероятность того, что определенные слова, которые, как мы предполагаем, относятся к спаму, будут обнаружены в определенном электронном письме.

Наивный байесовский

Если честно, а что вообще наивный Байес? Это метод классификации, при котором функции независимы друг от друга. Это означает, что каждая функция не связана с другой функцией того же класса. Например, если мы создадим наивную байесовскую классификацию для классификации фруктов. Яблоко будет красного цвета, круглой формы и радиусом около 3 см. Хотя для нас это выглядит коррелированным, наивный байесовский метод игнорирует эту корреляцию и предполагает, что все функции независимы.

Как это работает

Допустим, у нас есть данные о том, проводится ли футбольный матч или нет, в зависимости от погоды. Преобразуйте набор данных в таблицу частот и таблицу правдоподобия.

Предположим, мы хотим знать вероятность того, будет ли игра играть или нет, если мы знаем, что в этот день солнечный.

Если преобразовать задачу в уравнение,

P (Да | Солнечно) = (P (Солнечно | Да) * P (Да)) / P (Солнечно)

У нас есть,

P (Солнечно | Да) = 3/9 = 0,33

P (Да) = 9/14 = 0,64

P (солнечно) = 5/14 = 0,36

Так что насчет P (Да | Солнечно)?

P (Да | Солнечно) = (0,33 * 0,64) / 0,36 = 0,60

Тогда это означает, что, скорее всего, игра будет проходить в солнечную погоду.

Пример Scikit-Learn

Scikit-Learn уже предоставляет функцию Наивного Байеса. Давайте посмотрим на пример из документации Scikit-Learn.

В Scikit-Learn доступны различные типы Наивного Байеса. В этом примере мы используем гауссовский, который подходит для набора данных с функциями, которые следуют нормальному распределению.

Заключительные слова

Сегодня мы обсудили Naive Bayes и его реализацию с помощью Scikit-Learn. Чтобы повысить качество историй, следующий рассказ об обучении науке о данных будет доступен позже 30 января из-за более трудных для понимания материалов, которые я могу изучать каждый день. Спасибо за чтение и хороших выходных!