Байесовский подход с наивным байесовским предположением

Если вы знакомы с проблемой классификации, вы, вероятно, знакомы со всей процедурой обучения модели: разделите свои данные, обучите свою модель, настройте свою модель с помощью ROC-анализа и, наконец, запустите ее в реальный мир, чтобы делать прогнозы. для тебя..

Что делать, если от одного и того же субъекта поступает более 1 точки данных, а ваш классификатор дает смешанные результаты? Или, даже когда ваш классификатор дает вам стабильные результаты, насколько вы должны быть уверены в результатах, потому что ваш классификатор не был точен на 100% (ну, это никогда не было и никогда не будет)?

Например, если вы создаете приложение для классификации кошек с точностью 85%. Пользователь только что загрузил 5 изображений одного и того же кота.

Или вы строите классификатор обнаружения сигналов для временного ряда. Какое-то аномальное событие может появляться время от времени, если не последовательно.

Как мы можем воспользоваться этими измерениями и завоевать доверие, когда в наших руках появляется все больше и больше данных?

Прежде чем мы перейдем к этому, нам нужно сначала рассмотреть некоторые основы

Цепное правило вероятности

Начнем с двух переменных A и B. Теорема Байеса утверждает, что

Это можно просто показать с помощью диаграммы Венна.

Затем мы можем добавить еще одно событие, событие C:

С помощью этого шаблона мы можем обобщить формулу на n событий:

Наивный Байес

Предположим, мы должны построить классификатор

Где мы можем расширить числитель правой части, используя цепное правило

Наивный Байес предполагает условную независимость, которая

С предположением Наивного Байеса у нас есть то, что нам нужно для продолжения.

Принятие совокупного решения с более чем одним доказательством

Предположим, у нас есть n измерений с выходом классификатора, помеченным как

На что мы пытаемся ответить, так это вероятность истинного класса равна 1 при измерении n. Это

Предположим, что среди n измерений наш классификатор предсказывает, что n0 из них равны 0, а n1 из них равны 1. Это дает нам окончательное выражение:

Обратите внимание, что все термины, появившиеся здесь, могут быть извлечены из ROC-анализа, чтобы мы могли интегрировать эту формулу в нашу существующую процедуру обучения с учителем.

Пример

Давайте подставим в формулу несколько цифр, чтобы увидеть, как она работает в действии. Вот цифры:

А кривая агрегированного прогноза в зависимости от количества измерений показана ниже:

Вы можете видеть, что агрегированный прогноз повышает достоверность измерений и в конечном итоге сходится к правильному прогнозу.

Еще одно наблюдение заключается в том, что предсказание, когда есть только одно измерение, не так хорошо, как метрики ROC. Это потому, что мы учли отношение P(y=0)/P(y=1). Это зависит от вашего приложения, чтобы обосновать, является ли оценка этого рациона точной или нет. Однако с ростом числа измерений влияние этого соотношения становится меньше, поскольку остальные слагаемые растут экспоненциально.