Выбросы в данных оказывают огромное влияние. В некоторых случаях мы игнорируем точки данных, которые являются выбросами, или иногда мы работаем с теми, которые конкретно зависят от области, в которой вы работаете.

Вот интересная вещь, которой я собираюсь поделиться здесь, что вы будете делать, если столкнетесь с выбросами (точками данных) в своем наборе данных.

Давайте рассмотрим пример проблемы классификации текста. Предположим, у вас есть набор слов в наборе обучающих данных, а точка запроса — {W1, W2, W3, W4, W'}, и этого W' нет в ваших обучающих данных. установите или предположим, что это слово очень редко встречается в ваших обучающих данных либо в классе +ve, либо в классе -ve. Простыми словами, это Outlier.

Что вы можете сделать здесь:

1) Простой прием — попытаться не учитывать слова в обучающем наборе данных, даже если это слово редко встречается в вашем обучающем наборе.

2) Во-вторых, используйте сглаживание Лапласа/аддитивное сглаживание с хорошим/разумным значением альфа (∝), чтобы вероятность появления слова для класса +ve/-ve не исчезала полностью. Таким образом, чтобы избежать такой ситуации, когда вероятность числителя довольно мала для конкретного слова, которое встречается в наборе слов очень мало раз.

Математически:

P(W’/y=1)=(p(W’)/n1(общее количество меток класса +ve))

P(W’) будет равно нулю, здесь Лаплас(альфа) играет важную роль, чтобы избежать влияния выбросов в вашем наборе данных. (P(W’)+альфа)/(100+2*альфа), чтобы получить числовую стабильность, мы добавляем 2*альфа в знаменатель

Поскольку P(W’)=0; (0+альфа/100+2*альфа).

Но убедитесь, что значение альфа должно быть достаточно хорошим, иначе ваша модель может привести к недообучению/переоснащению. Очень большое значение альфы приведет к несоответствию модели. Возьмем альфу = 1000, предположим, что слово встречается только дважды в 1000 точек данных, у вас есть общее количество +ve баллов класса 1000, а ваш 2aplha = 2000

Тогда P(W’/y=1)=2+1000/(1000+2000) ≈1/2

Таким образом, для всех слов при заданном запросе wi вероятность P (Wi / y = 1) ≈ 1/2, поэтому модель не сможет отличить точку запроса от класса +ve (1) или -ve (0). Так называемое высокое смещение (недообучение)

Если значение альфа довольно мало или альфа = 0, если в обучающих данных есть небольшие изменения, то результаты модели резко меняются. это называется высокой дисперсией или переоснащением.

Вывод: Всякий раз, когда вы работаете над проблемой классификации текста, используя базовую модель (наивную байесовскую модель), вам следует использовать сглаживание Лапласа.

Спасибо и увидимся в следующем блоге.