Функция плотности вероятности с нулевым стандартным отклонением

Сейчас я реализую приложение для фильтрации электронной почты с использованием алгоритма Naive Bayes. В моем приложении используется набор данных Spambase из репозитория машинного обучения UCI. Поскольку атрибуты непрерывны, я рассчитываю вероятность с помощью функции плотности вероятности (PDF). Однако, когда я оцениваю данные с помощью k-кратной перекрестной проверки, обучающий набор может содержать только 0 для одного из своих атрибутов. По этой причине я получил стандартное отклонение 0, а PDF возвращает NaN, что приводит к тому, что огромное количество спама неправильно классифицируется с помощью этого обучающего набора. Что мне делать, чтобы решить проблему?


person Peter Wong    schedule 10.09.2012    source источник
comment
Вы должны представлять в качестве статистической проблемы на форум Stats SO или на Подфорум статистики форума Physics.   -  person Hot Licks    schedule 10.09.2012


Ответы (1)


Вы можете использовать дискретный PDF, который всегда будет ограничен.

В качестве альтернативы просто игнорируйте любой атрибут с нулевой дисперсией. Нет смысла включать распределения с нулевой дисперсией, потому что они на самом деле ничего не делают. Например, вы хотите узнать, сколько мне лет, и тогда я говорю вам, что живу на планете Земля. Это не должно изменить вашу оценку, потому что все имеющиеся у вас данные относятся к людям на планете Земля.

person Dietrich Epp    schedule 10.09.2012
comment
Я думаю, что тогда я просто буду игнорировать атрибуты с нулевой дисперсией, спасибо! - person Peter Wong; 19.09.2012