Могу ли я использовать наивный байесовский классификатор с перечисляемыми данными?

Я изучаю обнаружение спама с помощью методов машинного обучения, и в сообщении, которое я нашел в Stack, предлагается начать с наивного байесовского подхода. Классификатор.

Мой вопрос таков: что, если атрибут, который я измеряю, является дискретным, а не непрерывным, как его следует включить? В этом примере в Википедии они обучают классификатор распознавать мужчин и женщин на основе рост, вес и размер ноги. А если бы была четвертая категория «Любимый вид спорта». Предположим, в моей гипотетической выборке у вас было «Футбол, футбол, плавание, катание на коньках». Эти значения являются дискретными/нумерованными, а не непрерывными. Могли бы вы по-прежнему использовать наивный байесовский классификатор? Я мог бы сопоставить эти значения с целыми числами (Футбол = 1, Плавание = 2), но в различиях таких вещей, как рост и вес, есть подразумеваемый смысл (5 футов очень отличается от 10 футов), где нет такого подразумеваемого значения в различия между перечислением (Футбол - Плавание = -1, и что?)

По сути, мог бы я по-прежнему использовать наивный байесовский классификатор, если бы значениями, которые у меня были, были рост, вес, размер ноги и любимый вид спорта?


person esilver    schedule 14.11.2014    source источник


Ответы (1)


Да, в байесовской классификации вам просто нужно определить конкретное распределение класса по его поддержке, что вы можете легко сделать из данных. Теперь вы можете вычислить апостериорное распределение для каждого класса, а затем выполнить оценки карты. Фактически для документов распределение определяется для каждого слова словаря с учетом класса документа как спам или не спам. Подробности см. в заметках Эндрю о введении в машинное обучение.

person Mujtaba Hasan    schedule 15.11.2014