Я изучаю обнаружение спама с помощью методов машинного обучения, и в сообщении, которое я нашел в Stack, предлагается начать с наивного байесовского подхода. Классификатор.
Мой вопрос таков: что, если атрибут, который я измеряю, является дискретным, а не непрерывным, как его следует включить? В этом примере в Википедии они обучают классификатор распознавать мужчин и женщин на основе рост, вес и размер ноги. А если бы была четвертая категория «Любимый вид спорта». Предположим, в моей гипотетической выборке у вас было «Футбол, футбол, плавание, катание на коньках». Эти значения являются дискретными/нумерованными, а не непрерывными. Могли бы вы по-прежнему использовать наивный байесовский классификатор? Я мог бы сопоставить эти значения с целыми числами (Футбол = 1, Плавание = 2), но в различиях таких вещей, как рост и вес, есть подразумеваемый смысл (5 футов очень отличается от 10 футов), где нет такого подразумеваемого значения в различия между перечислением (Футбол - Плавание = -1, и что?)
По сути, мог бы я по-прежнему использовать наивный байесовский классификатор, если бы значениями, которые у меня были, были рост, вес, размер ноги и любимый вид спорта?