Вычисление B и |V| в наивной байесовской текстовой классификации

Я нашел ссылку о многочленном наивном байесовском классификаторе

многочленная наивная байесовская ссылка

Как мы могли вычислить B' или |V|?

На странице сказано, что это количество терминов в словаре. В его примере, как мы могли бы получить 6 для B? Это подсчет всего срока?

"китайский", "пекин", "шанхай", "мякао", "токио", "япония"

Еще один вопрос, а что если в тестовом документе появится новый термин? например, в документе 6 появляется слово «бангкок» или любое новое слово, которое раньше никогда не встречалось. как посчитать вероятность нового срока?


person mhabibi    schedule 20.04.2013    source источник


Ответы (1)


Ты прав. Это общее количество слов в словаре, поскольку для термина в словаре может быть только одна запись.

person passion    schedule 20.04.2013
comment
Еще один вопрос, а что если в тестовом документе появится новый термин? например, в документе 6 появляется бангкок или любое новое слово, которое раньше никогда не встречалось. как посчитать вероятность нового срока? спасибо страсть :) - person mhabibi; 20.04.2013