Я нашел ссылку о многочленном наивном байесовском классификаторе
многочленная наивная байесовская ссылка
Как мы могли вычислить B'
или |V|
?
На странице сказано, что это количество терминов в словаре. В его примере, как мы могли бы получить 6
для B
? Это подсчет всего срока?
"китайский", "пекин", "шанхай", "мякао", "токио", "япония"
Еще один вопрос, а что если в тестовом документе появится новый термин? например, в документе 6 появляется слово «бангкок» или любое новое слово, которое раньше никогда не встречалось. как посчитать вероятность нового срока?