Я хочу использовать Mallet в рамках проекта по поиску экспертов. Я почти новичок в Mallet, но знаю, что он тренирует темы из набора документов. Допустим, у меня есть 50 тем, подготовленных Маллетом. Я хочу рассчитать эту вероятность: p(topic|q)
или либо p(q|topic)
q
— это запрос. Это слово (например, алгоритм, андроид и т. д.), по которому мне нужно найти специалистов в указанной области.
Когда я прочитал этот пост: как получить тему слова вероятность с помощью молотка. Один из пользователей сказал, что мы можем рассчитать вероятность с помощью опции --word-topic-counts-file
. Допустим, я сгенерировал этот файл с помощью Маллета. Он имеет следующую структуру:
0 android 2:21
1 is 3:3
.
.
.
Я знаю семантику этой структуры, но я не знаю, как рассчитать вероятность заданного запроса темы (т.е. p(topic|q)
или p(q|topic)
)
P.S. Я использую это слово, потому что не уверен, что молоток вычисляет, какой из них
Любая помощь будет оценена