Как получить вероятность темы по запросу с помощью Mallet

Я хочу использовать Mallet в рамках проекта по поиску экспертов. Я почти новичок в Mallet, но знаю, что он тренирует темы из набора документов. Допустим, у меня есть 50 тем, подготовленных Маллетом. Я хочу рассчитать эту вероятность: p(topic|q) или либо p(q|topic)

q — это запрос. Это слово (например, алгоритм, андроид и т. д.), по которому мне нужно найти специалистов в указанной области.

Когда я прочитал этот пост: как получить тему слова вероятность с помощью молотка. Один из пользователей сказал, что мы можем рассчитать вероятность с помощью опции --word-topic-counts-file. Допустим, я сгенерировал этот файл с помощью Маллета. Он имеет следующую структуру:

0 android 2:21
1 is 3:3
.
.
.

Я знаю семантику этой структуры, но я не знаю, как рассчитать вероятность заданного запроса темы (т.е. p(topic|q) или p(q|topic))

P.S. Я использую это слово, потому что не уверен, что молоток вычисляет, какой из них

Любая помощь будет оценена


person inverted_index    schedule 06.12.2016    source источник


Ответы (1)