Я использую Gensim для крупномасштабного тематического моделирования. Мне трудно понять, как определить прогнозируемые темы для невидимого (неиндексированного) документа. Например: у меня есть 25 миллионов документов, которые я преобразовал в векторы в пространстве LSA (и LDA). Теперь я хочу выяснить темы нового документа, назовем его x.
Согласно документации Gensim, я могу использовать:
topics = lsi[doc(x)]
где doc(x) — функция, преобразующая x в вектор.
Проблема, однако, в том, что приведенная выше переменная топиков возвращает вектор. Вектор полезен, если я сравниваю x с дополнительными документами, потому что он позволяет мне найти косинусное сходство между ними, но я не могу фактически вернуть определенные слова, связанные с самим x.
Я что-то упустил, или у Gensim нет такой возможности?
Спасибо,
ИЗМЕНИТЬ
У Ларсманса есть ответ.
Я смог показать темы, используя:
for t in topics:
print lsi.show_topics(t[0])