Поиск тем невидимого документа через Gensim

Я использую Gensim для крупномасштабного тематического моделирования. Мне трудно понять, как определить прогнозируемые темы для невидимого (неиндексированного) документа. Например: у меня есть 25 миллионов документов, которые я преобразовал в векторы в пространстве LSA (и LDA). Теперь я хочу выяснить темы нового документа, назовем его x.

Согласно документации Gensim, я могу использовать:

topics = lsi[doc(x)]

где doc(x) — функция, преобразующая x в вектор.

Проблема, однако, в том, что приведенная выше переменная топиков возвращает вектор. Вектор полезен, если я сравниваю x с дополнительными документами, потому что он позволяет мне найти косинусное сходство между ними, но я не могу фактически вернуть определенные слова, связанные с самим x.

Я что-то упустил, или у Gensim нет такой возможности?

Спасибо,

ИЗМЕНИТЬ

У Ларсманса есть ответ.

Я смог показать темы, используя:

for t in topics:
    print lsi.show_topics(t[0])

person Peter Kirby    schedule 13.07.2012    source источник
comment
Пожалуйста, не могли бы вы поделиться, как вы конвертируете x в вектор? Огромное спасибо!   -  person Matthew    schedule 24.11.2017


Ответы (2)



Я смог показать темы, используя:

для t в темах: print lsi.show_topics(t[0])

Просто хотел указать на крошечную, но важную ошибку в вашем коде решения: вам нужно использовать функцию show_topic(), а не функцию show_topic**s**().

P.S. Я знаю, что это должно быть опубликовано как комментарий, а не ответ, но моя текущая оценка репутации пока не позволяет комментировать!

person Chiraz BenAbdelkader    schedule 17.05.2014