Можно ли использовать тематическое моделирование для одного документа

Рационально ли использовать тематическое моделирование для одного документа или, если быть более точным, математически приемлемо использовать метод LDA-гиббса для одного документа. Если да, то каким должно быть значение k и seed. Также какова роль k и seed для одного или большого набора документов.

K и SEED являются переменными функции LDA (в r studio). Также дайте мне знать, если я где-то ошибаюсь в этом вопросе.

Чтобы рассказать о своем проекте, я пытаюсь выяснить основные темы, которые можно использовать для представления содержимого одного документа.

Я уже пробовал использовать k=4,7,10. Часть моего вопроса также заключается в том, какое значение k должно быть лучше.


person rishav    schedule 22.04.2019    source источник


Ответы (1)


На самом деле все зависит от документа. Документ может быть книгой на 700 страниц или одним предложением. Ваш k также будет зависеть от документа, я думаю, вы имеете в виду количество тем? Если ваш документ представляет собой весь корпус Википедии, может быть уместно 1500 тем, если ваш документ представляет собой список комментариев о фильмах, то может быть уместно 20 тем. Оптимизировать это число можно с помощью метода локтя, см. 17. .

Семя может быть довольно случайным, это просто пропуск, поэтому ваши результаты могут быть воспроизведены - он запускается, если вы оставите его пустым. Я бы сказал, попробуйте и проверьте свою согласованность, просмотрите свои темы, и если это выглядит правильно, то вы можете обучить LDA на одном документе. Один документ должен обрабатываться довольно быстро.

Вот пример использования начальных параметров в python. Мой набор данных составляет 1 048 575 строк, обратите внимание, что начальное значение намного выше:

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)

person Sara    schedule 23.04.2019
comment
Мне нужно найти 4 основные темы в статье. Поэтому я использую k = 4 и seed = 1 (поскольку я изучал на веб-сайте, что seed — это количество документов, которые вы предоставляете в качестве входных данных). Это правильно? подход/Правильно ли я поступаю?? - person rishav; 24.04.2019
comment
Нет семян не количество документов. Мы используем начальное число, когда хотим воспроизвести результаты, например, если я установлю начальное число на 123, запустите его, а затем повторно запустите его, я должен получить идентичные результаты, где, как если бы мы не устанавливали начальное значение, ваши темы будут меняться каждый раз, когда вы запускаете модель. - person Sara; 24.04.2019