Рационально ли использовать тематическое моделирование для одного документа или, если быть более точным, математически приемлемо использовать метод LDA-гиббса для одного документа. Если да, то каким должно быть значение k и seed. Также какова роль k и seed для одного или большого набора документов.
K и SEED являются переменными функции LDA (в r studio). Также дайте мне знать, если я где-то ошибаюсь в этом вопросе.
Чтобы рассказать о своем проекте, я пытаюсь выяснить основные темы, которые можно использовать для представления содержимого одного документа.
Я уже пробовал использовать k=4,7,10. Часть моего вопроса также заключается в том, какое значение k должно быть лучше.