Вопросы по теме 'topicmodels'
График отдельной темы LDA по дате (в R)
У меня есть группа текстовых файлов из нескольких журналов (назовем их журнал А и журнал Б), на которых я пытаюсь запустить LDA. Я разделяю их каждый на свой корпус, затем присоединяю имена файлов к каждому корпусу, сохраняю журнал происхождения под...
1169 просмотров
schedule
01.02.2024
В пакете топиков R, как мы можем получить распределение тем по срокам?
Я запускаю LDA с помощью пакета топиков.
lda.model = LDA(dtm, k,control = list(em = list(iter.max = 1000, tol = 10^-4)))
apps.terms<-terms(lda.model,15)
head(apps.terms)
Topic.1 Topic.2 Topic.3 Topic.4 Topic.5
1 38 55 187...
577 просмотров
schedule
05.06.2023
В DocumentTermMatrix должна быть указана ошибка частотного взвешивания термина.
Я пытаюсь использовать LDA() из пакета топиков для довольно большого набора данных. Попробовав все, чтобы исправить следующие ошибки «In nr * nc: NAs, созданные целочисленным переполнением» и «Каждая строка входной матрицы должна содержать хотя бы...
2394 просмотров
schedule
13.07.2022
Как получить вероятность темы по запросу с помощью Mallet
Я хочу использовать Mallet в рамках проекта по поиску экспертов. Я почти новичок в Mallet, но знаю, что он тренирует темы из набора документов. Допустим, у меня есть 50 тем, подготовленных Маллетом. Я хочу рассчитать эту вероятность: p(topic|q)...
96 просмотров
schedule
04.07.2023
нулевые источники в файле композиции молотка
Я хочу использовать молоток для обучающих тем. Мои данные находятся в одном файле, поэтому я изучаю документацию молотка, чтобы понять, как создать этот единственный файл.
На веб-сайте Mallet в разделе Один файл, один экземпляр в строке...
86 просмотров
schedule
04.01.2023
R - включение предварительно закодированного обучающего набора в модель lda
Я пытаюсь распределить список опрошенных вопросов по 30 различным категориям, используя функцию LDA в пакете топиков.
Код, который у меня есть до сих пор:
source <- VectorSource(openended$q2)
corpus <- Corpus(source)
corpus <-...
185 просмотров
schedule
25.07.2022
Зачем нам нужны гиперпараметры beta и alpha в LDA?
Я пытаюсь понять техническую часть скрытого распределения Дирихле (LDA), но у меня есть несколько вопросов:
Во-первых: почему нам нужно добавлять альфа и гамму каждый раз, когда мы пробуем приведенное ниже уравнение? Что, если мы удалим альфа и...
1018 просмотров
schedule
29.12.2022
Можно ли использовать тематическое моделирование для одного документа
Рационально ли использовать тематическое моделирование для одного документа или, если быть более точным, математически приемлемо использовать метод LDA-гиббса для одного документа. Если да, то каким должно быть значение k и seed. Также какова роль k...
646 просмотров
schedule
21.06.2023
Восстановить исходный идентификатор документа из объекта lda
Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels . Хотя легко извлечь наиболее вероятную...
104 просмотров
schedule
16.09.2022