Вопросы по теме 'topicmodels'

График отдельной темы LDA по дате (в R)
У меня есть группа текстовых файлов из нескольких журналов (назовем их журнал А и журнал Б), на которых я пытаюсь запустить LDA. Я разделяю их каждый на свой корпус, затем присоединяю имена файлов к каждому корпусу, сохраняю журнал происхождения под...
1169 просмотров
schedule 01.02.2024

В пакете топиков R, как мы можем получить распределение тем по срокам?
Я запускаю LDA с помощью пакета топиков. lda.model = LDA(dtm, k,control = list(em = list(iter.max = 1000, tol = 10^-4))) apps.terms<-terms(lda.model,15) head(apps.terms) Topic.1 Topic.2 Topic.3 Topic.4 Topic.5 1 38 55 187...
577 просмотров
schedule 05.06.2023

В DocumentTermMatrix должна быть указана ошибка частотного взвешивания термина.
Я пытаюсь использовать LDA() из пакета топиков для довольно большого набора данных. Попробовав все, чтобы исправить следующие ошибки «In nr * nc: NAs, созданные целочисленным переполнением» и «Каждая строка входной матрицы должна содержать хотя бы...
2394 просмотров
schedule 13.07.2022

Как получить вероятность темы по запросу с помощью Mallet
Я хочу использовать Mallet в рамках проекта по поиску экспертов. Я почти новичок в Mallet, но знаю, что он тренирует темы из набора документов. Допустим, у меня есть 50 тем, подготовленных Маллетом. Я хочу рассчитать эту вероятность: p(topic|q)...
96 просмотров

нулевые источники в файле композиции молотка
Я хочу использовать молоток для обучающих тем. Мои данные находятся в одном файле, поэтому я изучаю документацию молотка, чтобы понять, как создать этот единственный файл. На веб-сайте Mallet в разделе Один файл, один экземпляр в строке...
86 просмотров

R - включение предварительно закодированного обучающего набора в модель lda
Я пытаюсь распределить список опрошенных вопросов по 30 различным категориям, используя функцию LDA в пакете топиков. Код, который у меня есть до сих пор: source <- VectorSource(openended$q2) corpus <- Corpus(source) corpus <-...
185 просмотров

Зачем нам нужны гиперпараметры beta и alpha в LDA?
Я пытаюсь понять техническую часть скрытого распределения Дирихле (LDA), но у меня есть несколько вопросов: Во-первых: почему нам нужно добавлять альфа и гамму каждый раз, когда мы пробуем приведенное ниже уравнение? Что, если мы удалим альфа и...
1018 просмотров
schedule 29.12.2022

Можно ли использовать тематическое моделирование для одного документа
Рационально ли использовать тематическое моделирование для одного документа или, если быть более точным, математически приемлемо использовать метод LDA-гиббса для одного документа. Если да, то каким должно быть значение k и seed. Также какова роль k...
646 просмотров
schedule 21.06.2023

Восстановить исходный идентификатор документа из объекта lda
Я пытаюсь сравнить «консенсусное» предсказание темы (бета) по терминам (в заданном документе) с наиболее вероятной предсказанной темой из самого документа (гамма), используя функции из topicmodels . Хотя легко извлечь наиболее вероятную...
104 просмотров
schedule 16.09.2022