нулевые источники в файле композиции молотка

Я хочу использовать молоток для обучающих тем. Мои данные находятся в одном файле, поэтому я изучаю документацию молотка, чтобы понять, как создать этот единственный файл.

На веб-сайте Mallet в разделе Один файл, один экземпляр в строке разделе, было сказано:

[URL] [язык] [текст страницы...]

В этом случае первая лексема каждой строки (с разделителями-пробелами и необязательной запятой) становится именем экземпляра, вторая лексема становится меткой, а весь дополнительный текст в строке интерпретируется как последовательность лексем слова.

Итак, согласно приведенной выше цитате, я создал свой единственный файл следующим образом:

127 en some text here... 982 en some text here... 1003 en some text here... ...

а затем импортируйте этот единственный файл:

bin\mallet import-file --input data.txt --output data.mallet --keep-sequence

после этого тренирую 3 темы:

bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt

Однако, когда я открываю data_composition.txt, он имеет следующую структуру:

#doc source topic proportion ... 0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317

Итак, теперь возникает вопрос: почему маллет печатает null-source в этом файле композиции? Я хочу, чтобы он печатал URL-адрес (т.е. идентификаторы в моем случае) под заголовком источника.

ИЗМЕНИТЬ:

Я хочу что-то вроде этого:

#doc source topic proportion ... 0 127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 1 982 ... (topic probabilities) ... 2 1003 ... (topic probabilities) ...

заранее спасибо!

machine-learning topic-modeling information-retrieval mallet topicmodels

inverted_index    07.12.2016    источник

Ответы (2)

arrow_upward
0
arrow_downward

Первый столбец вашего входного файла не содержит URL-адресов. Пытаться

file://0

вместо просто 0.

jk - Reinstate Monica    08.12.2016

comment

Спасибо за ваш ответ. Что касается вашего ответа, цифры (1,2,3 и т. д.) - это URL-адреса, ожидаемые молотком. Другими словами, как я могу сказать маллету, что числа являются URL-адресами? Вы знаете? @jknappen - inverted_index; 08.12.2016

comment

Числа в первом столбце файла композиции — это просто номера строк, считая от 0. Они не имеют никакого отношения к URL-адресу документа, чтобы отображаться во втором столбце. - jk - Reinstate Monica; 09.12.2016

comment

Я дал эти числа случайным образом (это не номера строк). Я сам дал эти числа. Для получения дополнительных разъяснений обратите внимание на отредактированный пост. @jknappen - inverted_index; 09.12.2016

comment

Послушайте, я хочу, чтобы молоток печатал URL-адреса под заголовком источника в файле композиции. Например, 127 должно быть напечатано во второй строке файла композиции. - inverted_index; 09.12.2016

comment

Я предлагаю вам ввести в маллет реальные URL-адреса и затем выполнить некоторую постобработку, чтобы настроить формат файла. - jk - Reinstate Monica; 09.12.2016

arrow_upward
0
arrow_downward

Попробуйте обновиться до последней версии Mallet здесь: http://mallet.cs.umass.edu/download.php

Экземпляры молотка имеют поля «имя» и «источник». В предыдущих версиях --output-doc-topics печатал источник. Текущая стабильная версия, 2.0.8, печатает имя, которое является полем, которое вы хотите отобразить.

Обратите внимание, что в этой версии также по умолчанию используется «плотное» представление пропорций тем с одним столбцом для каждой темы.

David Mimno    14.12.2016

нулевые источники в файле композиции молотка

Ответы (2)

Вопросы по теме