Я хочу использовать молоток для обучающих тем. Мои данные находятся в одном файле, поэтому я изучаю документацию молотка, чтобы понять, как создать этот единственный файл.
На веб-сайте Mallet в разделе Один файл, один экземпляр в строке strong> разделе, было сказано:
[URL] [язык] [текст страницы...]
В этом случае первая лексема каждой строки (с разделителями-пробелами и необязательной запятой) становится именем экземпляра, вторая лексема становится меткой, а весь дополнительный текст в строке интерпретируется как последовательность лексем слова.
Итак, согласно приведенной выше цитате, я создал свой единственный файл следующим образом:
127 en some text here...
982 en some text here...
1003 en some text here...
...
а затем импортируйте этот единственный файл:
bin\mallet import-file --input data.txt --output data.mallet --keep-sequence
после этого тренирую 3 темы:
bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt
Однако, когда я открываю data_composition.txt
, он имеет следующую структуру:
#doc source topic proportion ...
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
Итак, теперь возникает вопрос: почему маллет печатает null-source
в этом файле композиции? Я хочу, чтобы он печатал URL-адрес (т.е. идентификаторы в моем случае) под заголовком источника.
ИЗМЕНИТЬ:
Я хочу что-то вроде этого:
#doc source topic proportion ...
0 127 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317
1 982 ... (topic probabilities) ...
2 1003 ... (topic probabilities) ...
заранее спасибо!