нулевые источники в файле композиции молотка

Я хочу использовать молоток для обучающих тем. Мои данные находятся в одном файле, поэтому я изучаю документацию молотка, чтобы понять, как создать этот единственный файл.

На веб-сайте Mallet в разделе Один файл, один экземпляр в строке разделе, было сказано:

[URL] [язык] [текст страницы...]

В этом случае первая лексема каждой строки (с разделителями-пробелами и необязательной запятой) становится именем экземпляра, вторая лексема становится меткой, а весь дополнительный текст в строке интерпретируется как последовательность лексем слова.

Итак, согласно приведенной выше цитате, я создал свой единственный файл следующим образом:

127  en  some text here...
982  en  some text here...
1003  en  some text here...
...

а затем импортируйте этот единственный файл:

bin\mallet import-file --input data.txt --output data.mallet --keep-sequence

после этого тренирую 3 темы:

bin\mallet train-topics --input data.mallet --num-topics 3 --output-doc-topics data_composition.txt --word-topic-counts-file data_wcounts.txt

Однако, когда я открываю data_composition.txt, он имеет следующую структуру:

#doc source topic proportion ...    
0 null-source 0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 

Итак, теперь возникает вопрос: почему маллет печатает null-source в этом файле композиции? Я хочу, чтобы он печатал URL-адрес (т.е. идентификаторы в моем случае) под заголовком источника.

ИЗМЕНИТЬ:

Я хочу что-то вроде этого:

#doc source topic proportion ...    
0     127   0 0.4057970941066742 1 0.3188405930995941 2 0.2753623127937317 
1     982    ... (topic probabilities) ...
2     1003   ... (topic probabilities) ...

заранее спасибо!


person inverted_index    schedule 07.12.2016    source источник


Ответы (2)


Первый столбец вашего входного файла не содержит URL-адресов. Пытаться

file://0

вместо просто 0.

person jk - Reinstate Monica    schedule 08.12.2016
comment
Спасибо за ваш ответ. Что касается вашего ответа, цифры (1,2,3 и т. д.) - это URL-адреса, ожидаемые молотком. Другими словами, как я могу сказать маллету, что числа являются URL-адресами? Вы знаете? @jknappen - person inverted_index; 08.12.2016
comment
Числа в первом столбце файла композиции — это просто номера строк, считая от 0. Они не имеют никакого отношения к URL-адресу документа, чтобы отображаться во втором столбце. - person jk - Reinstate Monica; 09.12.2016
comment
Я дал эти числа случайным образом (это не номера строк). Я сам дал эти числа. Для получения дополнительных разъяснений обратите внимание на отредактированный пост. @jknappen - person inverted_index; 09.12.2016
comment
Послушайте, я хочу, чтобы молоток печатал URL-адреса под заголовком источника в файле композиции. Например, 127 должно быть напечатано во второй строке файла композиции. - person inverted_index; 09.12.2016
comment
Я предлагаю вам ввести в маллет реальные URL-адреса и затем выполнить некоторую постобработку, чтобы настроить формат файла. - person jk - Reinstate Monica; 09.12.2016

Попробуйте обновиться до последней версии Mallet здесь: http://mallet.cs.umass.edu/download.php

Экземпляры молотка имеют поля «имя» и «источник». В предыдущих версиях --output-doc-topics печатал источник. Текущая стабильная версия, 2.0.8, печатает имя, которое является полем, которое вы хотите отобразить.

Обратите внимание, что в этой версии также по умолчанию используется «плотное» представление пропорций тем с одним столбцом для каждой темы.

person David Mimno    schedule 14.12.2016