Моделирование темы молотком, маркировка тем

У меня есть корпус статей в одном документе, и я применяю алгоритм моделирования темы от MALLET, чтобы позже использовать функцию поиска, которая позволит пользователю искать статьи, соответствующие его вводу. Алгоритм, который я использую, — это руководство для разработчиков API моделирования тем, которое можно найти здесь.

Я новичок в тематическом моделировании, но, насколько я понимаю, оно генерирует заданное пользователем количество тем, содержащих слова, относящиеся к этой теме, но программа не знает, что это за тема. Пользователь должен указать это вручную, я прав?

Мой вопрос: как мне вручную установить эти имена тем, чтобы я мог использовать их позже? то есть вывод темы из алгоритма будет:

0 bush republican usa immigration mexico control conservatives

где 0 - название темы. Я хочу вручную изменить имя на что-то вроде:

Immigration Policy: bush republican usa immigration mexico control conservatives

Любая помощь, пожалуйста?


person deadpixels    schedule 12.08.2015    source источник


Ответы (1)


Предлагаю сохранить отдельный файл с номером темы и присвоенными вручную метками, например, в формате

0 Immigration_Policy

Затем вы можете связать номера тем во всех выходных файлах из Mallet с метками.

person jk - Reinstate Monica    schedule 13.08.2015
comment
Что именно вы подразумеваете под отдельным файлом? Как бы вы реализовали это программно? - person deadpixels; 17.08.2015
comment
@deadpixels Вы должны назначать метки вручную, поэтому я предлагаю просто написать отдельный файл с номерами тем и метками в вашем любимом текстовом редакторе. - person jk - Reinstate Monica; 18.08.2015
comment
хороший подход к использованию переменной сопоставления, которая сопоставляет номер темы с ее переменной. - person manish Prasad; 27.05.2019