У меня есть корпус документов, которые я уже пометил. У меня есть фиксированный список из примерно 400 тегов, относящихся к разным темам. Каждый документ был помечен одним или несколькими тегами и коротким заголовком. (У меня также есть гораздо больший список заголовков, который я часто повторно использую, если документ содержит очень похожее содержание)
Я хочу создать интерфейс, который будет предлагать теги/заголовки (из моих существующих списков) для новых документов, которые я добавляю в корпус, в зависимости от того, как я пометил существующие документы.
Я читал о классах вероятностной тематической модели LDA, которые отлично подходят для анализа текста, когда у вас нет существующих данных с тегами. Но я не вижу способа, которым я мог бы включить мою существующую работу.
Мы ценим любые предложения.
С уважением
Свами