MALLET для автоматической пометки тем - с обучающими данными

У меня есть корпус документов, которые я уже пометил. У меня есть фиксированный список из примерно 400 тегов, относящихся к разным темам. Каждый документ был помечен одним или несколькими тегами и коротким заголовком. (У меня также есть гораздо больший список заголовков, который я часто повторно использую, если документ содержит очень похожее содержание)

Я хочу создать интерфейс, который будет предлагать теги/заголовки (из моих существующих списков) для новых документов, которые я добавляю в корпус, в зависимости от того, как я пометил существующие документы.

Я читал о классах вероятностной тематической модели LDA, которые отлично подходят для анализа текста, когда у вас нет существующих данных с тегами. Но я не вижу способа, которым я мог бы включить мою существующую работу.

Мы ценим любые предложения.

С уважением

Свами


person swami    schedule 04.10.2012    source источник


Ответы (1)


Для предложения тегов наш опыт заключается только в использовании поисковой системы, нет необходимости в тематическом моделировании.

Попробуйте выполнить следующие шаги:

  • Настройте индекс заголовка и резюме всех ваших документов.
  • Можно использовать заголовок или реферат нового документа в качестве запроса для поиска в указателе и получить список похожих документов.
  • Используя несколько первых наиболее похожих документов из списка, мы агрегируем все теги на них в виде пакета тегов.
  • Отсортируйте набор тегов по частоте каждого тега, и конечным результатом будут первые наиболее часто встречающиеся теги.

Это решение работоспособно.

person Mountain    schedule 25.02.2013
comment
Наши документы на самом деле являются пользовательским выбором из реальных документов. У них нет реферата. Количество слов может варьироваться от 500 до 5000 слов, а содержание темы может быть совершенно не связанным, даже если исходный документ тот же. Можно ли использовать сам текст документа в качестве запроса? Мы используем SOLR. Я предполагаю, что для запроса из 5000 слов потребовалось бы слишком много вычислительной мощности, если бы мы не сделали какое-то действительно агрессивное удаление стоп-слов. Хотелось бы узнать ваше мнение об этой Горе. - person swami; 31.07.2013