Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья решений или алгоритмы машинного обучения, или она просто содержит список слов с соответствующей леммой. Кто-нибудь это знает? Спасибо!!
Как TreeTagger получает лемму слова?
Ответы (1)
На основе личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:
Функция лемматизации основана на проекте XTAG, который включает морфологический анализатор. В рамках проекта XTAG было проанализировано несколько корпусов. Принимая во внимание TreeTagger, особенно анализ корпуса Penn Treebank Corpus кажется актуальным, поскольку этот корпус является учебным корпусом для файла параметров TreeTagger на английском языке. Учитывая лемматизацию, леммы просто сохранялись в лексиконе. Наконец, TreeTagger использует этот словарь в качестве таблицы поиска.
Следовательно, с помощью TreeTagger вы можете получить только те леммы, которые доступны в лексиконе.
Если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам понадобится морфологический анализатор и, в зависимости от вашего подхода, подходящий обучающий корпус, хотя это не кажется обязательным, поскольку некоторые анализаторы работают достаточно хорошо даже при непосредственном применении к интересующий корпус для анализа.