Как TreeTagger получает лемму слова?

Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья решений или алгоритмы машинного обучения, или она просто содержит список слов с соответствующей леммой. Кто-нибудь это знает? Спасибо!!


person Rodrigo Serna Pérez    schedule 05.06.2018    source источник
comment
Пожалуйста, рассмотрите возможность комментирования или, если это помогло вам, проголосовать или принять ответ ниже. Спасибо.   -  person Manuel Bickel    schedule 01.07.2018


Ответы (1)


На основе личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:

Функция лемматизации основана на проекте XTAG, который включает морфологический анализатор. В рамках проекта XTAG было проанализировано несколько корпусов. Принимая во внимание TreeTagger, особенно анализ корпуса Penn Treebank Corpus кажется актуальным, поскольку этот корпус является учебным корпусом для файла параметров TreeTagger на английском языке. Учитывая лемматизацию, леммы просто сохранялись в лексиконе. Наконец, TreeTagger использует этот словарь в качестве таблицы поиска.

Следовательно, с помощью TreeTagger вы можете получить только те леммы, которые доступны в лексиконе.

Если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам понадобится морфологический анализатор и, в зависимости от вашего подхода, подходящий обучающий корпус, хотя это не кажется обязательным, поскольку некоторые анализаторы работают достаточно хорошо даже при непосредственном применении к интересующий корпус для анализа.

person Manuel Bickel    schedule 11.06.2018