Как TreeTagger получает лемму слова?

Я использую TreeTagger, чтобы получить леммы слов на испанском языке, но я заметил, что слишком много слов не трансформируются должным образом. Я хотел бы знать, как работает эта операция, выполняется ли она с помощью таких методов, как деревья решений или алгоритмы машинного обучения, или она просто содержит список слов с соответствующей леммой. Кто-нибудь это знает? Спасибо!!

nlp lemmatization treetagger

Rodrigo Serna Pérez 05.06.2018 источник

comment

Пожалуйста, рассмотрите возможность комментирования или, если это помогло вам, проголосовать или принять ответ ниже. Спасибо. - Manuel Bickel 01.07.2018

Ответы (1)

arrow_upward
0
arrow_downward

На основе личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:

Функция лемматизации основана на проекте XTAG, который включает морфологический анализатор. В рамках проекта XTAG было проанализировано несколько корпусов. Принимая во внимание TreeTagger, особенно анализ корпуса Penn Treebank Corpus кажется актуальным, поскольку этот корпус является учебным корпусом для файла параметров TreeTagger на английском языке. Учитывая лемматизацию, леммы просто сохранялись в лексиконе. Наконец, TreeTagger использует этот словарь в качестве таблицы поиска.

Следовательно, с помощью TreeTagger вы можете получить только те леммы, которые доступны в лексиконе.

Если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам понадобится морфологический анализатор и, в зависимости от вашего подхода, подходящий обучающий корпус, хотя это не кажется обязательным, поскольку некоторые анализаторы работают достаточно хорошо даже при непосредственном применении к интересующий корпус для анализа.

Manuel Bickel 11.06.2018

Как TreeTagger получает лемму слова?

Ответы (1)

Вопросы по теме