НЛП: лемматизация с помощью lemmaGen c ++

Я улучшаю чат-бота и хочу найти лемму слов из входного предложения. Чат-бот написан на C ++, и я нашел бесплатный инструмент лемматизации с открытым исходным кодом под названием LemmaGen. Я загрузил версию 2.2 для C ++, но в ней нет документации о том, как на нее ссылаются или даже как на нее.

Кто-нибудь имел опыт работы с LemmaGen для c ++ в прошлом? Любая информация будет полезна. Огромное спасибо


person relly100    schedule 28.01.2013    source источник
comment
лемматизация - сложная задача.   -  person alvas    schedule 29.01.2013
comment
Вы успешно использовали lemmaGen для C ++? В настоящее время я столкнулся с той же проблемой. Могу я предложить вам ответить на него? stackoverflow .com / questions / 37151476 / здесь?   -  person HappyCoding    schedule 12.05.2016


Ответы (1)


Я не использовал версию C ++, но использовал версию C #. Использование LemmaGen для C # простое и прямолинейное. Сначала вы инициализируете объект типа Lemmatizer с параметром файла модели, а затем вы можете вызвать его публичный метод для лемматизации слова, представленного в виде строки. Итак, все, что вам нужно сделать, это токенизировать свой текст, а затем лемматизировать каждый токен один за другим. Метод возвращает строку, которая представляет собой лемму входного слова.

Я предполагаю, что использование версии C ++ аналогично.

person MaticDiba    schedule 22.08.2014