Я нахожу простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но я не хочу использовать все его возможности, а только преобразование множественного/единственного числа. Язык голландский. Вы уже просмотрели http://www.snowball.tartarus.org. Кто-нибудь знает простое решение для релевантных поисков в единственном и множественном числе? Заранее спасибо.
Поиск в единственном/множественном числе и определение корней
Ответы (3)
Используйте словарь, список стоп-слов (тех, которые вы не хотите использовать в единственном числе), а также правила языка. Если вы не знаете нидерландского, то я не могу вам помочь, но покажу вам, как это будет сделано на испанском языке, например:
- Plurals end with s, if it doesn't then it's done
- If it ends with s,
- check if it's a verb or conjugation ending with s if it is one, then it's done (verbs could be added to the stopwords list)
- если это не глагол, удалите s
- если слово есть в словаре, готово
- если он не удаляет предыдущую букву, и проверьте ее в словаре.
- если его все еще нет, это исключение, которое вам нужно вручную проверить, чтобы закодировать исключения (сейчас я не могу придумать ни одного, но они всегда существуют :)
- If it ends with s,
Конечно, это не будет напрямую переведено на голландский язык.
В общем, стеммеры уже сделаны и предоставляют большую часть того, что вам нужно, почему они вам не нужны?
Стеммеры вызвали сильное раздражение пользователей, поэтому, если я использую один из них, все функции, кроме единственного/множественного числа, должны быть отключены. Таким образом, требование состоит в том, чтобы использовать только множественные/единственные преобразования.
Ответ правильный, но стоит отметить, что в голландском языке большое количество неправильных глаголов. Это превращает поиск корней в проблему поиска в таблице, а не в набор отдельных правил.
Вам понадобится доступ к корпусам, вы можете найти один для голландского языка здесь: http://corpus1.mpi.nl/ds/imdi_browser/