Поиск в единственном/множественном числе и определение корней

Я нахожу простое решение для поиска по ключевым словам в единственном и множественном числе. Я слышал о стемминге, но я не хочу использовать все его возможности, а только преобразование множественного/единственного числа. Язык голландский. Вы уже просмотрели http://www.snowball.tartarus.org. Кто-нибудь знает простое решение для релевантных поисков в единственном и множественном числе? Заранее спасибо.


person Mark Vital    schedule 01.10.2008    source источник


Ответы (3)


Используйте словарь, список стоп-слов (тех, которые вы не хотите использовать в единственном числе), а также правила языка. Если вы не знаете нидерландского, то я не могу вам помочь, но покажу вам, как это будет сделано на испанском языке, например:

  • Plurals end with s, if it doesn't then it's done
    • If it ends with s,
      • check if it's a verb or conjugation ending with s if it is one, then it's done (verbs could be added to the stopwords list)
      • если это не глагол, удалите s
      • если слово есть в словаре, готово
      • если он не удаляет предыдущую букву, и проверьте ее в словаре.
      • если его все еще нет, это исключение, которое вам нужно вручную проверить, чтобы закодировать исключения (сейчас я не могу придумать ни одного, но они всегда существуют :)

Конечно, это не будет напрямую переведено на голландский язык.

В общем, стеммеры уже сделаны и предоставляют большую часть того, что вам нужно, почему они вам не нужны?

person Vinko Vrsalovic    schedule 01.10.2008

Стеммеры вызвали сильное раздражение пользователей, поэтому, если я использую один из них, все функции, кроме единственного/множественного числа, должны быть отключены. Таким образом, требование состоит в том, чтобы использовать только множественные/единственные преобразования.

person Mark Vital    schedule 01.10.2008

Ответ правильный, но стоит отметить, что в голландском языке большое количество неправильных глаголов. Это превращает поиск корней в проблему поиска в таблице, а не в набор отдельных правил.

Вам понадобится доступ к корпусам, вы можете найти один для голландского языка здесь: http://corpus1.mpi.nl/ds/imdi_browser/

person Ryan Barrett    schedule 27.09.2012