Я использую Lucene в Java для индексации корпуса и извлечения из него списков слов. Я использую EnglishAnalyzer. Затем я передаю список слов Python, чтобы он сделал некоторые вещи с NLTK. Есть ли в NLTK стеммер, полностью совместимый со стеммером, используемым в EnglishAnalyzer от Lucene?
Я знаю, что мог бы также использовать PyLucene, чтобы обойти это, но я хотел бы свести к минимуму зависимости.