Сохраняйте цифры в тематическом моделировании Mallet

Я использую Mallet для тематического моделирования. Большое количество слов в моем вводном тексте включает как буквы, так и цифры; например, A54, D892. Я только что заметил, что Маллет автоматически удаляет цифры и оставляет только буквы в словах. Я даже не использую опцию --remove-stopwords при импорте моего текстового файла. Кто-нибудь знает, как я могу решить эту проблему.


person SM.    schedule 07.11.2014    source источник


Ответы (1)


bin/mallet import-dir имеет параметр --token-regex, который определяет, что принимать как часть слова. Вам может подойти один из следующих двух вариантов: [\p{L}\p{D}]+ принимает любые комбинации букв и цифр; \p{L}[\p{L}\p{D}]* принимает буквенно-цифровые строки, начинающиеся с буквы.

person jk - Reinstate Monica    schedule 05.06.2015