Я использую Mallet для тематического моделирования. Большое количество слов в моем вводном тексте включает как буквы, так и цифры; например, A54, D892. Я только что заметил, что Маллет автоматически удаляет цифры и оставляет только буквы в словах. Я даже не использую опцию --remove-stopwords при импорте моего текстового файла. Кто-нибудь знает, как я могу решить эту проблему.
Сохраняйте цифры в тематическом моделировании Mallet
Ответы (1)
bin/mallet import-dir
имеет параметр --token-regex
, который определяет, что принимать как часть слова. Вам может подойти один из следующих двух вариантов: [\p{L}\p{D}]+
принимает любые комбинации букв и цифр; \p{L}[\p{L}\p{D}]*
принимает буквенно-цифровые строки, начинающиеся с буквы.
person
jk - Reinstate Monica
schedule
05.06.2015