Мой вопрос очень прост. Как с помощью пакета text2vec в R построить графики моделирования тем ldavis с использованием токенов фраз вместо токенов отдельных слов.
В настоящее время токенизатор слов tokens = word_tokenizer(tokens)
отлично работает, но есть ли функция токенизатора фраз или ngram, позволяющая строить тематические модели ldavis и соответствующие графики с фразами вместо слов?
Если нет, то как можно построить такой код? Является ли это даже методологически разумным или целесообразным?