Построение графиков LDAvis с использованием токенов фраз вместо токенов отдельных слов

Мой вопрос очень прост. Как с помощью пакета text2vec в R построить графики моделирования тем ldavis с использованием токенов фраз вместо токенов отдельных слов.

В настоящее время токенизатор слов tokens = word_tokenizer(tokens) отлично работает, но есть ли функция токенизатора фраз или ngram, позволяющая строить тематические модели ldavis и соответствующие графики с фразами вместо слов?

Если нет, то как можно построить такой код? Является ли это даже методологически разумным или целесообразным?


person nigus21    schedule 23.10.2020    source источник