Я пытаюсь реализовать алгоритм отсеивания документов для снятия отпечатков пальцев в R.
Здесь ссылка http://www.ida.liu.se/~TDDC03/oldprojects/2005/final-projects/prj10.pdf
Мой вопрос:
как мне получить хэши n-грамм и как их выбрать
nGrams <- c("adoru", "dorun", "orunr", "runru", "unrun", "nrunr" ,"runru",
"unrun","nruna", "runad", "unado", "nador", "adoru", "dorun", "orunr" ,"runru" ,
"unrun")