Быстрое расстояние Левенштейна в R?

Есть ли пакет, который содержит функцию подсчета расстояний Левенштейна, которая реализована в виде кода C или Fortran? У меня есть много строк для сравнения, и stringMatch из MiscPsycho слишком медленный для этого.


person mbq    schedule 05.07.2010    source источник


Ответы (4)


levenshteinDist (из пакета RecordLinkage) вызывает скомпилированные C код. Попробуйте.

person George Dontas    schedule 05.07.2010
comment
Просто отметим, что пакет RecordLinkage, по-видимому, больше не поддерживается и был удален из CRAN. Пакет stringdist теперь является решением. - person Brian Stamper; 27.02.2020


Вы также можете попробовать stringDist из Biostrings

person Aaron Statham    schedule 06.07.2010

Вы также можете использовать levenshtein_distance() из пакета textTinyR. Я получил ошибки памяти 'calloc' со всеми другими пакетами, когда дело дошло до больших векторов символов около 30 тыс. символов. У меня работало только textTinyR!

person interrobang    schedule 08.03.2020