Публикации по тегам stringdist

Вопросы по теме 'stringdist'

Есть ли пакет, который содержит функцию подсчета расстояний Левенштейна, которая реализована в виде кода C или Fortran? У меня есть много строк для сравнения, и stringMatch из MiscPsycho слишком медленный для этого.

16990 просмотров

18.10.2022

Запишите результаты цикла for мер расстояния в матричной форме в R

Предположим, у меня есть что-то вроде следующего вектора: text <- as.character(c("string1", "str2ing", "3string", "stringFOUR", "5tring", "string6", "s7ring", "string8", "string9", "string10")) Я хочу выполнить цикл, который попарно...

861 просмотров

r for-loop distance string-matching stringdist

02.02.2023

алгоритм машинного обучения для проверки орфографии

У меня есть список названий лекарств (regular_list) и список новых имен (new_list). Я хочу проверить, присутствуют ли имена в new_list уже в обычном_списке или нет. Проблема в том, что имена new_list могут иметь некоторую опечатку ошибок, и я хочу,...

3823 просмотров

text machine-learning stringdist

19.03.2023

Нечеткое слияние в R - ищу помощи в улучшении моего кода

Вдохновленный экспериментальной функцией fuzzy_join из пакета statar , я сам написал функцию, которая сочетает в себе точную и нечеткую (по строке расстояния) сопоставление. Задача слияния, которую мне нужно выполнить, довольно большая (в...

729 просмотров

r data.table parallel-processing fuzzy-comparison stringdist

30.09.2022

Использование stringsim в stringdist

Я использую пакет stringdist для сравнения некоторых векторов строк, но я продолжаю получать ответ, отличный от того, что я думаю, что должен, когда пытаюсь протестировать пакет. Я хочу сделать это: stringsim('PANDIAN', 'PANIAN', method="lv")...

852 просмотров

r string fuzzy-comparison stringdist

10.09.2023

r stringdist или levenshtein.distance для замены строк

У меня есть большой набор данных с ~ одним миллионом наблюдений, с ключом определенного типа наблюдения. В наборе данных имеется около 900 000 наблюдений с искаженными типами наблюдений, с примерно 850 (неправильными) вариациями 50 допустимых типов...

1783 просмотров

r regex gsub stringdist levenshtein-distance

29.07.2022

Сохранение заголовков на расстоянии редактирования

Я запускаю расстояние редактирования, используя stringdist . Вывод заменяет ввод нумерованным списком вместо фактической сравниваемой строки. Это то, что у меня есть на данный момент: library(stringdist) a <- c("foo", "bar", "bear", "boat",...

35 просмотров

r stringdist edit-distance

16.04.2024

Сопоставление нечеткой строки R для возврата определенного столбца на основе сопоставленной строки

У меня есть два больших набора данных, один - около полумиллиона записей, а другой - около 70К. У этих наборов данных есть адрес. Я хочу сопоставить, присутствует ли какой-либо адрес в меньшем наборе данных в большом. Как вы понимаете, адрес может...

1821 просмотров

r merge data.table string-matching stringdist

03.06.2022

интеллектуальный анализ текста с помощью библиотеки r stringdist

У меня есть следующий алгоритм, подготовленный для сопоставления двух строк. library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1...

104 просмотров

r stringdist

10.07.2022

Вычисление сходства строк в процентах

Данная функция использует пакет «stringdist» в R и сообщает минимальные изменения, необходимые для замены одной строки на другую. Я хочу узнать, насколько похожа одна строка на другую в формате "%". Пожалуйста, помогите мне и спасибо....

3361 просмотров

r stringdist

03.05.2023

Я пытаюсь использовать stringdist для нечеткого сопоставления названий компаний между двумя фреймами данных, но это работает не очень хорошо, что можно сделать?

У меня есть фрейм данных с 5 миллионами различных названий компаний, многие из которых относятся к одной и той же компании, написанной по-разному или с орфографическими ошибками. В качестве примера я использую название компании «Amminex», а затем...

2044 просмотров

r stringdist

14.07.2022

Как я могу совместить нечеткую строку с несколькими строками из фреймов данных разного размера?

Я хотел бы сопоставить строки из моего первого набора данных со всеми их ближайшими общими совпадениями. Данные выглядят так: набор данных1: California Texas Florida New York набор данных2: Californiia callifoornia T3xas Te xas...

147 просмотров

r string join stringdist

06.02.2023

Ошибка повторного использования при использовании stringdist и data.table в R

Я пытаюсь выполнить приблизительное сопоставление строк для таблицы data.table, содержащей имена авторов, на основе словаря «первых» имен. Я также установил высокий порог, скажем, выше 0,9, чтобы улучшить качество сопоставления. Однако я получаю...

136 просмотров

r data.table stringdist

06.12.2022

Как использовать NLP/манипулирование строками для перекодирования нескольких столбцов штата/города/зарубежных местоположений

ОЧЕНЬ благодарна за помощь!!! У меня есть очень грязные данные, которые я пытаюсь очистить. Ищете элегантное решение в R, которое будет правильно определять, есть ли зарубежные поездки или нет (ИСТИНА = зарубежные поездки, ЛОЖЬ = внутренние...

35 просмотров

r nlp grepl stringdist levenshtein-distance

06.05.2022

Метод JaroWinkler --› Идентификация символьных/числовых мест в строке

Я работаю над проблемой, чтобы определить, имеет ли указанная строка правильный формат. Я пытаюсь использовать метод нечеткого сопоставления JaroWinkler, чтобы найти показатель сходства между эталонной строкой и интересующими строками. Правильный...

59 просмотров

r comparison fuzzy-search stringdist jaro-winkler

02.12.2022