Вопросы по теме 'stringdist'

Быстрое расстояние Левенштейна в R?
Есть ли пакет, который содержит функцию подсчета расстояний Левенштейна, которая реализована в виде кода C или Fortran? У меня есть много строк для сравнения, и stringMatch из MiscPsycho слишком медленный для этого.
16990 просмотров

Запишите результаты цикла for мер расстояния в матричной форме в R
Предположим, у меня есть что-то вроде следующего вектора: text <- as.character(c("string1", "str2ing", "3string", "stringFOUR", "5tring", "string6", "s7ring", "string8", "string9", "string10")) Я хочу выполнить цикл, который попарно...
861 просмотров

алгоритм машинного обучения для проверки орфографии
У меня есть список названий лекарств (regular_list) и список новых имен (new_list). Я хочу проверить, присутствуют ли имена в new_list уже в обычном_списке или нет. Проблема в том, что имена new_list могут иметь некоторую опечатку ошибок, и я хочу,...
3823 просмотров
schedule 19.03.2023

Нечеткое слияние в R - ищу помощи в улучшении моего кода
Вдохновленный экспериментальной функцией fuzzy_join из пакета statar , я сам написал функцию, которая сочетает в себе точную и нечеткую (по строке расстояния) сопоставление. Задача слияния, которую мне нужно выполнить, довольно большая (в...
729 просмотров

Использование stringsim в stringdist
Я использую пакет stringdist для сравнения некоторых векторов строк, но я продолжаю получать ответ, отличный от того, что я думаю, что должен, когда пытаюсь протестировать пакет. Я хочу сделать это: stringsim('PANDIAN', 'PANIAN', method="lv")...
852 просмотров
schedule 10.09.2023

r stringdist или levenshtein.distance для замены строк
У меня есть большой набор данных с ~ одним миллионом наблюдений, с ключом определенного типа наблюдения. В наборе данных имеется около 900 000 наблюдений с искаженными типами наблюдений, с примерно 850 (неправильными) вариациями 50 допустимых типов...
1783 просмотров

Сохранение заголовков на расстоянии редактирования
Я запускаю расстояние редактирования, используя stringdist . Вывод заменяет ввод нумерованным списком вместо фактической сравниваемой строки. Это то, что у меня есть на данный момент: library(stringdist) a <- c("foo", "bar", "bear", "boat",...
35 просмотров
schedule 16.04.2024

Сопоставление нечеткой строки R для возврата определенного столбца на основе сопоставленной строки
У меня есть два больших набора данных, один - около полумиллиона записей, а другой - около 70К. У этих наборов данных есть адрес. Я хочу сопоставить, присутствует ли какой-либо адрес в меньшем наборе данных в большом. Как вы понимаете, адрес может...
1821 просмотров

интеллектуальный анализ текста с помощью библиотеки r stringdist
У меня есть следующий алгоритм, подготовленный для сопоставления двух строк. library(stringdist) qgrams('perimetrico','perimetrico peri',q=2) pe ri tr er im me o et ic co p V1 1 2 1 1 1 1 0 1 1 1 0 V2 2 3 1 2 1 1 1 1 1...
104 просмотров
schedule 10.07.2022

Вычисление сходства строк в процентах
Данная функция использует пакет «stringdist» в R и сообщает минимальные изменения, необходимые для замены одной строки на другую. Я хочу узнать, насколько похожа одна строка на другую в формате "%". Пожалуйста, помогите мне и спасибо....
3361 просмотров
schedule 03.05.2023

Я пытаюсь использовать stringdist для нечеткого сопоставления названий компаний между двумя фреймами данных, но это работает не очень хорошо, что можно сделать?
У меня есть фрейм данных с 5 миллионами различных названий компаний, многие из которых относятся к одной и той же компании, написанной по-разному или с орфографическими ошибками. В качестве примера я использую название компании «Amminex», а затем...
2044 просмотров
schedule 14.07.2022

Как я могу совместить нечеткую строку с несколькими строками из фреймов данных разного размера?
Я хотел бы сопоставить строки из моего первого набора данных со всеми их ближайшими общими совпадениями. Данные выглядят так: набор данных1: California Texas Florida New York набор данных2: Californiia callifoornia T3xas Te xas...
147 просмотров
schedule 06.02.2023

Ошибка повторного использования при использовании stringdist и data.table в R
Я пытаюсь выполнить приблизительное сопоставление строк для таблицы data.table, содержащей имена авторов, на основе словаря «первых» имен. Я также установил высокий порог, скажем, выше 0,9, чтобы улучшить качество сопоставления. Однако я получаю...
136 просмотров
schedule 06.12.2022

Как использовать NLP/манипулирование строками для перекодирования нескольких столбцов штата/города/зарубежных местоположений
ОЧЕНЬ благодарна за помощь!!! У меня есть очень грязные данные, которые я пытаюсь очистить. Ищете элегантное решение в R, которое будет правильно определять, есть ли зарубежные поездки или нет (ИСТИНА = зарубежные поездки, ЛОЖЬ = внутренние...
35 просмотров
schedule 06.05.2022

Метод JaroWinkler --› Идентификация символьных/числовых мест в строке
Я работаю над проблемой, чтобы определить, имеет ли указанная строка правильный формат. Я пытаюсь использовать метод нечеткого сопоставления JaroWinkler, чтобы найти показатель сходства между эталонной строкой и интересующими строками. Правильный...
59 просмотров