Вопросы по теме 'stringdist'
Быстрое расстояние Левенштейна в R?
Есть ли пакет, который содержит функцию подсчета расстояний Левенштейна, которая реализована в виде кода C или Fortran? У меня есть много строк для сравнения, и stringMatch из MiscPsycho слишком медленный для этого.
16990 просмотров
schedule
18.10.2022
Запишите результаты цикла for мер расстояния в матричной форме в R
Предположим, у меня есть что-то вроде следующего вектора:
text <- as.character(c("string1", "str2ing", "3string", "stringFOUR", "5tring", "string6", "s7ring", "string8", "string9", "string10"))
Я хочу выполнить цикл, который попарно...
861 просмотров
schedule
02.02.2023
алгоритм машинного обучения для проверки орфографии
У меня есть список названий лекарств (regular_list) и список новых имен (new_list). Я хочу проверить, присутствуют ли имена в new_list уже в обычном_списке или нет. Проблема в том, что имена new_list могут иметь некоторую опечатку ошибок, и я хочу,...
3823 просмотров
schedule
19.03.2023
Нечеткое слияние в R - ищу помощи в улучшении моего кода
Вдохновленный экспериментальной функцией fuzzy_join из пакета statar , я сам написал функцию, которая сочетает в себе точную и нечеткую (по строке расстояния) сопоставление. Задача слияния, которую мне нужно выполнить, довольно большая (в...
729 просмотров
schedule
30.09.2022
Использование stringsim в stringdist
Я использую пакет stringdist для сравнения некоторых векторов строк, но я продолжаю получать ответ, отличный от того, что я думаю, что должен, когда пытаюсь протестировать пакет.
Я хочу сделать это:
stringsim('PANDIAN', 'PANIAN', method="lv")...
852 просмотров
schedule
10.09.2023
r stringdist или levenshtein.distance для замены строк
У меня есть большой набор данных с ~ одним миллионом наблюдений, с ключом определенного типа наблюдения. В наборе данных имеется около 900 000 наблюдений с искаженными типами наблюдений, с примерно 850 (неправильными) вариациями 50 допустимых типов...
1783 просмотров
schedule
29.07.2022
Сохранение заголовков на расстоянии редактирования
Я запускаю расстояние редактирования, используя stringdist . Вывод заменяет ввод нумерованным списком вместо фактической сравниваемой строки. Это то, что у меня есть на данный момент:
library(stringdist)
a <- c("foo", "bar", "bear", "boat",...
35 просмотров
schedule
16.04.2024
Сопоставление нечеткой строки R для возврата определенного столбца на основе сопоставленной строки
У меня есть два больших набора данных, один - около полумиллиона записей, а другой - около 70К. У этих наборов данных есть адрес. Я хочу сопоставить, присутствует ли какой-либо адрес в меньшем наборе данных в большом. Как вы понимаете, адрес может...
1821 просмотров
schedule
03.06.2022
интеллектуальный анализ текста с помощью библиотеки r stringdist
У меня есть следующий алгоритм, подготовленный для сопоставления двух строк.
library(stringdist)
qgrams('perimetrico','perimetrico peri',q=2)
pe ri tr er im me o et ic co p
V1 1 2 1 1 1 1 0 1 1 1 0
V2 2 3 1 2 1 1 1 1 1...
104 просмотров
schedule
10.07.2022
Вычисление сходства строк в процентах
Данная функция использует пакет «stringdist» в R и сообщает минимальные изменения, необходимые для замены одной строки на другую. Я хочу узнать, насколько похожа одна строка на другую в формате "%". Пожалуйста, помогите мне и спасибо....
3361 просмотров
schedule
03.05.2023
Я пытаюсь использовать stringdist для нечеткого сопоставления названий компаний между двумя фреймами данных, но это работает не очень хорошо, что можно сделать?
У меня есть фрейм данных с 5 миллионами различных названий компаний, многие из которых относятся к одной и той же компании, написанной по-разному или с орфографическими ошибками. В качестве примера я использую название компании «Amminex», а затем...
2044 просмотров
schedule
14.07.2022
Как я могу совместить нечеткую строку с несколькими строками из фреймов данных разного размера?
Я хотел бы сопоставить строки из моего первого набора данных со всеми их ближайшими общими совпадениями.
Данные выглядят так:
набор данных1:
California
Texas
Florida
New York
набор данных2:
Californiia
callifoornia
T3xas
Te xas...
147 просмотров
schedule
06.02.2023
Ошибка повторного использования при использовании stringdist и data.table в R
Я пытаюсь выполнить приблизительное сопоставление строк для таблицы data.table, содержащей имена авторов, на основе словаря «первых» имен. Я также установил высокий порог, скажем, выше 0,9, чтобы улучшить качество сопоставления.
Однако я получаю...
136 просмотров
schedule
06.12.2022
Как использовать NLP/манипулирование строками для перекодирования нескольких столбцов штата/города/зарубежных местоположений
ОЧЕНЬ благодарна за помощь!!!
У меня есть очень грязные данные, которые я пытаюсь очистить. Ищете элегантное решение в R, которое будет правильно определять, есть ли зарубежные поездки или нет (ИСТИНА = зарубежные поездки, ЛОЖЬ = внутренние...
35 просмотров
schedule
06.05.2022
Метод JaroWinkler --› Идентификация символьных/числовых мест в строке
Я работаю над проблемой, чтобы определить, имеет ли указанная строка правильный формат. Я пытаюсь использовать метод нечеткого сопоставления JaroWinkler, чтобы найти показатель сходства между эталонной строкой и интересующими строками.
Правильный...
59 просмотров
schedule
02.12.2022