Публикации по теме 'levenshtein-distance'


Руководство для начинающих по алгоритму расстояния Левенштейна (часть 2)
Как закодировать матрицу в JavaScript Часть 1 этой серии описывает и объясняет метрику расстояния редактирования, называемую расстоянием Левенштейна, минимальное количество правок символов (с точки зрения вставок, удалений или замен), необходимых для замены одного слова другим. В этой статье мы рассмотрим, как закодировать матрицу, подобную той, что описана в части 1 , чтобы можно было вычислить расстояние Левенштейна для любой пары строк, которые вы передаете в функцию. В этом..

Вопросы по теме 'levenshtein-distance'

Расстояние Левенштейна в T-SQL
Меня интересует алгоритм вычисления расстояния Левенштейна в T-SQL.
75782 просмотров

Лучший способ обнаружить похожие адреса электронной почты?
У меня есть список примерно из 20 000 адресов электронной почты, некоторые из которых, как я знаю, являются мошенническими попытками обойти ограничение «1 на адрес электронной почты», например, [email protected], [email protected],...
3536 просмотров
schedule 24.06.2022

Быстрое расстояние Левенштейна в R?
Есть ли пакет, который содержит функцию подсчета расстояний Левенштейна, которая реализована в виде кода C или Fortran? У меня есть много строк для сравнения, и stringMatch из MiscPsycho слишком медленный для этого.
16990 просмотров

Как я могу создать порог для похожих строк, используя расстояние Левенштейна, и учитывать опечатки?
Недавно мы столкнулись с интересной проблемой на работе, когда обнаружили дубликаты данных, отправленных пользователями в нашей базе данных. Мы поняли, что расстояние Левенштейна между большинством этих данных было просто разницей между двумя...
4488 просмотров
schedule 11.08.2022

Совет по улучшению текущей реализации нечеткого поиска
В настоящее время я работаю над реализацией нечеткого поиска терминологической веб-службы и ищу предложения по улучшению текущей реализации. Слишком много кода, чтобы делиться им, но я думаю, что объяснения может быть достаточно, чтобы побудить к...
1492 просмотров

Реализация расстояния Левенштейна в питоне
Я реализовал алгоритм, но теперь я хочу найти расстояние редактирования для строки, которая имеет кратчайшее расстояние редактирования до других строк. Вот алгоритм: def lev(s1, s2): return min(lev(a[1:], b[1:])+(a[0] != b[0]), lev(a[1:],...
8161 просмотров
schedule 10.11.2022

Расстояние Левенштейна: вывод операций редактирования из матрицы
Я написал алгоритм Левенштейна на C++. Если я ввожу: строка s: демократ строка t: республиканец Я получаю заполненную матрицу D, и количество операций (расстояние Левенштейна) можно прочитать в D[10][8] = 8 Помимо заполненной матрицы я хочу...
8946 просмотров
schedule 29.07.2023

Как создать простой нечеткий поиск только с PostgreSQL?
У меня небольшая проблема с функцией поиска на моем сайте на основе RoR. У меня есть много продуктов с некоторыми кодами. Этот код может быть любой строкой, такой как AB-123-lHdfj. Теперь я использую оператор ILIKE для поиска продуктов:...
40332 просмотров

Вычислить расстояние Левенштейна с помощью апарапи
Я рассматриваю возможность реализации алгоритма расстояния Левенштейна с помощью APARAPI, но у меня возникают проблемы с ограничения - в частности, мне нужно создать массив в ядре, что запрещено. Есть ли способ обойти это, или лучше у кого-нибудь...
506 просмотров
schedule 02.04.2023

Расстояние Левенштейна симметрично?
Мне сообщили, что расстояние Левенштейна симметрично. Когда я использовал инструмент Google diffMatchPatch, который, помимо прочего, вычисляет расстояние Левенштейна, результаты не предполагают, что расстояние Левенштейна является симметричным. т.е....
2300 просмотров
schedule 04.02.2023

Процентный рейтинг совпадений с использованием сопоставления расстояний Левенштейна
Я пытаюсь сопоставить один поисковый запрос со словарем возможных совпадений, используя алгоритм расстояния Левенштейна. Алгоритм возвращает расстояние, выраженное как количество операций, необходимых для преобразования строки поиска в совпавшую...
19591 просмотров

Расстояние Левенштейна с элементами в списке в python
У меня есть два списка ниже, и я хочу сравнить слова, которые похожи на расстояние Левенштейна меньше 2. У меня есть функция для нахождения расстояния Левенштейна, однако в качестве параметров ей нужны два слова. Я могу найти слова, которых нет в...
2242 просмотров

Как определить расстояние Левенштейна для китайских иероглифов?
Мы разрабатываем систему для нечеткого сопоставления более чем 50 международных языков с использованием стандарта символов Unicode UTF-8, UTF-16 и UTF-32. До сих пор мы могли использовать расстояние Левенштейна для обнаружения ошибок в написании слов...
3392 просмотров

Расчет расстояния Левенштейна-Дамерау с оценкой максимального интересующего расстояния
Рассмотрим C# реализацию алгоритма вычисления LD-расстояния, предложенную на эта вики-страница . Я хотел бы расширить его с возможностью прерывания процесса расчета в случае, если определенный (заранее определенный) порог расстояния уже...
486 просмотров

Расстояние Левенштейна с шифрованием символов?
Я ищу метрику сравнения строк в стиле Левенштейна, которая также будет работать, когда символы в строке перемешаны. Кто-нибудь знает такой показатель? Также было бы здорово, если бы существовал Python-модуль, который мог бы рассчитывать такую...
260 просмотров

Нечеткое сопоставление для каждого термина запроса в Solr
Поскольку реализация Левенштейна Lucene 4 утверждает, что работает в 100 раз быстрее, чем раньше ( http://blog.mikemccandless.com/2011/03/lucenes-fuzzyquery-is-100-times-faster.html ) Я хотел бы провести нечеткое сопоставление всех терминов в запросе...
1651 просмотров

Как вычислить равный хеш для похожих строк?
Я создаю Антиплагиат. Я использую метод гальки. Например, у меня есть следующие черепицы: я хожу в кино я иду в кино1 я иду в кино Есть ли метод вычисления равного хеша для этих строк? Я знаю о существовании расстояния Левенштейна....
801 просмотров
schedule 21.07.2022

Быстрое расстояние Левенштейна (и Яро Винклер) в R для числовых векторов
Есть ли пакет в R, содержащий функцию подсчета расстояний Левенштейна, которая вычисляет расстояние для числовых векторов? Все, что я нашел, основано на строках. Также я ищу пакет Яро-Винклера, который делает то же самое, но расстояние Левенштейна...
1171 просмотров
schedule 10.12.2022

Найдите опечатку с помощью Lucene
Я хотел бы использовать Lucene для индексации/поиска текста. Текст может содержать опечатки, имена и т. д. Какой самый простой способ заставить Lucene найти документ, содержащий "this is Licene" когда пользователь ищет "Lucene"?...
2691 просмотров

Расстояние Левенштейна, отдельное отслеживание вставок/удалений/замен
В статье Википедии о расстоянии Левенштейна говорится: возможные модификации , что «[мы] можем хранить количество вставок, удалений и замен отдельно». Как это делается? Я создал реализацию матричного решения динамического программирования,...
1609 просмотров
schedule 16.04.2024