Вопросы по теме 'fuzzywuzzy'

Python Pandas fuzzywuzzy «объединяет» два набора данных в строковых столбцах
Я следую ответу в этом вопросе , который использует fuzzywuzzy для "присоединения ' два набора данных в строковых столбцах. Я получаю сообщение об ошибке, что у меня проблемы с устранением неполадок. Сообщение об ошибке, по-видимому,...
1220 просмотров
schedule 04.11.2022

Панды и нечеткое совпадение
В настоящее время у меня есть два фрейма данных. Я пытаюсь получить нечеткое совпадение имен клиентов, используя функцию fuzzywuzzy process.extractOne. Когда я запускаю следующий сценарий для выборочных данных, я получаю хорошие результаты и никаких...
1572 просмотров
schedule 04.03.2023

Выполнить запрос ко всем значениям во вложенных списках многозначного словаря.
У меня есть 'collections.defaultdict' (см. x ниже), который является многозначным словарем. Все значения, связанные с каждым уникальным ключом, хранятся в списке. >>>x defaultdict(<type 'list'>, {'a': ['aa', 'ab', 'ac'],...
681 просмотров

Сравните каждую строку со всеми строками во фрейме данных и сохраните результаты в списке для каждой строки.
Я пытаюсь сравнить каждую строку со всеми строками в кадре данных pandas с fuzzywuzzy.fuzzy.partial_ratio() >= 85 и записать результаты в список для каждой строки. Пример: df = pd.DataFrame({'id': [1, 2, 3, 4, 5, 6], 'name': ['dog', 'cat',...
7653 просмотров
schedule 16.08.2022

TypeError при использовании FuzzyWuzzy и Pandas для сопоставления строк
Я получаю сообщение об ошибке при использовании библиотеки FuzzyWuzzy в Python 3. Я работаю с файлами CSV, также используя библиотеку Pandas. У меня есть следующие данные в моем файле CSV: > BBL CorporationName...
894 просмотров
schedule 18.09.2022

fuzzywuzzy отношение 2 столбцов, если один столбец удовлетворяет 100 процентов соответствует лучшему
Мой фрейм данных Matcher = df2['Account Name'] match = if df1['Billing Country'] == df2['Billing Country'] (process.extractOne(df1['Account Name'], Matcher)) Приведенный выше код не работает, но я хочу сделать нечеткое совпадение...
1059 просмотров
schedule 02.08.2022

Dask: очень низкая загрузка ЦП и несколько потоков? это ожидается?
Я использую dask как в , как распараллелить многие (нечеткое) сравнение строк с использованием apply в Pandas? По сути, я делаю некоторые вычисления (без записи чего-либо на диск), которые вызывают Pandas и Fuzzywuzzy (которые,...
2279 просмотров

Примените нечеткое сопоставление к столбцу фрейма данных и сохраните результаты в новом столбце
У меня есть два фрейма данных, в каждом из которых разное количество строк. Ниже представлена ​​пара строк из каждого набора данных. df1 = Company City State ZIP FREDDIE LEES AMERICAN GOURMET...
12197 просмотров
schedule 28.04.2022

Что означает, что следующие пакеты будут заменены каналом с более высоким приоритетом?
Я пытаюсь установить fuzzywuzzy на свой дистрибутив Anaconda в 64-битной Linux. Когда я это делаю, он пытается изменить мои каналы conda и conda-env на conda-forge . Следующим образом: Я ищу анаконду для fuzzy wuzzy, написав: anaconda...
14206 просмотров
schedule 22.12.2022

Как использовать FuzzyWuzzy в Python для сопоставления имен между двумя фреймами данных?
У меня дф1 и дф2. Я хочу использовать fuzzywuzzy , чтобы сопоставить столбец A в df1 со столбцом A в df2 и вернуть идентификатор в столбце B df2 на основе определенного соотношения соотношений. Например: df1 выглядит так: Имя Салли...
2092 просмотров

Надлежащее сопоставление строки в соответствии с оценкой с использованием fuzzywuzzy и python3.6
Я пытаюсь сопоставить строку, используя библиотеку нечеткой логики fuzzywuzzy в своем приложении Python. Я обнаружил, что fuzzywuzzy не дает подходящих результатов даже после того, как оценки равны, он перечисляет неправильный результат на первой...
1868 просмотров

сравнение строк для нескольких значений python
У меня есть наборы данных. Первый (A) — это список оборудования со сложными именами. Второй — это список более широких категорий оборудования (B), к которым я должен сгруппировать первый список, используя сравнения строк. Я знаю, что это не будет...
857 просмотров
schedule 10.04.2024

Нечеткий список совпадений со столбцом во фрейме данных
У меня есть список строк, которые я пытаюсь сопоставить со значениями в столбце. Если это низкое совпадение (ниже 95), я хочу вернуть текущее значение столбца, если оно выше 95, то я хочу вернуть лучшее нечеткое совпадение из списка. Я пытаюсь...
1221 просмотров
schedule 13.04.2023

данные, соответствующие нескольким столбцам с нечеткими критериями соответствия
Я делаю похожий проект на этот: алгоритм сопоставления данных Где у меня есть один фрейм данных (набор данных1) с данными о клиенте без специального уникального идентификатора, который затем сопоставляется с кадром данных 2 (набор данных2),...
1887 просмотров
schedule 03.05.2023

Создание флага с использованием нечеткого сопоставления между двумя наборами данных в python
У меня есть два набора данных df1 и df2, оба со следующими столбцами: |city |state |address_id |address |postal_code |A |X |10 |flat 123,abc lane |400000 Я хочу создать двоичный флаг для каждого адреса...
492 просмотров
schedule 22.02.2023

объединить кадры данных, используя fuzzywuzzy
Я пытаюсь объединить 2 кадра данных, используя fuzzy-wuzzy . кадр данных df1 представляет собой таблицу с товарами для продажи (150 тыс. строк и 30 столбцов), а df2 — таблицу (30 тыс. строк и 10 столбцов) со справочными данными для названия...
150 просмотров
schedule 12.05.2023

Как перебрать максимальные значения для Fuzz Ratio и экспортировать в новый файл CSV
Я пытаюсь написать код, который возьмет два списка имен из двух CSV-файлов и использует библиотеку fuzzywuzzy , чтобы найти наиболее похожие сравнения и экспортировать их в третий CSV-файл. Две проблемы с моим кодом: Во-первых, это не...
500 просмотров

Векторизация или ускорение нечеткого сопоставления строк в столбце PANDAS
Я пытаюсь найти потенциальные совпадения в столбце PANDAS, полном названий организаций. В настоящее время я использую iterrows(), но он очень медленный для фрейма данных с ~ 70 000 строк. После просмотра StackOverflow я попытался реализовать метод...
8971 просмотров
schedule 10.07.2023

Python Pandas — сопоставление нечетких дубликатов
У меня есть Dataframe, как это: make model 0 allard K1 1 alllard J2 2 alpine renault A110 3 alpine renualt A310 4 amc (rambler American 5 amc (rambler) Marlin 6 aries...
1497 просмотров

Fuzzywuzzy для подмножества данных на основе условий
Во-первых, обратите внимание, что я новичок в Python, поэтому заранее приношу свои извинения. Однако я исследовал это в течение последнего дня или двух безуспешно - отсюда и мой первый пост здесь. Мне нужно выполнить нечеткое сопоставление данных...
239 просмотров
schedule 15.03.2023