У меня есть файл с x количеством строковых имен и связанных с ними идентификаторов. По сути два столбца данных.
Что бы я хотел, так это таблицу стиля корреляции с форматом x x (имея данные, о которых идет речь, как по оси x, так и по оси y), но вместо корреляции мне бы хотелось, чтобы функция библиотеки fuzzywuzzy fuzz.ratio(x ,y) в качестве вывода, используя имена строк в качестве ввода. По сути, запуск каждой записи против каждой записи.
Это как раз то, что я имел в виду. Просто чтобы показать мое намерение:
import pandas as pd
from fuzzywuzzy import fuzz
df = pd.read_csv('random_data_file.csv')
df = df[['ID','String']]
df['String_Dup'] = df['String'] #creating duplicate of data in question
df = df.set_index('ID')
df = df.groupby('ID')[['String','String_Dup']].apply(fuzz.ratio())
Но очевидно, что этот подход не работает для меня в данный момент. Любая помощь приветствуется. Это не обязательно должны быть панды, это просто среда, с которой я относительно лучше знаком.
Я надеюсь, что моя проблема ясно сформулирована, и действительно, любой вклад ценится,