Расстояние Левенштейна — это подход к измерению разницы между словами, но не для фраз.
Существует ли хорошая метрика расстояния для измерения различий между фразами?
Например, если фраза 1 состоит из n слов x1 x2 x_n, а фраза 2 состоит из m слов y1 y2 y_m. Я думаю, что они должны быть нечетко выровнены по словам, тогда выровненные слова должны иметь оценку того, насколько они похожи, и к не выровненным словам должен применяться какой-то штраф за пробел. Эти положительные и отрицательные оценки должны быть каким-то образом объединены. Кажется, здесь задействована какая-то эвристика.
Существует ли существующее решение для измерения сходства между фразами? Предпочтение отдается Python, но подойдет и другое решение. Спасибо.