Шесть числовых расстояний с объяснением!
Важно помнить:
- Сходство — это количество, отражающее силу связи между двумя объектами или признаками.
- Различие измеряет несоответствие между двумя объектами на основе нескольких признаков.
- Расстояние измеряет непохожесть.
- Когда сходство равно 1, различие равно 0, а когда сходство равно 0, различие равно 1.
- Сходство = 1- Различие
Типы числовых расстояний:
- Евклидово расстояние
- Манхэттенское расстояние
- расстояние Минковского
- Верхнее расстояние
- Расстояние Махаланобиса
- Бхаттачарья расстояние
Евклидово расстояние
- Евклидово расстояние между двумя точками (x, y) в любом измерении пространства — это длина пути, соединяющего их. Теорема Пифагора дает это расстояние между двумя точками.
- Евклидово расстояние представляет собой кратчайшее расстояние между двумя точками.
- Евклидово расстояние — лучшая мера близости, когда данные плотные или непрерывные.
- Его можно рассчитать по следующей формуле:
- где n — количество измерений, а pᵢ и qᵢ — соответственно атрибуты iᵗʰ или объекты данных p и q.
Манхэттен Расстояние
- Манхэттенское расстояние — это метрика, в которой расстояние между двумя точками рассчитывается как сумма абсолютных разностей их декартовых координат.
- Манхэттенское расстояние, также известное как расстояние до городских кварталов, — это расстояние в блоках между любыми двумя точками.
- Манхэттенское расстояние обычно предпочтительнее, чем более распространенное евклидово расстояние, когда данные имеют высокую размерность.
- Проще говоря, это общая сумма разницы между координатами x и координатами y.
- Его дают:
- где n — количество измерений, а xᵢ и yᵢ — соответственно атрибуты iᵗʰ или объекты данных x и y.
Расстояние Минковского
- Расстояние Минковского является обобщением евклидова расстояния и манхэттенского расстояния в нормированном векторном пространстве.
- Нормированное векторное пространство — это векторное пространство, на котором определена норма. Предположим, что X — векторное пространство, тогда норма на X — это вещественная функция ||x||, которая удовлетворяет следующим условиям: нулевой вектор, скалярный множитель и неравенство треугольника.
- Его дают:
- Различные названия расстояния Минковского или метрики Минковского возникают из-за следующего порядка:
— Если P = 1, D(X,Y) — это манхэттенское расстояние.
Синонимы: L1-Norm, Taxicab или City-Block Distance.
– Если P= 2, D(X,Y) является евклидовым расстоянием.
Синонимы: L2-Норма или Линейное расстояние.
– Если P= ∞, D(X,Y) – расстояние Чебышева.
Синонимы: Lmax-Norm или расстояние до шахматной доски.
Верхнее расстояние
- Верхнее расстояние — это максимальная разница между любыми компонентами векторов. Это метрика, определенная в векторном пространстве, где расстояние между двумя векторами равно наибольшей их разнице в любом координатном измерении.
- Его дают:
- P=∞ на расстоянии Минковского — это супремум-расстояние, также известное как расстояние Чебышева.
- Расстояние Чебышева уместно в тех случаях, когда два объекта должны быть определены как разные, если они различны в каком-либо одном измерении.
Расстояние Махаланобиса
- Расстояние Махаланобиса — это мера расстояния между вектором данных и набором данных или вариант, который измеряет расстояние между двумя векторами из одного и того же набора данных.
- Расстояние Махаланобиса используется для расчета расстояния между двумя точками данных в многомерном пространстве.
- Также известное как квадратичное расстояние, измеряет расстояние между двумя группами объектов.
- Его дают:
- Преимущество использования расстояния Махаланобиса заключается в том, что оно учитывает ковариацию, что помогает измерять силу/сходство между двумя разными объектами данных.
- Когда ковариационная матрица является единичной матрицей, расстояние Махаланобиса совпадает с евклидовым расстоянием.
- Это полезно для обнаружения выбросов (многомерных), обнаружения многомерных аномалий, классификации сильно несбалансированных наборов данных и классификации одного класса.
Бхаттачарья расстояние
- Расстояние Бхаттачарьи измеряет сходство двух вероятностных распределений.
- Он тесно связан с коэффициентом Бхаттачарьи, который является мерой степени совпадения между двумя статистическими выборками или совокупностями.
- Для дискретных распределений вероятностей p и q в одной и той же области X это определяется как:
- где BC(p,q) — коэффициент Бхаттачарьи. Коэффициент Бхаттачарьи — это приблизительное измерение степени перекрытия между двумя статистическими выборками.
Спасибо, что прочитали!