Шесть числовых расстояний с объяснением!

Важно помнить:

  • Сходство — это количество, отражающее силу связи между двумя объектами или признаками.
  • Различие измеряет несоответствие между двумя объектами на основе нескольких признаков.
  • Расстояние измеряет непохожесть.
  • Когда сходство равно 1, различие равно 0, а когда сходство равно 0, различие равно 1.
  • Сходство = 1- Различие

Типы числовых расстояний:

  1. Евклидово расстояние
  2. Манхэттенское расстояние
  3. расстояние Минковского
  4. Верхнее расстояние
  5. Расстояние Махаланобиса
  6. Бхаттачарья расстояние

Евклидово расстояние

  • Евклидово расстояние между двумя точками (x, y) в любом измерении пространства — это длина пути, соединяющего их. Теорема Пифагора дает это расстояние между двумя точками.
  • Евклидово расстояние представляет собой кратчайшее расстояние между двумя точками.
  • Евклидово расстояние — лучшая мера близости, когда данные плотные или непрерывные.
  • Его можно рассчитать по следующей формуле:

  • где n — количество измерений, а pᵢ и qᵢ — соответственно атрибуты iᵗʰ или объекты данных p и q.

Манхэттен Расстояние

  • Манхэттенское расстояние — это метрика, в которой расстояние между двумя точками рассчитывается как сумма абсолютных разностей их декартовых координат.
  • Манхэттенское расстояние, также известное как расстояние до городских кварталов, — это расстояние в блоках между любыми двумя точками.
  • Манхэттенское расстояние обычно предпочтительнее, чем более распространенное евклидово расстояние, когда данные имеют высокую размерность.
  • Проще говоря, это общая сумма разницы между координатами x и координатами y.
  • Его дают:

  • где n — количество измерений, а xᵢ и yᵢ — соответственно атрибуты iᵗʰ или объекты данных x и y.

Расстояние Минковского

  • Расстояние Минковского является обобщением евклидова расстояния и манхэттенского расстояния в нормированном векторном пространстве.
  • Нормированное векторное пространство — это векторное пространство, на котором определена норма. Предположим, что X — векторное пространство, тогда норма на X — это вещественная функция ||x||, которая удовлетворяет следующим условиям: нулевой вектор, скалярный множитель и неравенство треугольника.
  • Его дают:

  • Различные названия расстояния Минковского или метрики Минковского возникают из-за следующего порядка:
    — Если P = 1, D(X,Y) — это манхэттенское расстояние.
    Синонимы: L1-Norm, Taxicab или City-Block Distance.
    – Если P= 2, D(X,Y) является евклидовым расстоянием.
    Синонимы: L2-Норма или Линейное расстояние.
    – Если P= ∞, D(X,Y) – расстояние Чебышева.
    Синонимы: Lmax-Norm или расстояние до шахматной доски.

Верхнее расстояние

  • Верхнее расстояние — это максимальная разница между любыми компонентами векторов. Это метрика, определенная в векторном пространстве, где расстояние между двумя векторами равно наибольшей их разнице в любом координатном измерении.
  • Его дают:

  • P=∞ на расстоянии Минковского — это супремум-расстояние, также известное как расстояние Чебышева.
  • Расстояние Чебышева уместно в тех случаях, когда два объекта должны быть определены как разные, если они различны в каком-либо одном измерении.

Расстояние Махаланобиса

  • Расстояние Махаланобиса — это мера расстояния между вектором данных и набором данных или вариант, который измеряет расстояние между двумя векторами из одного и того же набора данных.
  • Расстояние Махаланобиса используется для расчета расстояния между двумя точками данных в многомерном пространстве.
  • Также известное как квадратичное расстояние, измеряет расстояние между двумя группами объектов.
  • Его дают:

  • Преимущество использования расстояния Махаланобиса заключается в том, что оно учитывает ковариацию, что помогает измерять силу/сходство между двумя разными объектами данных.
  • Когда ковариационная матрица является единичной матрицей, расстояние Махаланобиса совпадает с евклидовым расстоянием.
  • Это полезно для обнаружения выбросов (многомерных), обнаружения многомерных аномалий, классификации сильно несбалансированных наборов данных и классификации одного класса.

Бхаттачарья расстояние

  • Расстояние Бхаттачарьи измеряет сходство двух вероятностных распределений.
  • Он тесно связан с коэффициентом Бхаттачарьи, который является мерой степени совпадения между двумя статистическими выборками или совокупностями.
  • Для дискретных распределений вероятностей p и q в одной и той же области X это определяется как:

  • где BC(p,q) — коэффициент Бхаттачарьи. Коэффициент Бхаттачарьи — это приблизительное измерение степени перекрытия между двумя статистическими выборками.

Спасибо, что прочитали!