Всем привет !! Итак, сегодня в этом блоге мы узнаем о различных расстояниях, используемых в алгоритмах машинного обучения.

Эти расстояния обычно используются как в контролируемых, так и в неконтролируемых алгоритмах машинного обучения, например, в случае контролируемых алгоритмов K ближайших соседей и неконтролируемых алгоритмах, таких как кластеризация KMeans.

Различные дистанции, о которых мы собираемся узнать в этом блоге:

  1. Евклидово расстояние
  2. Манхэттен Расстояние
  3. Расстояние Минковского
  4. Расстояние Хэмминга
  5. Косинусное расстояние и сходство

Итак, начнем

1.ЕВКЛИДОВОЕ РАССТОЯНИЕ:-

Итак, согласно Википедии, в математике евклидово расстояние или евклидова метрика — это «обычное» прямолинейное расстояние между двумя точками в евклидово пространство. При таком расстоянии евклидово пространство становится метрическим пространством. Соответствующая норма называется евклидовой нормой.

Это означает, что, например, рассмотрим, что у нас есть две точки P1 и P2, и мы можем принять их как точки любого измерения, и мы должны найти расстояние между этими двумя точками, если эти две точки ближе друг к другу, чем они могут быть похожи друг на друга.

Итак, чтобы понять, давайте возьмем двумерный график и отметим две точки как (x1, y1) и (x2, y2), чтобы найти расстояние, соединяющее две точки, и применим теорему Пифагора, потому что евклидово расстояние в основном рассчитывается на основе теоремы Пифагора. т. е. (гипотенуза ²= перпендикуляр²+основание²)и теперь замените перпендикуляр на (x2-x1)² и основание на (y2-y1)² .так что это будет d²=( x2-x1)²+(y2-y1)² и мы возьмем значение гипотенузы как d(расстояние). Итак, это формула евклидова расстояния, и для каждого измерения, например, для трехмерного измерения, формула будет d²=(x2-x1)²+(y2-y1)²+(z2-z1)² > и продолжение.

Картинка ниже все объясняет:

Евклидово расстояние в основном называется нормами L2.

2.МАНХЭТТАНСКОЕ РАССТОЯНИЕ:-

Итак, согласно Википедии, расстояние между двумя точками, измеренное вдоль осей под прямым углом. В плоскости с p1 в точке (x1, y1) и p2 в точке (x2, y2) это |x1 — x2| + |у1 — у2|. Lm расстояние.

В этом случае мы также нарисуем две точки на двумерной плоскости, как мы это сделали в случае евклидова расстояния, но в этом случае мы не будем напрямую вычислять гипотенузу, вместо этого мы добавим как абсолютные значения перпендикуляра, так и основания. . Таким образом, лучший способ рассчитать манхэттенское расстояние — объединить перпендикуляр и базовое значение, например |(x2-x1)|+|(y2-y1)|

Теперь, где мы должны использовать это?

Например, представьте, что у нас есть здания в блоках, как показано на рисунке выше, и нам нужно перейти от одного здания к другому, тогда мы должны следовать маршруту, основанному на сочетании перпендикуляра и основания, потому что мы не можем просто перепрыгнуть через здания. Итак, здесь используется Манхэттенское расстояние.

Манхэттенское расстояние в основном называется нормами L1.

3. РАССТОЯНИЕ МИНКОВСКОГО:-

Согласно Википедии, расстояние Минковского — это расстояние/измерение подобия между двумя точками в нормированном векторном пространстве (N-мерное реальное пространство) и является обобщением евклидовой >расстояние и расстояние Манхэттена.

Самый простой способ понять расстояние Минковского объясняется ниже:

Расстояние Минковского в основном называется нормами Lp.

Когда p=1: это евклидово расстояние.

Когда p=2: это Манхэттенское расстояние.

4. РАССТОЯНИЕ ХЭММИНГА:-

Согласно Википедии, расстояние Хэмминга — это показатель для сравнения двух строк двоичных данных. При сравнении двух двоичных строк одинаковой длины расстояние Хэмминга – это количество битовых позиций, в которых эти два бита различаются.

Расстояние Хэмминга между двумя строками a и b обозначается как d(a,b)

Чтобы найти расстояние Хэмминга, мы возьмем два числа, а затем преобразуем их в двоичные значения, а затем выполним операцию XOR. После этого мы рассчитаем количество единиц из результирующего значения, которое будет расстоянием Хэмминга, как показано на рисунке.

5. Косинусное расстояние и косинусное сходство:-

Широко используется в рекомендательной системе.

Чтобы понять это, возьмем две точки P1 и P2, а также два термина «Сходство» и «Расстояние». Таким образом, по мере увеличения расстояния между этими двумя точками сходство между ними уменьшается, и наоборот. Таким образом, мы можем сформулировать это как Косинусное расстояние = 1-Косинусное сходство.

Теперь, что такое подобие косинусов?

Возьмем две точки P1 и P2 на двумерной плоскости. Косинусное сходство говорит о том, что для того, чтобы найти сходство между этими двумя точками, мы должны найти угол между ними, предположим, что он равен 45 градусам, тогда мы напишем Косинусное сходство = Cos θ ( θ — угол между P1 и P2).

Косинусное сходство всегда будет находиться в диапазоне от -1 до +1.

Что такое косинус расстояния?

Косинусное расстояние = 1-косинусное сходство.

Как это используется в рекомендательной системе?

Предположим, в двумерной плоскости у нас есть два параметра Action и Comedy. Считайте точки в параметре «Действие» фильмом «Мстители»[1,0], а в случае параметра «Комедия» — фильмом «Миньон»[0,1]. Значит угол между ними равен 90 градусов и по формуле подобия косинусов будет

Подобие косинуса = Cos θ

Подобие косинуса = Cos 90

Сходство косинуса = 0 (в математике значение cos 90 = 0)

Следовательно, можно сказать, что человек, который смотрел фильм «Мстители», не получит рекомендации фильма «Миньон».

Вывод:

Таким образом, можно сделать вывод, что евклидово расстояние можно использовать при создании карты пригодности, когда необходимы данные, представляющие расстояние от определенного объекта, манхэттенское расстояние. > часто используется в интегральных схемах, где провода проходят только параллельно оси X или Y.

Рассмотрим случай, когда мы используем норму, которая представляет собой расстояние Минковского с показателем степени = бесконечности. Тогда расстояние — это наибольшая разница между любыми двумя измерениями ваших векторов. Для многомерных векторов вы можете обнаружить, что Манхэттен работает лучше, чем евклидово расстояние.

Расстояние Хэмминга используется для обнаружения или исправления ошибок при передаче данных по компьютерным сетям.

Косинусное расстояние и косинусное сходство широко используются в системе рекомендаций.

Я надеюсь, что в этом блоге вы получили четкое представление о различных типах расстояний, используемых в машинном обучении, то есть о евклидовом, манхэттенском, минковском, расстоянии Хэмминга и косинусе и сходстве косинуса.