Что такое показатели расстояния?

Метрическая функция или функция расстояния - это функция d (x, y), которая определяет расстояние между элементами набора как неотрицательное действительное число. Если расстояние равно нулю, оба элемента эквивалентны по этой конкретной метрике. Таким образом, функции расстояния обеспечивают способ измерения близости двух элементов, причем элементы не обязательно должны быть числами, но также могут быть векторами, матрицами или произвольными объектами. Функции расстояния часто используются в качестве функций ошибок или затрат для минимизации в задаче оптимизации. Мы часто слышали об использовании показателей расстояния в контролируемых алгоритмах машинного обучения, таких как K Nearest Neighbor, и неконтролируемых алгоритмах машинного обучения, таких как кластеризация.

Основная задача метрики расстояния - показать, что если две точки p1 и p2 в n-мерном пространстве лежат рядом друг с другом в соответствии с используемой метрикой расстояния, то эти две точки могут быть похожими.

Классификация показателей:

1 Евклидово расстояние: Когда мы говорили о расстояниях ранее, мы в основном думаем о расстояниях по более или менее прямой линии.

Если мы думаем о расстояниях между двумя городами, мы думаем о том, сколько километров нам нужно проехать по шоссе.

Эти примеры расстояний, которые мы можем придумать, являются примерами евклидова расстояния. По сути, он измеряет длину сегмента, соединяющего две точки. Посмотрим на график:

Для n точек общая формула выглядит следующим образом:

Где x и y - два вектора.

Евклидово расстояние - это наиболее часто используемое расстояние для алгоритмов машинного обучения. Это очень полезно, когда наши данные непрерывны. Его также называют L2-Norm .

2 Манхэттенское расстояние: функция Манхэттенское расстояние вычисляет пройденное расстояние, если выбран путь в виде сетки, чтобы добраться от одной точки данных до другой. Разрыв между двумя объектами в уравнении Манхэттена - это сумма вариаций между их соответствующими компонентами.

Ниже приведена формула для Манхэттенского расстояния:

где n - количество переменных, xi и yi - переменные векторов x и y соответственно в двумерное векторное пространство. т.е. x = (x1, x2, x3,…) и y = (y1, y2, y3,…) .

Теперь расстояние d будет рассчитываться как-

(x1 — y1) + (x2 — y2) + (x3 — y3) + … + (xn — yn).

Если вы попытаетесь визуализировать расчет расстояния, он будет выглядеть примерно так:

Расстояние до Манхэттена также известно как геометрия такси, расстояние до городского квартала и т. Д.

Возникает вопрос, почему мы должны использовать расстояние Манхэттена вместо расстояния Евклида? Ответ прост: использование расстояния Манхэттена во многом зависит от типа системы координат, которую использует ваш набор данных. В то время как евклидово расстояние дает кратчайшее или минимальное расстояние между двумя точками, Манхэттен имеет определенные реализации.

Например, если бы мы использовали набор данных Chess, использование манхэттенского расстояния более уместно, чем евклидово расстояние. Другой вариант использования - это когда вы хотите знать расстояние между домами, которые находятся в нескольких кварталах друг от друга.

Кроме того, вы можете принять во внимание расстояние Манхэттена, если входные переменные не похожи по типу (например, возраст, пол, рост и т. Д.). Из-за проклятия размерности мы знаем, что евклидово расстояние становится плохим выбором по мере увеличения количества измерений. Если вы хотите уделять меньше внимания выбросам, манхэттенское расстояние будет пытаться уменьшить все ошибки одинаково, поскольку градиент имеет постоянную величину.

Но такая же проблема возникнет и при использовании манхэттенского расстояния (только то, что проблема будет немного смягчена, потому что мы не возводим разницу в квадрат, как это делаем на евклидовом расстоянии).

Обычно используется евклидова метрика. Манхэттен может подойти, если разные измерения не сопоставимы.

3 Косинусное сходство и косинусное расстояние: Эта метрика широко используется в рекомендательных системах. В косинусной метрике мы измеряем степень угла между двумя документами / векторами (термины частоты в разных документах, собранные как метрики). Этот конкретный показатель используется, когда величина между векторами не имеет значения, а имеет значение ориентация.

Формула косинусного подобия может быть получена из уравнения скалярных произведений:

Основная идея косинусного подобия и косинусного расстояния заключается в том, что, если косинусное расстояние увеличивается, косинусное сходство уменьшается, и наоборот.

Cosine_distance = 1 - cosine_similarity

Давайте разберемся с принципом работы рекомендательной системы на основе косинусного подобия. Вдоль осей x и y есть две особенности. Предположим, нам нужно предоставить рекомендацию для точки v (d3). Система рекомендаций вычислит косинусное сходство в соответствии со всеми другими точками, присутствующими на графике, и точкой, имеющей максимальный косинус. будет рекомендовано подобие (в данном случае v (d2)).

Таким образом, это оценка ориентации, а не величины: два вектора с одинаковой ориентацией имеют косинусное сходство, равное 1, два вектора под углом 90 ° имеют подобие 0, а два диаметрально противоположных вектора имеют подобие -1, независимо от их величина.

Косинусное подобие особенно используется в положительном пространстве, где результат четко ограничен в [0,1]. Одна из причин популярности косинусного подобия заключается в том, что его очень эффективно оценивать, особенно для разреженных векторов.

4 Расстояние Минковского: Прежде всего, мы определим некоторые математические термины, чтобы впоследствии определить расстояние Минковского.

  • Векторное пространство - это набор объектов, называемых векторами, которые можно складывать вместе и умножать на числа (также называемые скалярами).
  • norm - это функция, которая назначает строго положительную длину каждому вектору в векторном пространстве (единственное исключение - нулевой вектор, длина которого равна нулю). Обычно обозначается как ∥x∥.
  • Нормированное векторное пространство - это векторное пространство над действительными или комплексными числами, на котором определена норма.

При чем здесь расстояние Минковского?

Расстояние Минковского определяется как метрика подобия между двумя точками в нормированном векторном пространстве (N-мерное реальное пространство).

Он также представляет собой обобщенную метрику, которая включает евклидово и манхэттенское расстояние.

Как выглядит формула?

Если мы обратим внимание, когда λ = 1, у нас есть манхэттенское расстояние. Если λ = 2, мы находимся на евклидовом расстоянии. Есть еще одно расстояние, называемое расстоянием Чебышева, которое возникает при λ = ∞.

В целом, мы можем изменить значение λ, чтобы вычислить расстояние между двумя точками разными способами.

Когда мы его используем? Расстояние Минковского часто используется, когда интересующие переменные измеряются на шкале отношений с абсолютным нулевым значением.

L1 Норма:

Также известна как «Манхэттенское расстояние» или «Норма такси» (когда λ = 1). L1 Norm - это сумма модулей векторов в пространстве. Это наиболее естественный способ измерения расстояния между векторами, то есть суммы абсолютных разностей компонентов векторов. В этой норме все компоненты вектора имеют одинаковый вес.

L2 Норма:

Самая популярная норма, также известная как евклидова норма (когда λ = 2). Это кратчайшее расстояние, чтобы перейти от одной точки к другой. Есть одно соображение, которое следует принять в отношении нормы L2, и это то, что каждый компонент вектора возведен в квадрат, а это означает, что выбросы имеют больший вес, поэтому они могут исказить результаты .

Норма L-бесконечности:

Дает наибольшую величину среди каждого элемента вектора (когда λ = бесконечность)

Имея вектор X = [-6, 4, 2], норма L-бесконечности равна 6.

В норме L-бесконечности только самый большой элемент имеет какое-либо влияние. Так, например, если ваш вектор представляет стоимость строительства здания, минимизируя норму L-бесконечности, мы уменьшаем стоимость самого дорогого здания.

5Hamming Distance: Расстояние Хэмминга сравнивает каждую букву двух строк в зависимости от их положения. Итак, первая буква слова 1 сравнивается с первой буквой слова 2 и т. Д. И т. Д.

Расстояние Хэмминга сравнивает каждую букву двух строк исключительно на основе позиции.

Чтобы вычислить расстояние Хэмминга между двумя строками, вы сравниваете символы каждой позиции в строке. Количество неравных символов - это расстояние Хэмминга.

Преимущество расстояния Хэмминга в том, что это позиционное сравнение очень быстро и просто. С другой стороны, критики утверждают, что он не может учитывать две строки с неравным количеством букв. Другой критик состоит в том, что он слишком строг, например, «abcdefg» и «bcdefgh» считаются совершенно разными, а 6 из 7 символов одинаковы.