Руководство по p-нормам.

Если вы читаете этот пост, вероятно, вы уже знаете, что такое векторы и их незаменимое место в машинном обучении. Напомним, векторы — это одномерный массив чисел определенной длины. Это показано ниже:

Элементы вектора располагаются в определенном порядке, и расположение элемента обычно имеет неотъемлемое значение. Мы можем получить доступ к отдельным элементам, используя их позицию (или индекс).

Мы также можем думать о векторах как о точках в пространстве. Если длина вектора равна n, говорят, что точка находится в n-мерном пространстве. Например, если размер вектора равен 2, это может обозначать точку в 2-мерном пространстве относительно начала координат, как показано ниже:

Векторные нормы

Векторные нормы определяются как набор функций, которые принимают вектор в качестве входных данных и выводят положительное значение относительно него. Это называется величиной вектора. Мы можем получить разные длины для одного и того же вектора в зависимости от типа функции, которую мы используем для вычисления величины.

Нормы, хотя их часто упускают из виду, лежат в основе обучения моделей машинного обучения. По сути, прямо перед каждой итерацией обратного распространения вы вычисляете значение потерь скейлера (положительное), которое представляет собой среднее значение суммы разности между предсказанными значениями и квадратичными значениями истинности. Это значение потерь масштабирования является не чем иным, как выходом функции нормы. Как мы вычисляем потери, показано ниже:

Уравнение стандартной нормы — P-норма

Все функции нормы происходят из стандартного уравнения нормы, известного как p-норма. Для разных значений параметра p (p должно быть действительным числом, большим или равным 1) мы получаем другую функцию нормы. Однако обобщенное уравнение показано ниже:

Это берет n-мерный вектор x и возводит каждый элемент в его p-ю степень. Затем мы суммируем все полученные элементы и берем p-й корень, чтобы получить p-норму вектора, также известную как его величина. Теперь при разных значениях параметра p мы получим другую функцию нормы. Давайте обсудим их один за другим ниже.

L0 Норма:

Хотя p=0 лежит вне области определения функции p-нормы, подстановка p=0 в приведенное выше уравнение дает нам отдельные элементы вектора, возведенные в степень 0, что равен 1 (при условии, что число не равно нулю). Кроме того, у нас также есть р-й корень в уравнении, который не определен при р=0. Чтобы справиться с этим, стандартный способ определения нормы L0 заключается в подсчете количества ненулевых элементов в заданном векторе. На изображении ниже показаны выходные данные функции нормы L-0 для данного вектора:

L1 Норма:

Подставляя p=1 в стандартное уравнение p-нормы, получаем следующее:

  • При использовании для расчета потерь норма L1 также называется средней абсолютной ошибкой.
  • Норма L1 изменяется линейно для всех местоположений, как далеких, так и близких к исходной точке.

На изображении ниже показаны выходные данные функции нормы L1 для данного вектора:

L2 Норма:

Из всех функций нормы наиболее распространенной и важной является норма L2. Подставляя p=2 в стандартное уравнение p-нормы, которое мы обсуждали выше, мы получаем следующее уравнение для нормы L2:

  • Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки.
  • Норма L2 измеряет расстояние от начала координат, также известное как евклидово расстояние.

На изображении ниже показан результат функции нормы L2 для заданного вектора:

Квадратная норма L2:

Как видно из названия, норма L2 в квадрате такая же, как и норма L2, но в квадрате.

  • Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки в машинном обучении.

Квадрат нормы L2 относительно недорог в использовании по сравнению с нормой L2. Это потому что:

  1. Не хватает квадратного корня.
  2. В приложениях машинного обучения производную от Squared L2 Norm легче вычислить и сохранить. Для производного элемента в норме Squared L2 требуется сам элемент. Однако в случае нормы L2 необходим весь вектор.

Максимальная норма (или L-∞ норма):

Поскольку бесконечность — абстрактное понятие в математике, мы не можем просто подставить p=∞ в стандартное уравнение p-нормы. Однако мы можем изучить поведение функции при стремлении p к бесконечности, используя ограничения. Простой вывод уравнения Макс-нормы можно найти здесь.

Максимальная норма возвращает абсолютное значение наибольшего элемента величины. На изображении ниже показаны выходные данные функции максимальной нормы для заданного вектора:

Заключительные примечания:

  1. Векторная норма — это функция, которая принимает вектор в качестве входных данных и выводит положительное значение.
  2. Все функции нормы могут быть получены из одного уравнения. Семейство функций нормы известно как p-норма.
  3. Норма L1 также называется средней абсолютной ошибкой.
  4. Норма L2 также называется среднеквадратичной ошибкой.
  5. Квадратичная норма L2 также называется среднеквадратической ошибкой.