Векторные нормы в машинном обучении

Руководство по p-нормам.

Если вы читаете этот пост, вероятно, вы уже знаете, что такое векторы и их незаменимое место в машинном обучении. Напомним, векторы — это одномерный массив чисел определенной длины. Это показано ниже:

Элементы вектора располагаются в определенном порядке, и расположение элемента обычно имеет неотъемлемое значение. Мы можем получить доступ к отдельным элементам, используя их позицию (или индекс).

Мы также можем думать о векторах как о точках в пространстве. Если длина вектора равна n, говорят, что точка находится в n-мерном пространстве. Например, если размер вектора равен 2, это может обозначать точку в 2-мерном пространстве относительно начала координат, как показано ниже:

Векторные нормы

Векторные нормы определяются как набор функций, которые принимают вектор в качестве входных данных и выводят положительное значение относительно него. Это называется величиной вектора. Мы можем получить разные длины для одного и того же вектора в зависимости от типа функции, которую мы используем для вычисления величины.

Нормы, хотя их часто упускают из виду, лежат в основе обучения моделей машинного обучения. По сути, прямо перед каждой итерацией обратного распространения вы вычисляете значение потерь скейлера (положительное), которое представляет собой среднее значение суммы разности между предсказанными значениями и квадратичными значениями истинности. Это значение потерь масштабирования является не чем иным, как выходом функции нормы. Как мы вычисляем потери, показано ниже:

Уравнение стандартной нормы — P-норма

Все функции нормы происходят из стандартного уравнения нормы, известного как p-норма. Для разных значений параметра p (p должно быть действительным числом, большим или равным 1) мы получаем другую функцию нормы. Однако обобщенное уравнение показано ниже:

Это берет n-мерный вектор x и возводит каждый элемент в его p-ю степень. Затем мы суммируем все полученные элементы и берем p-й корень, чтобы получить p-норму вектора, также известную как его величина. Теперь при разных значениях параметра p мы получим другую функцию нормы. Давайте обсудим их один за другим ниже.

L0 Норма:

Хотя p=0 лежит вне области определения функции p-нормы, подстановка p=0 в приведенное выше уравнение дает нам отдельные элементы вектора, возведенные в степень 0, что равен 1 (при условии, что число не равно нулю). Кроме того, у нас также есть р-й корень в уравнении, который не определен при р=0. Чтобы справиться с этим, стандартный способ определения нормы L0 заключается в подсчете количества ненулевых элементов в заданном векторе. На изображении ниже показаны выходные данные функции нормы L-0 для данного вектора:

L1 Норма:

Подставляя p=1 в стандартное уравнение p-нормы, получаем следующее:

При использовании для расчета потерь норма L1 также называется средней абсолютной ошибкой.
Норма L1 изменяется линейно для всех местоположений, как далеких, так и близких к исходной точке.

На изображении ниже показаны выходные данные функции нормы L1 для данного вектора:

L2 Норма:

Из всех функций нормы наиболее распространенной и важной является норма L2. Подставляя p=2 в стандартное уравнение p-нормы, которое мы обсуждали выше, мы получаем следующее уравнение для нормы L2:

Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки.
Норма L2 измеряет расстояние от начала координат, также известное как евклидово расстояние.

На изображении ниже показан результат функции нормы L2 для заданного вектора:

Квадратная норма L2:

Как видно из названия, норма L2 в квадрате такая же, как и норма L2, но в квадрате.

Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки в машинном обучении.

Квадрат нормы L2 относительно недорог в использовании по сравнению с нормой L2. Это потому что:

Не хватает квадратного корня.
В приложениях машинного обучения производную от Squared L2 Norm легче вычислить и сохранить. Для производного элемента в норме Squared L2 требуется сам элемент. Однако в случае нормы L2 необходим весь вектор.

Максимальная норма (или L-∞ норма):

Поскольку бесконечность — абстрактное понятие в математике, мы не можем просто подставить p=∞ в стандартное уравнение p-нормы. Однако мы можем изучить поведение функции при стремлении p к бесконечности, используя ограничения. Простой вывод уравнения Макс-нормы можно найти здесь.

Максимальная норма возвращает абсолютное значение наибольшего элемента величины. На изображении ниже показаны выходные данные функции максимальной нормы для заданного вектора:

Заключительные примечания:

Векторная норма — это функция, которая принимает вектор в качестве входных данных и выводит положительное значение.
Все функции нормы могут быть получены из одного уравнения. Семейство функций нормы известно как p-норма.
Норма L1 также называется средней абсолютной ошибкой.
Норма L2 также называется среднеквадратичной ошибкой.
Квадратичная норма L2 также называется среднеквадратической ошибкой.