Руководство по p-нормам.
Если вы читаете этот пост, вероятно, вы уже знаете, что такое векторы и их незаменимое место в машинном обучении. Напомним, векторы — это одномерный массив чисел определенной длины. Это показано ниже:
Элементы вектора располагаются в определенном порядке, и расположение элемента обычно имеет неотъемлемое значение. Мы можем получить доступ к отдельным элементам, используя их позицию (или индекс).
Мы также можем думать о векторах как о точках в пространстве. Если длина вектора равна n, говорят, что точка находится в n-мерном пространстве. Например, если размер вектора равен 2, это может обозначать точку в 2-мерном пространстве относительно начала координат, как показано ниже:
Векторные нормы
Векторные нормы определяются как набор функций, которые принимают вектор в качестве входных данных и выводят положительное значение относительно него. Это называется величиной вектора. Мы можем получить разные длины для одного и того же вектора в зависимости от типа функции, которую мы используем для вычисления величины.
Нормы, хотя их часто упускают из виду, лежат в основе обучения моделей машинного обучения. По сути, прямо перед каждой итерацией обратного распространения вы вычисляете значение потерь скейлера (положительное), которое представляет собой среднее значение суммы разности между предсказанными значениями и квадратичными значениями истинности. Это значение потерь масштабирования является не чем иным, как выходом функции нормы. Как мы вычисляем потери, показано ниже:
Уравнение стандартной нормы — P-норма
Все функции нормы происходят из стандартного уравнения нормы, известного как p-норма. Для разных значений параметра p (p должно быть действительным числом, большим или равным 1) мы получаем другую функцию нормы. Однако обобщенное уравнение показано ниже:
Это берет n-мерный вектор x и возводит каждый элемент в его p-ю степень. Затем мы суммируем все полученные элементы и берем p-й корень, чтобы получить p-норму вектора, также известную как его величина. Теперь при разных значениях параметра p мы получим другую функцию нормы. Давайте обсудим их один за другим ниже.
L0 Норма:
Хотя p=0 лежит вне области определения функции p-нормы, подстановка p=0 в приведенное выше уравнение дает нам отдельные элементы вектора, возведенные в степень 0, что равен 1 (при условии, что число не равно нулю). Кроме того, у нас также есть р-й корень в уравнении, который не определен при р=0. Чтобы справиться с этим, стандартный способ определения нормы L0 заключается в подсчете количества ненулевых элементов в заданном векторе. На изображении ниже показаны выходные данные функции нормы L-0 для данного вектора:
L1 Норма:
Подставляя p=1 в стандартное уравнение p-нормы, получаем следующее:
- При использовании для расчета потерь норма L1 также называется средней абсолютной ошибкой.
- Норма L1 изменяется линейно для всех местоположений, как далеких, так и близких к исходной точке.
На изображении ниже показаны выходные данные функции нормы L1 для данного вектора:
L2 Норма:
Из всех функций нормы наиболее распространенной и важной является норма L2. Подставляя p=2 в стандартное уравнение p-нормы, которое мы обсуждали выше, мы получаем следующее уравнение для нормы L2:
- Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки.
- Норма L2 измеряет расстояние от начала координат, также известное как евклидово расстояние.
На изображении ниже показан результат функции нормы L2 для заданного вектора:
Квадратная норма L2:
Как видно из названия, норма L2 в квадрате такая же, как и норма L2, но в квадрате.
- Приведенное выше уравнение часто называют среднеквадратичной ошибкой, когда оно используется для вычисления ошибки в машинном обучении.
Квадрат нормы L2 относительно недорог в использовании по сравнению с нормой L2. Это потому что:
- Не хватает квадратного корня.
- В приложениях машинного обучения производную от Squared L2 Norm легче вычислить и сохранить. Для производного элемента в норме Squared L2 требуется сам элемент. Однако в случае нормы L2 необходим весь вектор.
Максимальная норма (или L-∞ норма):
Поскольку бесконечность — абстрактное понятие в математике, мы не можем просто подставить p=∞ в стандартное уравнение p-нормы. Однако мы можем изучить поведение функции при стремлении p к бесконечности, используя ограничения. Простой вывод уравнения Макс-нормы можно найти здесь.
Максимальная норма возвращает абсолютное значение наибольшего элемента величины. На изображении ниже показаны выходные данные функции максимальной нормы для заданного вектора:
Заключительные примечания:
- Векторная норма — это функция, которая принимает вектор в качестве входных данных и выводит положительное значение.
- Все функции нормы могут быть получены из одного уравнения. Семейство функций нормы известно как p-норма.
- Норма L1 также называется средней абсолютной ошибкой.
- Норма L2 также называется среднеквадратичной ошибкой.
- Квадратичная норма L2 также называется среднеквадратической ошибкой.