Линейная алгебра для машинного обучения: нормы

Нам часто нужно измерить размер вектора, и для этого мы используем функцию, называемую norm, обычно обозначаемую как L^p , который выглядит так:

Норма вектора x измеряет расстояние от начала координат до точки x, далее норма состоит из любой функции f со следующими свойствами:

Определенность:

Норма x равна 0 тогда и только тогда, когда сам x равен 0, и все векторы, кроме 0, должны иметь положительную длину.

Абсолютная однородность:

Если вы масштабируете норму вектора с помощью скалярного значения a, то соответственно масштабируется и его длина.

Неравенство треугольника:

x+y представляет собой сторону треугольника, x и y — две другие стороны, означающие, что длина одной стороны треугольника меньше суммы длин двух других сторон.

Теперь, когда мы понимаем, как выглядит функция нормы, а также свойства, на которые она опирается, мы можем взглянуть на различные типы норм и варианты их использования.

л⁰ норма

L⁰ норма, где p = 0, дает количество ненулевых элементов в векторе. Он не измеряет расстояние, поэтому мы на самом деле не считаем это нормой, но, тем не менее, полезно понимать, что уравнение выглядит так:

Простым примером этого может быть случайный набор векторов, скажем, (0,0), (0,6) и (0,0001,4). Норма L⁰ первой вернет 0, поскольку она состоит из всех ненулевых элементов, вторая вернет 1, поскольку она состоит из одного ненулевого элемента, а final вернет 2, так как состоит из двух ненулевых элементов.

L¹ норма

Норма L¹, также называемая абсолютной нормой или манхэттенским расстоянием, где p=1, используется для одномерных векторных пространств и обозначается ||x||1 . Норма L¹ используется для получения длины вектора от его начала. Уравнение выглядит так:

или проще говоря:

L¹ норма может помочь нам при определении между элементами, которые равны нулю, и элементами, которые являются небольшими ненулевыми числами, что является обычным машинным обучением. Например, когда x постепенно удаляется от нуля на некоторую величину, норма L¹ будет постепенно увеличиваться.

L² норма

Норма L² или евклидова норма, где p = 2, – это евклидово расстояние от начала координат до точки, определяемой x. . Он используется для n-мерных векторных пространств:

что также можно записать как:

Евклидова норма является наиболее распространенным типом используемой нормы, особенно в машинном обучении, поэтому в этом случае люди чаще всего просто обозначают ее как ||x||, с индекс 2 опущен для простоты.

Также принято измерять размер вектора с помощью возведенной в квадрат нормы L², иногда называемой суммой квадратов разности (SSD), которая представляет собой просто приведенное выше квадратное значение:

Вы также можете использовать точечный продукт, чтобы найти норму L² в квадрате x:

Во многих случаях квадрат нормы L² окажется более удобным для работы по сравнению с нормой L². сама норма. Это связано с тем, что каждая производная квадрата нормы L² по отношению к каждому элементу x зависит только от соответствующего элемента x, тогда как для L² все производные зависят от всего вектора. С другой стороны, квадрат L² может быть нежелательным, поскольку он будет очень медленно увеличиваться вблизи начала координат.

Когда использовать L¹ против L²

При принятии решения о том, какую норму использовать, может быть несколько запутанно, но хорошим примером может быть вообразите водителя такси, которому нужно добраться из точки A в точку B. В этой ситуации норма L¹ (синяя линия) будет более полезной, поскольку она будет следовать одномерному пространству, то есть системе дорог, показанной ниже.

С другой стороны, норма L² (зеленая линия) была бы более полезной, скажем, для вертолета, поскольку она учитывает n-мерную плоскость, а не только одномерное пространство.

Бесконечность норма

Мы можем пойти дальше и применить функцию нормы к бесконечному количеству индексов:

Норма бесконечности, также называемая максимальной нормой, упрощается до абсолютного значения элемента с наибольшей величиной в векторе и может быть записана так:

Для лучшего понимания этого мы можем нанести несколько разных значений p на оси x и y ниже:

*Обратите внимание, чем выше значение p, тем лучше линия соответствует осям x и y.

Фробениус норма

Иногда нам может понадобиться измерить размер матрицы, и для этого мы чаще всего используем норму Фробениуса:

Скалярное произведение

Скалярное произведение двух векторов также можно записать в нормах:

Распространенные варианты использования в машинном обучении

У норм есть множество вариантов использования в области машинного обучения, и, поняв их, вы гораздо лучше поймете основы некоторых из наиболее часто используемых алгоритмов и методов. Вот несколько достойных примеров:

Функции регуляризации, т. е. лассо, гребень и эластичная сетевая регрессия
Функции потерь, т. е. среднеквадратическая ошибка (MSE) или градиентный спуск

Краткое содержание

В этой статье мы узнали обо всех наиболее важных типах норм, а также о вариантах их использования с примерами. Мы также немного узнали о некоторых популярных алгоритмах функций регуляризации и потерь машинного обучения, которые используют норму. Я надеюсь, вам понравилась эта статья и вы сочли ее полезной в той или иной форме, и если вы заметите какие-либо ошибки в моих объяснениях или математике, пожалуйста, не стесняйтесь оставлять комментарии, так как это было бы очень полезно для меня и людей, просматривающих это. статья!

Источники:

https://en.wikipedia.org/wiki/Норма_(математика)

https://www.deeplearningbook.org/contents/linear_алгебра.html

https://rorasa.wordpress.com/2012/05/13/l0-norm-l1-norm-l2-norm-l-infinity-norm/

https://montjoile.medium.com/l0-norm-l1-norm-l2-norm-l-infinity-norm-7a7d18a4f40c

https://ekamperi.github.io/machine%20learning/2019/10/19/norms-in-machine-learning.html