Я оставил последнюю статью с концепциями линейной алгебры, где мы рассмотрели векторные пространства, пространство строк, пространство столбцов, разложение собственных векторов, разложение по сингулярным значениям и другие концепции.
Эта статья является продолжением самой последней статьи, здесь мы посмотрим на реальную реализацию линейной алгебры в истинном смысле этого слова. То, о чем мы все знаем и тоже используем, - анализ главного компонента для уменьшения размерности.

Прежде чем сразу перейти к алгоритму, нужно лучше понять некоторые геометрические свойства векторов. Одно из основных свойств, которые мы используем, - это внутреннее произведение между векторами, которое многие из нас знают в виде скалярного произведения. Как правило, скалярное произведение - это особый случай внутреннего продукта.
Внутренний продукт - это функция, которая обладает свойствами положительно определенной, симметричной и линейной.

Точечное произведение - это случай, когда мы выполняем внутреннее произведение, когда нет преобразования по x или y (помните, я говорил о преобразовании в прошлой статье). Его также называют евклидовым внутренним произведением. В основном, что такое евклидов внутренний продукт дает вам значение, которое представляет проекцию вектора на b, точно так же, как проекция тени человека на дороге. Как бы выглядел человек, если бы мы были частью дороги. Точно так же, как бы вектор выглядел, если бы он был частью вектора b.

Еще одно интересное применение внутреннего продукта - это определение длины вектора. норма вектора - это понятие определения величины длины вектора в векторном пространстве. Норма в основном внутреннее произведение вектора на себя. Евклидова норма, также называемая нормой L2, корнем внутреннего произведения вектора на себя. Мы можем дополнительно расширить определение нормы, чтобы определить расстояние между векторами в пространстве, где мы заменяем внутреннее произведение вектора на себя другим вектором, который называется евклидовым расстоянием.

РАЗДЕЛЕНИЕ ВЕКТОРНЫХ ПРОСТРАНСТВ

  • В целом мы берем входные данные, ограниченные векторным пространством, скажем, размерностью R, и делим их на главное подпространство и ортогональное дополнительное подпространство.
  • Главное подпространство - это подпространство вектора, где каждый вектор перпендикулярен ортогональному дополнительному подпространству.
  • Мы проецируем X (входные данные) на M-мерное ортогональное подпространство дополнения и минимизируем среднеквадратичную ошибку проекции с исходной проекцией.

НАСТРОЙКА PCA

  • После определения концепций внутреннего продукта, ортогональных комплиментов, давайте определим нашу целевую функцию PCA.
  • Нам нужно найти векторное пространство, или, если быть точным, базисные векторы, которые проецируют наш исходный набор данных с минимальной потерей информации.
  • На приведенном выше рисунке вы видите определенное расстояние, СКО между фактической проекцией и новой проекцией с подмножеством размеров.
  • чтобы найти проекцию X с ортогональным дополнением, мы берем скалярное произведение i-го компонента ортогонального дополнения на i-й компонент вектора X.

  • слева вы видите, как мы преобразуем целевую функцию в два компонента: матрицу проекции (BjT * Bj) и матрицу ковариации (S).
  • Матрица проекции берет нашу матрицу ковариации данных и проецирует ее на подпространство ортогонального дополнения. То есть мы можем сформулировать функцию потерь как дисперсию данных, проецируемых на подпространство, которое мы игнорируем.
  • Минимизация уравнения потерь заключается в минимизации дисперсии данных, которые лежат в подпространстве ортогонального дополнения. Другими словами, мы хотим сохранить как можно больше дисперсии. Переформулировка средней квадратичной ошибки восстановления с точки зрения совпадения данных Дисперсия дает нам простой способ найти базисные векторы главного подпространства.

Следовательно, средняя ошибка сводится к минимуму
Если мы выберем базисные векторы, охватывающие игнорируемое подпространство, как собственные векторы ковариации данных, принадлежащих наименьшим собственным значениям
ИЛИ
Если главное подпространство покрыто собственными векторами, принадлежащими M наибольшим собственным значениям ковариационной матрицы данных.

Заключительное утверждение будет выглядеть следующим образом: Ортонормированные базисные векторы главного подпространства - это собственные векторы матрицы ковариации данных, которые связаны с наибольшими собственными значениями.

Таким образом, мы видим, как внутреннее произведение, собственные значения и ортогональные проекции помогают нам найти низкоразмерную проекцию вектора большой размерности с минимальной потерей информации.
В следующей статье мы перейдем к концепциям многомерного исчисления, прежде чем двигаться переходим к традиционному ML.
Следите за обновлениями :)