Собственные векторы и собственные значения имеют множество важных приложений в различных областях информатики. Хорошо известными примерами являются геометрические преобразования 2D- и 3D-объектов, используемые в программном обеспечении для моделирования, или Eigenfaces для распознавания лиц, PCA (анализ главных компонентов) для уменьшения размерности в компьютерном зрении и машинном обучении в целом.

В этой статье давайте обсудим, что такое собственные векторы и собственные значения и как они используются в анализе главных компонентов.

Линейное преобразование!

Давайте подумаем о матрице A

и вектор B

когда линейное преобразование применяется к вектору B с матрицей A

вы получите другой вектор C

Теперь, когда мы смотрим на вектор B и C на декартовой плоскости после линейного преобразования, мы замечаем, что изменились как величина, так и направление вектора B. Следовательно, при линейном преобразовании матрица может иногда преобразовывать величину и направление вектора в более низкое или более высокое измерение.

Собственные векторы и собственные значения?

Давайте снова рассмотрим приведенную выше матрицу A

и вектор D

Когда линейное преобразование применяется к вектору D с матрицей A

вы получите еще один вектор E

Теперь, когда мы смотрим на вектор D и E на декартовой плоскости после линейного преобразования, мы замечаем, что изменилась только величина вектора D, но не его направление. Из этого наблюдения мы можем определить, что такое собственный вектор и собственное значение.

Собственный вектор - это вектор, который при умножении на заданную матрицу преобразования является скалярным кратным самому себе, а собственное значение является скалярным кратным.

здесь в нашем случае вектор D является нашим собственным вектором, а собственное значение равно 2, поскольку вектор D был масштабирован до вектора E с коэффициентом 2.

В этой статье мы не будем сосредотачиваться на том, как вычислять эти собственные векторы и собственные значения. ссылки на эти руководства будут приведены в конце статьи.

Анализ главных компонентов

Анализ главных компонентов, или PCA, - это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в большом наборе.

Уменьшение количества переменных в наборе данных, естественно, происходит за счет точности, но хитрость в уменьшении размерности состоит в том, чтобы торговать небольшой точностью ради простоты. Поскольку меньшие наборы данных легче исследовать и визуализировать, а анализ данных становится намного проще и быстрее для алгоритмов машинного обучения без обработки посторонних переменных.

Теперь давайте разберемся, как определяется главный компонент с использованием собственных векторов и соответствующих им собственных значений для данных, выбранных ниже, из двумерного гауссовского распределения.

После сбора выборок данных нам нужно понять, как переменные входного набора данных отличаются от среднего по отношению друг к другу, или, другими словами, чтобы увидеть, есть ли между ними какая-либо связь. Потому что иногда переменные сильно коррелированы и содержат избыточную информацию. Итак, чтобы идентифицировать эти корреляции, мы вычисляем ковариационную матрицу.

Ковариационная матрица - это симметричная матрица, которая выражает, как каждая из переменных в выборке данных связана друг с другом.

Теперь нам нужно найти новую ось для данных, чтобы мы могли представить каждую двумерную точку со значениями (x, y) с помощью одномерного скаляра r, v alue r - это проекция точки (x, y) на новую ось, для этого нам нужно вычислить собственные векторы и собственные значения ковариационной матрицы. .

С геометрической точки зрения, главные компоненты представляют собой направления данных, которые объясняют максимальное количество отклонений, то есть линии, которые захватывают большую часть информации о данных.

Такая организация информации в основных компонентах позволит уменьшить размерность без потери большого количества информации, а также отбросить компоненты с низким уровнем информации и рассматривать оставшиеся компоненты как новые переменные.

Использованная литература:

  1. Айген-все от Ханской академии
  2. Анализ главных компонентов (PCA), шаг за шагом