Анализ главных компонентов

Анализ главных компонентов (PCA) – это статистический метод, который используется для уменьшения размерности данных.

PCA работает, идентифицируя направления в данных, которые имеют наибольшие различия, и проецируя данные в пространство с меньшими размерностями вдоль этих направлений. Эти направления называются главными компонентами и являются собственными векторами ковариационной матрицы данных.

Собственные векторы выбираются так, чтобы они были ортогональны друг другу, что означает, что они независимы и некоррелированы.

PCA — это математический метод, который используется для уменьшения размерности данных. Математические шаги, связанные с PCA, следующие:

Стандартизируйте данные, центрируя их и масштабируя, чтобы иметь единичную дисперсию. Пусть X будет исходной матрицей данных с n наблюдениями и p переменными, тогда стандартизированная матрица данных X_std определяется как:

X_std = (X — среднее(X)) / стандартное(X)

Нравиться -

2. Вычислите ковариационную матрицу стандартизированных данных, определяемую по формуле:

S = (1/(n-1)) * X_std’ * X_std

3. Вычислите собственные векторы и собственные значения ковариационной матрицы. Собственные векторы — это направления в данных, которые имеют наибольшую вариацию, а собственные значения — это количество вариаций вдоль этих направлений. Собственные векторы и собственные значения можно вычислить, решив следующее уравнение:

S * V = λ * V

где λ — диагональная матрица собственных значений, а V — матрица, столбцы которой являются соответствующими собственными векторами.

4. Выберите главные компоненты, которые являются собственными векторами, соответствующими наибольшим собственным значениям. Пусть V_k будет матрицей первых k собственных векторов, а затем k главных компонентов задаются следующим образом:

PC = X_std * V_k

5. Спроецируйте данные на главные компоненты, создав новый набор переменных, представляющих собой линейные комбинации исходных переменных. Новая матрица данных Y_k определяется следующим образом:

Y_k = PC * PC’

Вышеупомянутые шаги можно суммировать в одном умножении матриц следующим образом:

Y_k = X_std * V_k * (V_k’ * V_k)^(-1) * V_k’

Это математическое представление PCA, которое используется для нахождения основных компонентов заданного набора данных и проецирования его на пространство более низкой размерности.

Анализ главных компонентов — широко используемый метод анализа данных, но он также имеет некоторые ограничения.

Плюсы:

Уменьшение размерности. PCA может уменьшить размерность данных, сохраняя при этом как можно больше информации. Это может упростить визуализацию и анализ больших и сложных наборов данных.
Обучение без учителя. PCA — это метод без учителя, что означает, что он не требует размеченных данных и может использоваться для поиска закономерностей в неразмеченных данных.
Линейность. PCA предполагает линейность данных, что упрощает их понимание и интерпретацию.
Универсальность. PCA можно применять в самых разных областях, таких как сжатие изображений, биоинформатика и финансы.

Минусы:

Чувствительность к выбросам. PCA чувствителен к выбросам, которые могут сильно повлиять на результаты.
Предположение о линейности. PCA предполагает линейность данных, что не всегда так.
Недостаточная интерпретируемость. Основные компоненты, полученные с помощью PCA, могут быть трудны для интерпретации, особенно при работе с многомерными данными.
Ограничено линейными отношениями. PCA — это линейный метод, и он не может фиксировать нелинейные отношения между переменными.
PCA не обязательно говорит вам, о чем данные, он может только описать структуру данных.

Анализ главных компонентов

Плюсы:

Минусы:

Вопросы по теме