Анализ главных компонентов (PCA) – это статистический метод, который используется для уменьшения размерности данных.
PCA работает, идентифицируя направления в данных, которые имеют наибольшие различия, и проецируя данные в пространство с меньшими размерностями вдоль этих направлений. Эти направления называются главными компонентами и являются собственными векторами ковариационной матрицы данных.
Собственные векторы выбираются так, чтобы они были ортогональны друг другу, что означает, что они независимы и некоррелированы.
PCA — это математический метод, который используется для уменьшения размерности данных. Математические шаги, связанные с PCA, следующие:
- Стандартизируйте данные, центрируя их и масштабируя, чтобы иметь единичную дисперсию. Пусть X будет исходной матрицей данных с n наблюдениями и p переменными, тогда стандартизированная матрица данных X_std определяется как:
X_std = (X — среднее(X)) / стандартное(X)
Нравиться -
2. Вычислите ковариационную матрицу стандартизированных данных, определяемую по формуле:
S = (1/(n-1)) * X_std’ * X_std
3. Вычислите собственные векторы и собственные значения ковариационной матрицы. Собственные векторы — это направления в данных, которые имеют наибольшую вариацию, а собственные значения — это количество вариаций вдоль этих направлений. Собственные векторы и собственные значения можно вычислить, решив следующее уравнение:
S * V = λ * V
где λ — диагональная матрица собственных значений, а V — матрица, столбцы которой являются соответствующими собственными векторами.
4. Выберите главные компоненты, которые являются собственными векторами, соответствующими наибольшим собственным значениям. Пусть V_k будет матрицей первых k собственных векторов, а затем k главных компонентов задаются следующим образом:
PC = X_std * V_k
5. Спроецируйте данные на главные компоненты, создав новый набор переменных, представляющих собой линейные комбинации исходных переменных. Новая матрица данных Y_k определяется следующим образом:
Y_k = PC * PC’
Вышеупомянутые шаги можно суммировать в одном умножении матриц следующим образом:
Y_k = X_std * V_k * (V_k’ * V_k)^(-1) * V_k’
Это математическое представление PCA, которое используется для нахождения основных компонентов заданного набора данных и проецирования его на пространство более низкой размерности.
Анализ главных компонентов — широко используемый метод анализа данных, но он также имеет некоторые ограничения.
Плюсы:
- Уменьшение размерности. PCA может уменьшить размерность данных, сохраняя при этом как можно больше информации. Это может упростить визуализацию и анализ больших и сложных наборов данных.
- Обучение без учителя. PCA — это метод без учителя, что означает, что он не требует размеченных данных и может использоваться для поиска закономерностей в неразмеченных данных.
- Линейность. PCA предполагает линейность данных, что упрощает их понимание и интерпретацию.
- Универсальность. PCA можно применять в самых разных областях, таких как сжатие изображений, биоинформатика и финансы.
Минусы:
- Чувствительность к выбросам. PCA чувствителен к выбросам, которые могут сильно повлиять на результаты.
- Предположение о линейности. PCA предполагает линейность данных, что не всегда так.
- Недостаточная интерпретируемость. Основные компоненты, полученные с помощью PCA, могут быть трудны для интерпретации, особенно при работе с многомерными данными.
- Ограничено линейными отношениями. PCA — это линейный метод, и он не может фиксировать нелинейные отношения между переменными.
- PCA не обязательно говорит вам, о чем данные, он может только описать структуру данных.