В сегодняшней статье я расскажу о том, что такое PCA и как он играет роль в уменьшении размерности данных и поиске главных компонентов. Для этого мы должны сначала понять, что этот термин означает и что он делает.

Анализ основных компонентов — это алгоритм обучения без учителя, который уменьшает размерность данных. Это статистический метод, в котором коррелированные признаки ортогонально преобразуются в набор линейно некоррелированных признаков. Эти недавно преобразованные функции известны как «основные компоненты».

Большие наборы данных часто трудно обучать, поскольку у нас часто заканчиваются вычислительные ресурсы или требуется огромное время для обучения и получения результатов. В таких случаях методы уменьшения размерности, такие как PCA, действительно полезны, поскольку они могут уменьшить количество функций, выбрав только те функции или переменные, которые имеют отношение. Хотя уменьшение размеров может снизить точность обучения, считается, что лучше отказаться от некоторой точности ради простоты. Когда мы применяем уменьшение размерности, наборы данных становятся относительно меньше и, следовательно, их легче исследовать, визуализировать и анализировать. Теперь, когда мы рассмотрели основы уменьшения размерности, давайте рассмотрим подробные шаги, связанные с расчетом анализа главных компонентов (PCA).

Основные этапы расчета PCA

1. Стандартизация данных — масштабирует данные в фиксированном диапазоне, чтобы выходные данные переменных были беспристрастными.
2. Вычисление ковариационной матрицы — это вычисляет ковариационную матрицу по нормализованным данным. Это симметричная матрица размера n x n, где n — количество исходных объектов, а элемент в строке i и столбце j — это ковариация между i-м и j-м столбцами в наборе данных.
3 Вычисление собственных векторов и собственных значений — собственные векторы и собственные значения теперь рассчитываются из ковариационной матрицы. Для каждого собственного вектора существует собственное значение. Когда данные являются двумерными, мы вычисляем два собственных вектора и их соответствующие собственные значения. Основная цель нахождения собственных векторов состоит в том, чтобы вычислить главные компоненты, чтобы найти наибольшую дисперсию в наборе данных. Чем выше дисперсия, тем выше информативность точек данных.
4. Нахождение главных компонент — на этом этапе собственные векторы и собственные значения располагаются в порядке убывания. Собственный вектор с наибольшим собственным значением выбирается в качестве первого главного компонента.
5. Выполнение уменьшения размерности набора данных. Наконец, данные организуются с основными компонентами и компонентами с меньшими значениями. дисперсия устраняется, чтобы уменьшить размерность данных.