Как мы все знаем, машинное обучение в основном делится на 3 типа:
- Контролируемое обучение
- Неконтролируемое обучение
- Обучение с подкреплением
Итак, что такое PCA на самом деле? Анализ главных компонентов (PCA) относится к категории неконтролируемого обучения. PCA можно использовать в больших наборах данных, которые содержат множество функций, что затрудняет интерпретацию и анализ набора данных специалистам по обработке данных. PCA используется для уменьшения размерности набора данных, где PCA дает новый набор измерений, и каждое измерение, заданное PCA, линейно независимое. Например, если векторы V1 + V2 + ……. + Vₙ линейно независимы, если идентичная комбинация этих векторов равна нулю. Для N размерных данных PCA по умолчанию задано ортогональное направление N и соответствующая дисперсия. Такие направления называются главными осями. Таким образом, главный компонент каждой оси может быть получен путем проецирования точки данных на оси.
Цель анализа главных компонентов:
- Преобразуемые характеристики (независимые переменные) должны быть линейно независимыми.
- Уменьшение размерности может быть достигнуто за счет принятия очень важных измерений.
- Новое измерение должно минимизировать ошибку проекции
- Прогнозируемые точки должны иметь максимальный разброс в смысле максимальной дисперсии.
Разница:
Дисперсия - это мера изменчивости. То есть расстояние между некоторыми переменными и средним значением типа данных. Для этого нам нужно возвести каждую разницу или отклонение переменной X в квадрат ее среднего значения.
Вычисление ковариационной матрицы в упорядоченных парах:
Итак, нам нужно знать разницу между дисперсией и ковариацией. Дисперсия измеряет вариацию одной случайной переменной, например (рост ученика в его школе), а то, что делает ковариация, является мерой того, как две разные переменные изменяются вместе, например (рост и вес ученика в его школе). Матрица ковариации может быть квадратной матрицей для одного и того же набора пар и матрицей скалярного произведения для другого набора пар, дающей ковариацию между каждой парой элементов.
Скажем, у нас есть 2 функции x, y. Ковариация должна рассчитать уровень, на котором две переменные изменяются вместе в упорядоченных парах.
упорядоченные пары = (x, x), (x, y), (y, x), (y, y)
Итак, эта упорядоченная пара определяется тем, сколько функций учитывается.
И так далее ,
Приведенный выше код возвращает ковариационную матрицу ввода n * m.
Собственные векторы и собственные значения:
где,
A = матрица
v = собственный вектор
λ = собственное значение
Собственные векторы указывают в направлении максимальной дисперсии, а соответствующие им собственные значения указывают на важность собственных векторов.
где,
Следовательно,
v - собственный вектор матрицы A. Собственные векторы оператора A связаны с собственным значением λ.
Подход к PCA:
- Вычисление среднего значения переменных и вычитание среднего из X
- Вычисление ковариационной матрицы упорядоченных пар
- Вычислить собственные векторы, собственные значения и нормализованный собственный вектор
- Сортировка собственных векторов в порядке убывания в соответствии с их соответствующими собственными значениями
- Преобразуйте исходные n измерения данных в требуемые k размеров.
Вот код PCA,
Теперь мы собираемся загрузить набор данных радужной оболочки, который имеет 4 функции, и нам нужно уменьшить размер до 2.
Итак, приведенный выше примерный график PC1 является первым главным компонентом с образцами признаков, показывающими наибольшие вариации. PC2 - второй главный компонент.
Размерность данных n измерения может быть уменьшена до измерения k путем проецирования выборок на полученные оси.
Вывод:
PCA помогает уменьшить размер большого набора данных. Поэтому мы использовали набор данных радужной оболочки глаза, чтобы уменьшить четырехмерный объект до двухмерного и визуализировать его. Это уменьшит только размер без потери достаточной информации в данных. Таким образом, PCA будет точным только тогда, когда функции набора данных сильно коррелированы. Признаки с низкой корреляцией можно игнорировать. Преимущества перед использованием PCA в больших данных заключаются в сокращении использования памяти при выполнении исследования и анализа данных. Надеюсь, я разъяснил PCA насколько мне известно. Приносим извинения, если какая-либо из концепций не подходит.
Ссылка:
- Http://www.sthda.com/english/articles/31-principal-component-methods-in-r-practical-guide/112-pca-principal-component-analysis-essentials/
- Https://jakevdp.github.io/PythonDataScienceHandbook/05.09-principal-component-analysis.html
- Https://math.libretexts.org/Bookshelves/Linear_Algebra/Book%3A_A_First_Course_in_Linear_Algebra_(Kuttler)/07%3A_Spectral_Theory/7.01%3A_Eigenvalues_and_Eigenvectors_of_a_Matrix
- Https://datascienceplus.com/understanding-the-covariance-matrix/