Простая математика, лежащая в основе анализа главных компонентов с использованием Numpy

Как мы все знаем, машинное обучение в основном делится на 3 типа:

Контролируемое обучение
Неконтролируемое обучение
Обучение с подкреплением

Итак, что такое PCA на самом деле? Анализ главных компонентов (PCA) относится к категории неконтролируемого обучения. PCA можно использовать в больших наборах данных, которые содержат множество функций, что затрудняет интерпретацию и анализ набора данных специалистам по обработке данных. PCA используется для уменьшения размерности набора данных, где PCA дает новый набор измерений, и каждое измерение, заданное PCA, линейно независимое. Например, если векторы V1 + V2 + ……. + Vₙ линейно независимы, если идентичная комбинация этих векторов равна нулю. Для N размерных данных PCA по умолчанию задано ортогональное направление N и соответствующая дисперсия. Такие направления называются главными осями. Таким образом, главный компонент каждой оси может быть получен путем проецирования точки данных на оси.

Цель анализа главных компонентов:

Преобразуемые характеристики (независимые переменные) должны быть линейно независимыми.
Уменьшение размерности может быть достигнуто за счет принятия очень важных измерений.
Новое измерение должно минимизировать ошибку проекции
Прогнозируемые точки должны иметь максимальный разброс в смысле максимальной дисперсии.

Разница:

Дисперсия - это мера изменчивости. То есть расстояние между некоторыми переменными и средним значением типа данных. Для этого нам нужно возвести каждую разницу или отклонение переменной X в квадрат ее среднего значения.

Вычисление ковариационной матрицы в упорядоченных парах:

Итак, нам нужно знать разницу между дисперсией и ковариацией. Дисперсия измеряет вариацию одной случайной переменной, например (рост ученика в его школе), а то, что делает ковариация, является мерой того, как две разные переменные изменяются вместе, например (рост и вес ученика в его школе). Матрица ковариации может быть квадратной матрицей для одного и того же набора пар и матрицей скалярного произведения для другого набора пар, дающей ковариацию между каждой парой элементов.

Скажем, у нас есть 2 функции x, y. Ковариация должна рассчитать уровень, на котором две переменные изменяются вместе в упорядоченных парах.

упорядоченные пары = (x, x), (x, y), (y, x), (y, y)

Итак, эта упорядоченная пара определяется тем, сколько функций учитывается.

И так далее ,

Приведенный выше код возвращает ковариационную матрицу ввода n * m.

Собственные векторы и собственные значения:

где,

A = матрица

v = собственный вектор

λ = собственное значение

Собственные векторы указывают в направлении максимальной дисперсии, а соответствующие им собственные значения указывают на важность собственных векторов.

где,

Следовательно,

v - собственный вектор матрицы A. Собственные векторы оператора A связаны с собственным значением λ.

Подход к PCA:

Вычисление среднего значения переменных и вычитание среднего из X
Вычисление ковариационной матрицы упорядоченных пар
Вычислить собственные векторы, собственные значения и нормализованный собственный вектор
Сортировка собственных векторов в порядке убывания в соответствии с их соответствующими собственными значениями
Преобразуйте исходные n измерения данных в требуемые k размеров.

Вот код PCA,

Теперь мы собираемся загрузить набор данных радужной оболочки, который имеет 4 функции, и нам нужно уменьшить размер до 2.

Итак, приведенный выше примерный график PC1 является первым главным компонентом с образцами признаков, показывающими наибольшие вариации. PC2 - второй главный компонент.

Размерность данных n измерения может быть уменьшена до измерения k путем проецирования выборок на полученные оси.

Вывод:

PCA помогает уменьшить размер большого набора данных. Поэтому мы использовали набор данных радужной оболочки глаза, чтобы уменьшить четырехмерный объект до двухмерного и визуализировать его. Это уменьшит только размер без потери достаточной информации в данных. Таким образом, PCA будет точным только тогда, когда функции набора данных сильно коррелированы. Признаки с низкой корреляцией можно игнорировать. Преимущества перед использованием PCA в больших данных заключаются в сокращении использования памяти при выполнении исследования и анализа данных. Надеюсь, я разъяснил PCA насколько мне известно. Приносим извинения, если какая-либо из концепций не подходит.

Ссылка:

Простая математика, лежащая в основе анализа главных компонентов с использованием Numpy

Вопросы по теме