Из этой истории вы сможете понять, как уменьшить размерность с помощью PCA и как это работает.

Проклятие размерности

В машинном обучении «размерность» просто означает количество функций (т. Е. Входных переменных) в вашем наборе данных.

Хотя производительность любой модели машинного обучения увеличивается, если мы добавляем дополнительные функции / измерения, в какой-то момент дальнейшая вставка приводит к снижению производительности, когда количество функций очень велико, соизмеримое с количеством наблюдений в вашем наборе данных, несколько линейных алгоритмов упорно стремитесь обучать эффективные модели. Это называется «Проклятие размерности».

Уменьшение размерности - это набор методов, которые изучают, как уменьшить размер данных, сохраняя при этом наиболее важную информацию и дополнительно устраняя проклятие размерности. Он играет важную роль в выполнении задач классификации и кластеризации.



Что такое СПС?

PCA - это статистический метод для извлечения закономерностей в наборе данных. Да, это так. Возможно, вы знаете это как метод уменьшения размерности, да, это так; но на самом деле это нечто большее. PCA просто преобразует ваш набор данных для выявления скрытых взаимосвязей, сходств или различий, после чего вы можете уменьшить размерность, сжатие данных или извлечение функций поверх его вывода. Однако PCA является наиболее известным и используется для уменьшения размеров набора данных, и именно этим мы и займемся в этой статье: уменьшением размерности с помощью PCA.

В реальных задачах анализа данных мы анализируем сложные данные, то есть многомерные данные. Мы строим данные и находим в них различные закономерности или используем их для обучения некоторых моделей машинного обучения. Один из способов подумать об измерениях: предположим, что у вас есть точка данных x, если мы рассматриваем эту точку данных как физический объект, тогда измерения являются просто основой представления, например, где находятся данные, когда они наблюдается по горизонтальной или вертикальной оси.

По мере увеличения размеров данных возрастает сложность их визуализации и выполнения вычислений. Итак, как уменьшить размеры данных-
* Удалите лишние измерения
* Сохраните только самые важные измерения

Как работает PCA?

Для анализа и создания нового набора данных (уменьшенного в размерах) из исходного с помощью PCA, как правило, используются следующие шаги:

  1. Получить набор данных
  2. Вычислить ковариационную матрицу данных

Ковариационная матрица - это просто ковариационная матрица характеристик (размеров). Ковариация - это дисперсия двух характеристик; Другими словами, как две функции отличаются друг от друга. Это очень полезная информация, когда вам нужно извлечь новые шаблоны или функции из существующих функций. Следовательно, на втором этапе нам нужно вычислить ковариационную матрицу нашего набора данных. Поскольку в данных 4 характеристики, у нас есть 6 ковариаций для расчета и 4 дисперсии.

3. Вычислить собственные значения и собственные векторы по ковариационной матрице.

Собственные значения и собственные векторы - это сердце PCA; ну не только в PCA, но и в других вроде SVD, LDA. Но почему они так важны? Собственные значения и собственные векторы, которые связаны, составляют корневые характеристики матричных уравнений. Я оставлю объяснение этого этому источнику и продолжу рассмотрением важных особенностей собственных векторов и собственных значений для PCA.

4. Выберите основные компоненты

5. Создайте новый избранный набор данных из выбранных компонентов.

Приложения PCA

  • Снижение размерности
  • PCA в основном используется как инструмент в исследовательском анализе данных и для создания прогнозных моделей.
  • Визуализация данных большой размерности - если у нас есть данные большой размерности, может быть трудно построить ее эффективный график. Иногда нанесение на график первых двух основных компонентов может выявить интересную геометрическую структуру данных.
  • Найдите важные атрибуты / переменные (выбор функций в многомерных данных)
  • PCA используется для поиска закономерностей в данных.
  • Фильтрация шума.

Слабость PCA

Как правило, на него сильно влияют выбросы в данных.

Для решения этой проблемы было разработано множество надежных версий PCA, включая RandomizedPCA, sparse PCA и т. Д.

Заключение

Если вы только начинаете заниматься машинным обучением и хотите учиться с нуля, я сделаю эту серию, которая будет длиться 5–6 минут о машинном обучении и некоторых побочных проектах в конце каждой главы, так что оставайтесь с нами и довольны обучение

Это мое личное исследование, если у вас есть какие-либо комментарии, пожалуйста, свяжитесь со мной.

Добро пожаловать на мою среднюю страницу

Github, LinkedIn, Захра Эльхамрауи, Upwork

Получите доступ к экспертному обзору - Подпишитесь на DDI Intel