Базовая терминология и интуиция для уменьшения размерности.

Цель этой статьи - познакомить читателей с геометрической и математической интуицией, лежащей в основе техники уменьшения размерности, Анализ главных компонентов (PCA). Итак, продолжим.

Логистика для этой статьи заключается в следующем:

  1. Матрица ковариаций
  2. Геометрическая интерпретация
  3. Целевая функция, проблема ограниченной оптимизации и
  4. Решение проблемы оптимизации.

Во-первых, давайте познакомимся с некоторыми основными терминами,

Дисперсия: Дисперсия - это мера того, насколько далеко разбросан набор данных. Математически он определяется как среднее квадратов разностей от среднего значения случайной величины (X).

Ковариация: Ковариация - это мера отношения между двумя случайными величинами. Метрика оценивает, насколько и насколько переменные изменяются вместе.

1. Матрица ковариации (C): представляет ковариацию между измерениями заданного набора данных (X) в виде матрицы.

Например, рассмотрим 3-мерный набор данных (X), тогда его ковариационная матрица (C) будет иметь вид

Здесь ковариация по диагонали представляет собой дисперсию каждого измерения.
Поскольку C (i, j) = C (j, i), ковариационная матрица (C) симметрична.
Мы можем записать ковариационную матрицу в матричных обозначениях следующим образом:

Если к набору данных применяется типичная форма нормализации, такая как стандартизация столбцов, то среднее значение и дисперсия всех измерений будут равны нулю и единице. Следовательно, мы можем записать ковариационную матрицу как

Анализ основных компонентов (PCA):

Реальные данные слишком беспорядочные и многомерные, и мы проводим анализ данных, строим графики на основе таких данных, чтобы найти в них скрытые закономерности и использовать их для обучения моделей машинного обучения. Но по мере того, как размеры # увеличиваются, сложность визуализации и вычислений также возрастает.

Итак, нам нужно как-то уменьшить размеры #, чтобы сохранить максимум информации. Мы можем придумать следующие способы:
* удалить ненужные / избыточные измерения и
* включить только самые важные измерения.

Анализ главных компонентов (PCA) - один из таких простейших методов уменьшения размерности, сохраняющий максимальную дисперсию / разброс по каждому ортогональному измерению, называемому главными осями.
Часто используется, чтобы упростить исследование и визуализацию данных в низкоразмерном пространстве.

Эти новые ортогональные измерения ранжируются на основе дисперсии вместе с ними, то есть более важная главная ось идет первой с максимальной дисперсией / разбросом.

2. Геометрическая интерпретация. Здесь мы рассмотрим геометрическую интерпретацию уменьшения размеров.

Случай - 1: отклонение по одной оси больше, чем по другим осям.
Давайте рассмотрим набор данных (X) с двумя измерениями / характеристиками, например, рост и вес человека,

Когда мы строим диаграмму разброса этого набора данных, мы можем заметить, что дисперсия по F1 (2–8) больше, чем по F2 (4–6).

Следовательно, мы можем пропустить F2 и включить в наш набор данных только функцию F1, сохраняя направление с максимальной информацией.

Случай - 2: дисперсия по всем осям одинакова.
Давайте рассмотрим набор данных, который имеет одинаковую дисперсию по обеим осям, как,

Разница по всем параметрам (F1, F2) почти одинакова.
Итак, теперь мы находим новые измерения (F1 ', F2'), то есть векторы, такие, что дисперсия максимизируется вдоль одного из них, как показано на рисунке выше, с использованием техники вращения оси.

  1. Выполните проекцию точек данных X (i) на Fi ' так, чтобы мы получили соответствующие координаты размерного пространства Fi в Fi' пространственное пространство,
  2. Разница по F1 ' больше, чем по F2',
  3. Мы можем пропустить F2 ' и включить только F1'.

- Здесь F1 ' - первая главная ось, а F2' - вторая главная ось.

Теперь, когда мы получили оси максимальной дисперсии в другом размерном пространстве, мы можем пропустить измерения в этом пространстве, которые имеют низкую дисперсию, и работать в том же самом.

3. Целевая функция: мы познакомились с геометрической интерпретацией PCA и теперь рассмотрим ее математическую перспективу.

Рассмотрим предыдущий пример геометрической интерпретации, из рисунка
(a) выше мы видим, что спред максимален вдоль F1 ', и нам нужно только это направление максимального спреда.
Итак, нам нужно найти единичный вектор (u1) вдоль этого направления,
то есть величина || u1 || = 1.

Пусть исходный набор данных будет,

Из рисунка (b) выше видно, что x ’(i) является проекцией x (i) на u1.

Теперь новый прогнозируемый набор данных в пространстве более низкой размерности:

Цель: наконец, мы хотим найти 'u1' такое, чтобы отклонение проекций x (i) на единичный вектор ( u1) максимально как,

Лучше быть осторожным, прежде чем переходить к PCA, мы всегда должны нормализовать наши данные, потому что, если мы будем использовать данные (здесь функции) разного масштаба, мы получим вводящие в заблуждение основные компоненты.
Типичная применяемая форма нормализации - стандартизация столбцов.
Для простоты предполагаю, что мы уже нормализовали данные.

Поскольку мы применили стандартизацию столбцов для функций набора данных (D), средние значения вектора для каждой функции будут равны нулю.

Следовательно, математическая целевая функция для нахождения главных компонент максимального разброса (ui) может быть записана как

Мы можем записать указанную выше задачу оптимизации в матричной записи, используя
ковариационную матрицу (C), которую мы узнали в начале, как,

Вышеупомянутый тип проблемы называется задачей ограниченной оптимизации, в которой каждый главный компонент (ui) ограничен единичным вектором.

Поскольку компоненты ортогональны друг другу, скалярное произведение между любыми двумя компонентами равно нулю.

4. Решение проблемы ограниченной оптимизации:

Теперь, когда мы обсудили математическую цель функции оптимизации, мы рассмотрим ее часть решения.

Мы можем решить эту задачу ограниченной оптимизации с помощью нашей старой дружественной техники Множители Лагранжа и изменить ее на форму Лагранжа как,

Уравнение (1) выше является определением собственных значений и собственных векторов, где 'u1' - собственный вектор, а 'λ' - соответствующее собственное значение 'C', т. е. ковариационная матрица 'X'.
Аналогичным образом мы можем найти другие собственные векторы (ui ) и собственные значения (λi) ковариационной матрицы 'C' для каждого измерения (d).
Следовательно, PCA достигает собственных значений и собственных векторов.

свойство:

Теперь выбор # измерений таким образом, чтобы максимальная дисперсия фиксировалась в пространстве других измерений, является ключевым моментом при выполнении PCA. Этого можно достичь с помощью собственных значений (λi), которые мы получаем при решении задачи оптимизации.
Из этих собственных значений мы можем сгенерировать коэффициент совокупной дисперсии как,

Коэффициент дисперсии сообщает нам процент информации, сохраненной в новом размерном пространстве для # различных компонентов.

—Это типичный график отношения кумулятивной дисперсии PCA для разных # измерений, полученный путем решения задачи оптимизации с ограничениями, которую мы видели в предыдущем разделе.
- Мы можем выбрать # измерений на основе максимального или необходимого количества информации, которая будет сохранена в новом размерном пространстве.

После выбора # измерений мы можем теперь спроецировать точки исходного набора данных (D) на эти # верхних собственных векторов и получить новый набор данных (D ') с уменьшенными Габаритные размеры.

Обычно PCA используется для визуализации данных большой размерности (nD) в пространстве меньшей размерности (2D), чтобы мы могли получить некоторое представление о том, как точки данных распределены в пространстве. пространство более высоких измерений.

Ограничения:

  1. Линейность: PCA предполагает, что основные компоненты представляют собой линейную комбинацию исходных функций. Если это предположение неверно, оно даст нам вводящие в заблуждение результаты.
  2. Большая дисперсия означает больше структуры: PCA пытается сохранить глобальную структуру вместо локальной структуры данных, принимая дисперсию как меру важности того или иного параметра. Иногда это может привести к потере информации, если данные не распределены должным образом, как показано на рисунке «A» ниже.

Красные стрелки обозначают главные оси, которые не отражают полную дисперсию согласно предположению.

3. Ортогональность: PCA также предполагает, что главные компоненты ортогональны друг другу. Из рисунка ‘B выше мы видим, что есть некоторая потеря информации, поскольку главные оси ортогональны.

Поскольку PCA - довольно старый метод, в тех случаях, когда вышеприведенные предположения терпят неудачу, была проделана значительная работа по его улучшению. В зависимости от варианта использования, мы можем захотеть использовать один из более продвинутых методов.

Заключение:

Анализ главных компонентов (PCA) - это неконтролируемый метод, используемый для предварительной обработки и уменьшить размерность данных большой размерности, сохранив при этом исходную структуру и взаимосвязи, присущие исходному набору данных, чтобы модели машинного обучения по-прежнему могли учиться на них и использоваться для точных прогнозов.

Для очень красивого и моего любимого визуального объяснения вы можете пройти,
Анализ главных компонентов (PCA).

На этом мы подошли к концу обсуждения интуиции, лежащей в основе базовой техники уменьшения размерности, анализа главных компонентов (PCA).
Давайте обсудим в комментариях, если вы обнаружите в сообщении что-то не так или у вас есть что добавить: P .

Ссылки:
[1] https://www.appliedaicourse.com
[2] https://en.wikipedia.org/wiki/Principal_component_analysis,
[3] Https://www.statisticshowto.datasciencecentral.com/
[4] http://setosa.io/ev/eigenvectors-and-eigenvalues/
[5] https: / /arxiv.org/pdf/1404.1100.pdf

Вы также можете найти меня и связаться со мной в LinkedIn и GitHub.

Взгляните на мои предыдущие статьи:
Прочтите их, и мы будем благодарны за ваши отзывы.

[1] Перевод аниме Sketch2Color с использованием генерирующих состязательных сетей (GAN).
[2] Математическая интуиция на Стохастический градиентный спуск (SGD).