Как определить важность переменных в PCA с помощью Matlab?

Я встречал много похожих вопросов в Интернете, но не мог найти тот, который решает мою проблему, и я могу понять. Я был бы признателен за некоторые объяснения здесь, чтобы помочь в моем понимании. Заранее спасибо!

So,

[COEFF,SCORE,latent,tsquare] = princomp(X)

Я понимаю, что для coeff столбцы расположены в порядке уменьшения дисперсии компонентов. Но знаю ли я важность моих переменных (исходный набор данных), а не важность основного компонента (ПК), как то, что может дать ответ coeff. Есть ли способ оценить важность имеющихся у меня переменных?

Я видел, что многие статистические программы могут это сделать, показывая, какие исходные переменные больше всего влияют на график, а какие можно удалить, чтобы предотвратить проблему переобучения. Есть ли способ сделать это с помощью MatLab?

Моя цель - построить данные в виде двухмерного графика, то есть я буду использовать ПК1 и ПК2, которые содержат наиболее значительную дисперсию компонентов. Итак, опять же, как мне узнать, какие переменные следует сохранить, а какие отбросить?

Кто-нибудь может мне это объяснить? Спасибо!

matlab pca

maureen 21.01.2013 источник

Ответы (1)

arrow_upward
2
arrow_downward

Если вас интересует только проекция ваших данных на 2D-плоскость для визуализации, тогда обязательно возьмите первые две координаты каждой точки из SCORE - это координаты, которые вы обозначили как PC1 и PC2 в своем вопросе.

Однако, если вы хотите знать, какие два компонента в X больше всего внесли вклад в PC1 и PC2, вам нужно будет найти записи в первых двух столбцах COEFF с максимальным абсолютным значением. Поскольку первые два столбца COEFF представляют линейную комбинацию элементов в X, которая дает PC1 и PC2.

Shai 21.01.2013

comment

Но что касается второй части, вы упомянули о максимальном абсолютном значении в первых двух столбцах COEFF. Но как узнать, из каких переменных берутся эти значения? Расположены ли они в том же порядке, в каком я их определяю? Потому что я знаю, что столбцы в COEFF переупорядочиваются в порядке уменьшения дисперсии компонентов, но я не уверен в строках. Вы хотите сказать, что строки не меняются и сохраняются в порядке моих входных данных? - maureen; 23.01.2013

comment

Да, у меня проблема со второй частью. Извините, были проблемы с публикацией ранее .... - maureen; 23.01.2013

comment

@maureen Вы знакомы с линейными преобразованиями с использованием матриц? - Shai; 23.01.2013

comment

Немного, я полагаю ... Что вы предлагаете мне делать? - maureen; 23.01.2013

comment

Если вы обратите внимание, SCORE = COEFF * X - это простое линейное преобразование данных X. Таким образом вы можете определить, как данные влияют на преобразованный SCORE - Shai; 23.01.2013

comment

PS: Извините за задержку с ответом. Некоторые технические проблемы ранее. Теперь все исправлено ... Кто-то мне предложил линейную регрессию. Но у меня тоже есть проблемы с этим, потому что моя модель не имеет форму y = mx + c. У меня нет данных о доступных выходах. Вместо этого у меня есть 28 переменных, которые являются моими входными данными, и я надеюсь увидеть их взаимосвязь с помощью 2D-графика. Опять же, моя концепция линейной регрессии может быть неправильной, поэтому я не мог получить результаты ... - maureen; 23.01.2013

comment

В любом случае, моя цель - определить важность исходных переменных и удалить менее значимые переменные, чтобы предотвратить проблему чрезмерной подгонки на моем 2D-графике. - maureen; 23.01.2013

comment

@maureen похоже, что вам нужно изучить выбор функций. удачи! - Shai; 23.01.2013

comment

Спасибо, Шай! Но есть ли предложения о том, как мне начать с этого? Я прочитал документацию по Feature Selection несколько дней назад, но все еще не уверен в этом. Помогает ли метод SCORE = COEFF * X решить мою проблему? Потому что даже при этом я все еще не могу ранжировать свои переменные по важности, верно? - maureen; 23.01.2013

comment

Выбор функций @maureen - ОГРОМНАЯ тема. вам нужно будет найти нишу, которая наилучшим образом соответствует вашим потребностям. - Shai; 23.01.2013

Как определить важность переменных в PCA с помощью Matlab?

Ответы (1)

Вопросы по теме