В машинном обучении это важный неконтролируемый метод. В статистике это также классический метод многомерного анализа. В этой статье я постараюсь разобраться в том, что я считаю ключевым для нас.
Прежде чем приступить к сегодняшнему контенту, вы должны знать:
- Многофакторный анализ (с несколькими Yi) vs. Однофакторный анализ (только один Y)
- Вместо одного значения отклонения нам нужно расширить до общего значения отклонения.
- Одна линейная комбинация Xi образует одну новую переменную Y.
- В статистике все переменные подразумевают случайные величины.
Если мы получаем много переменных с помощью многофакторного анализа, обычно в соответствии с реальностью, первая догадка, которую мы можем спросить, — зачем нам нужно использовать так много переменных, не могли бы вы сказать мне, какие из них важны? Это проблема сокращения.
Чтобы решить эту проблему, статистики пытаются использовать статистику и линейную алгебру, чтобы обеспечить эффективный метод. Суть в том, чтобы найти группу переменных с высоким значением общей дисперсии и наименьшим количеством переменных.
Чтобы получить высокое значение общей дисперсии, вы ДОЛЖНЫ знать две вещи:
- Общая дисперсия генеральной совокупности, т. е. Var(X1)+Var(X2)+…+Var(Xp), должна быть равна Var(Y1)+Var(Y2)+…+Var (Yp), где Y1, Y2,…,Yp — линейные комбинации Xi.
- Var(Yi) относится к собственному значению. А комбинационные векторы [c1,c2,…,cp] относятся к соответствующим собственным векторам, где Yi = c1X1+c2X2+…+cpXp.
Если p = 10, а Y1, Y2 и Y3 составляют 90% общей дисперсии, это хорошо! А именно, мы используем три новые переменные в качестве окончательных переменных для проведения последующих исследований. Потому что с 10 до 3 это дает нам большое снижение. И если ваш начальник хочет, чтобы вы нашли некоторые потенциальные ключевые неизвестные факторы/риски, они также доступны.
И последнее, но не менее важное: нет стандартного ответа о 90%. Что нам нужно сделать, так это решить, подходит ли нам пороговое значение.
По сравнению с PCA, факторный анализ основан исключительно на статистике. PCA не включает случайные ошибки. Однако назначение у них почти одинаковое.
https://www.youtube.com/watch?v=7b1BnsKT13M&list=PLj6E8qlqmkFtO5TgUPO1l5I3AQvEVb8gi&index=7