В машинном обучении это важный неконтролируемый метод. В статистике это также классический метод многомерного анализа. В этой статье я постараюсь разобраться в том, что я считаю ключевым для нас.

Прежде чем приступить к сегодняшнему контенту, вы должны знать:

  1. Многофакторный анализ (с несколькими Yi) vs. Однофакторный анализ (только один Y)
  2. Вместо одного значения отклонения нам нужно расширить до общего значения отклонения.
  3. Одна линейная комбинация Xi образует одну новую переменную Y.
  4. В статистике все переменные подразумевают случайные величины.

Если мы получаем много переменных с помощью многофакторного анализа, обычно в соответствии с реальностью, первая догадка, которую мы можем спросить, — зачем нам нужно использовать так много переменных, не могли бы вы сказать мне, какие из них важны? Это проблема сокращения.

Чтобы решить эту проблему, статистики пытаются использовать статистику и линейную алгебру, чтобы обеспечить эффективный метод. Суть в том, чтобы найти группу переменных с высоким значением общей дисперсии и наименьшим количеством переменных.

Чтобы получить высокое значение общей дисперсии, вы ДОЛЖНЫ знать две вещи:

  1. Общая дисперсия генеральной совокупности, т. е. Var(X1)+Var(X2)+…+Var(Xp), должна быть равна Var(Y1)+Var(Y2)+…+Var (Yp), где Y1, Y2,…,Yp — линейные комбинации Xi.
  2. Var(Yi) относится к собственному значению. А комбинационные векторы [c1,c2,…,cp] относятся к соответствующим собственным векторам, где Yi = c1X1+c2X2+…+cpXp.

Если p = 10, а Y1, Y2 и Y3 составляют 90% общей дисперсии, это хорошо! А именно, мы используем три новые переменные в качестве окончательных переменных для проведения последующих исследований. Потому что с 10 до 3 это дает нам большое снижение. И если ваш начальник хочет, чтобы вы нашли некоторые потенциальные ключевые неизвестные факторы/риски, они также доступны.

И последнее, но не менее важное: нет стандартного ответа о 90%. Что нам нужно сделать, так это решить, подходит ли нам пороговое значение.

По сравнению с PCA, факторный анализ основан исключительно на статистике. PCA не включает случайные ошибки. Однако назначение у них почти одинаковое.

https://www.youtube.com/watch?v=7b1BnsKT13M&list=PLj6E8qlqmkFtO5TgUPO1l5I3AQvEVb8gi&index=7