python数据分析之主成分分析

Python011

python数据分析之主成分分析,第1张

成分分析,又称PCA,是指将多个变量通过线性变换以后选出较少个重要变量的一种多元统计方法。

主成分分析计算步骤:

1、计算协方差矩阵

2、求出相应的特征值及相应的正交化单位向量

3、选择主成分

4、计算主成分载荷

5、计算主成分得分

1.根据先验经验和理论知识判断主成分数2.根据要解释变量方差的积累值的阈值来判断需要的主成分数,如选择使累积方差达到80%的主成分个数3.通过检查变量间 k*k 的相关系数矩阵来判断保留的主成分数(根据相关系数矩阵的特征值,选择特征值大于1的主成分) 1、最常见的是基于特征值的方法 每个主成分都与相关系数矩阵的特征值相关联

主成分分析(PCA)是一种基于变量协方差矩阵对数据进行压缩降维、去噪的有效方法。

PCA的思想是将n维特征映射到k维上(k<n),这k维特征称为主元,是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。