主成分分析(PCA)& 主坐标分析(PCoA)——R包绘图(2D3D散点图)

Python062

主成分分析(PCA)& 主坐标分析(PCoA)——R包绘图(2D3D散点图),第1张

主成分分析(Principal Components Analysis,PCA) ,也称主分量分析或主成分回归分析法,是一种无监督的数据降维方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的 降维 。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。

主坐标分析(Principal Coordinates Analysis,PCoA) ,即经典多维标度(Classical multidimensional scaling),用于研究数据间的相似性。

【二者差异】

PCA与PCoA都是降低数据维度的方法,但是差异在在于 PCA 是基于 原始矩阵 ,而 PCoA 是基于通过原始矩阵计算出的 距离矩阵 。因此,PCA是尽力保留数据中的变异让点的位置不改动,而PCoA是尽力保证原本的距离关系不发生改变,也就是使得原始数据间点的距离与投影中即结果中各点之间的距离尽可能相关。

基因表达量数据通过RSEM软件定量后得到

除转录组研究以外,在16S微生物的研究中我们会根据物种丰度的文件对数据进行PCA或者PCoA分析,也是我们所说的β多样性分析。根据PCA或者PCoA的结果看感染组和对照组能否分开,以了解微生物组的总体变化情况。

具体内容及绘图方法可参考下面这篇文章。

16s—β多样性分析(R画三维PCoA图)

R数据可视化4: PCA和PCoA图

详解主成分分析PCA

princomp(x, cor = FALSE, scores = TRUE, covmat = NULL,

         subset = rep_len(TRUE, nrow(as.matrix(x))), ...)

当cor = TRUE是使用相关系数矩阵计算

当cor = FALSE是使用协方差矩阵计算

用相关系数矩阵计算就相当于先标准化,在进行主成分分析

用协方差矩阵计算就是不进行标准化

princomp是R语言默认就有的,不需要用别的包,用别的包参数设置原理也应该相同的。