2020-09-02-R语言绘制PCA图

2023-02-25 18:36:01Python022

2020-09-02-R语言绘制PCA图,第1张

1、首先数据均一化

2、

#载入一个CSV文件，header=TRUE保证表头不被当成表格数据，sep=","用逗号把数据分开

mydata<-read.table("abc.csv",header=TRUE,sep=",")

library(ggplot2)

sample.groups<- c(rep(1, 124), rep(2, 54), rep(3, 199))

#把X那一列分成3组，rep(1,124)的意思是124个1，rep(2,54)的意思是54个2，这些都是按照X列的数字设定的，便于将A组的数据分成不同组。

qplot(x=PC1,y=PC2, data=mydata,colour=factor(sample.groups))+theme(legend.position="none")+stat_ellipse(lwd=1)

#x=PC1,y=PC2的意思是设定x,y轴为PC1和PC2那两列。colour=factor(sample.groups)设定3组不同颜色。theme(legend.position="none")是把图例去掉。stat_ellipse(lwd=1)是将不同组的点加上椭圆，lwd=1设定椭圆圈的粗度为1

3、高级选项

给图中的每个点添加标签

library(ggrepel)

#图上显示每个点的标签（标签的名称是A列）

label=mydata$A

#60-141行的标签为空格

label[60:141]=""

qplot(x=PC1,y=PC2, data=mydata,colour=factor(sample.groups))+theme(legend.position="none")+stat_ellipse(lwd=1)+geom_text_repel(label=label)

主成分分析(Principal Components Analysis，PCA) ，也称主分量分析或主成分回归分析法，是一种无监督的数据降维方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。这种降维的思想首先减少数据集的维数，同时还保持数据集的对方差贡献最大的特征，最终使数据直观呈现在二维坐标系。

直观上，第一主成分轴优于第二主成分轴，具有最大可分性。

主坐标分析（Principal Coordinates Analysis，PCoA），即经典多维标度（Classical multidimensional scaling），用于研究数据间的相似性。

主成分分析（Principal components analysis，PCA）是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分（Principal Components）。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向（如图）。PCA对原始数据的正则化或预处理敏感（相对缩放）。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下，这种运算可以被看作是揭露数据的内部结构，从而更好的解释数据的变量的方法。

主坐标分析（Principal Coordinates Analysis，PCoA），即经典多维标度（Classical multidimensional scaling），用于研究数据间的相似性。PCoA与PCA都是降低数据维度的方法，但是差异在在于PCA是基于原始矩阵，而PCoA是基于通过原始矩阵计算出的距离矩阵。因此，PCA是尽力保留数据中的变异让点的位置不改动，而PCoA是尽力保证原本的距离关系不发生改变，也就是使得原始数据间点的距离与投影中即结果中各点之间的距离尽可能相关（如图）。

R中有很多包都提供了PCA和PCoA,比如常用的ade4包。本文将基于该包进行PCA和PCoA的分析，数据是自带的deug，该数据提供了104个学生9门课程的成绩（见截图）和综合评定。综合评定有以下几个等级：A+,A,B,B-,C-,D。

让我们通过PCA和PCoA来看一看这样的综合评定是否合理，是否确实依据这9门课把这104个学生合理分配到不同组（每个等级一个组）。

前文已经介绍了PCA是基于原始数据，所以直接进行PCA分析即可。相信大家都比较熟悉散点图的绘制方法，这里不再细讲，PCA分析完毕后我们直接作图展示结果。

整体看起来还不错，就是B-和C-的学生似乎难以区分。

有时候PCA和PCoA的结果差不多，有时候某种方法能够把样本有效分开而另一种可能效果不佳，这些都要看样本数据的特性。

除转录组研究以外，在16S微生物的研究中我们会根据物种丰度的文件对数据进行PCA或者PCoA分析，也是我们所说的β多样性分析。根据PCA或者PCoA的结果看感染组和对照组能否分开，以了解微生物组的总体变化情况。

β多样性分析的概念

Beta多样性指的是样本间多样性。在肠道菌群分析中，Beta多样性是衡量个体间微生物组成相似性的一个指标。通过计算样本间距离可以获得β多样性计算矩阵，后续一般会利用PCoA、进化树聚类等分析对此数值关系进行图形展示。主要基于OTU的群落比较方法，有欧式距离、bray curtis距离、Jaccard 距离，这些方法优势在于算法简单，考虑物种丰度（有无）和均度（相对丰度），但其没有考虑OTUs之间的进化关系，认为OTU之间不存在进化上的联系，每个OTU间的关系平等。另一种算法Unifrac距离法，是根据系统发生树进行比较，并根据16s的序列信息对OTU进行进化树分类，一般有加权和非加权分析。

QIIME2中重要的Beta多样性指数：

Jaccard距离：群落差异的定性度量，即只考虑种类，不考虑丰度。

Bray-Curtis距离：群落差异的定量度量，较常用。

Unweighted UniFrac距离：包含特征之间的系统发育关系的群落差异定性度量。

Weighted UniFrac距离：包含特征之间的系统发育关系的群落差异定量度量。

解压缩通过qiime2输出的 .qza文件，获得绘图的matrix和pcoa结果文件

将pcoa结果整理成下表，保存为 ***_site.txt

注意没有legend，需要AI加入。

后期需要继续摸索，其实可以加legend的，只是目前自己的技术做不到。。。

PCA思想解析：

https://www.jianshu.com/p/09bae5cbdc53

数据距离多样性方法群落