2021-06-29 4、Seurat多组样本数据合并

Python011

2021-06-29 4、Seurat多组样本数据合并,第1张

参考原文 https://www.jianshu.com/p/29bccd5178db

scRNA数据校正批次效应的算法有很多:MNN, CCA+MNN, Harmony, Scanorama, scMerge等,本文推荐发表在Cell上的CCA+MNN方法,通过Seurat包就可以实现。Seurat数据整合功能简介Seurat早期版本整合数据的核心算法是CCA,文章发表在2018年的nature biotechnology,作者是Seurat的开发者Andrew Butler。同年Haghverdi等人开发了MNN算法校正批次效应,文章也发表在了nature biotechnology。2019年Andrew等人将CCA与MNN算法结合起来,并参考SNN算法的理念设计了“锚点”评分体系,使Seurat整合数据更强大更稳健。它不仅可以校正实验的批次效应,还能跨平台整合数据,例如将10x单细胞数据、BD单细胞数据和SMART单细胞数据整合在一起;也能整合单细胞多组学数据,例如将单细胞ATAC、空间转录组与单细胞转录组数据整合在一起。

1、使用CCA分析将两个数据集降维到同一个低维空间,因为CCA降维之后的空间距离不是相似性而是相关性,所以相同类型与状态的细胞可以克服技术偏倚重叠在一起。

2、CCA降维之后细胞在低维空间有了可以度量的“距离”,MNN(mutual nearest neighbor)算法以此找到两个数据集之间互相“距离”最近的细胞,Seurat将这些相互最近邻细胞称为“锚点细胞”。

深究技术细节的朋友可以参阅原文:Tim S, Andrew Butler, Paul Hoffman , et al. Comprehensive integration of single cell data[J].Cell,2019.获取数据集

本专题的数据来自Immune Landscape of Viral- and Carcinogen-Driven Head and Neck Cancer,数据集GEO编号:GSE139324。

相关分析是研究两两变量间关系的方法,在现实生活中,变量间的关系往往更加复杂。比如,要考察多个变量与多个变量(即两组变量)之间的相关性,该如何分析呢?如果用普通的相关分析,不仅费时费力,也无法很好的解释结果,面对这样的数据最好的方法是使用典型相关分析。

典型相关分析(CCA) 用于研究一组X与一组Y数据之间的相关关系情况。它是借助主成分分析思想,从两组变量中提取出一个或少数几个综合变量(即典型变量),从而将对两组变量关系集中到少数几对典型变量间的关系之上。

从步骤上讲:典型相关分析共分为三个步骤。

第一步:提取出典型相关变量【非常重要】

第二步:寻找典型变量与研究变量之间的关系表达式,以及典型变量与研究变量间的关系情况

第三步:典型冗余分析

下面通过一个案例让大家对典型相关有更为直观的认识。

(1)背景

为研究运动员体力和运动能力之间的相关关系情况。共收集38个学生样本进行分析。测试数据包括体力指标共7项(反复横向跳、纵跳、背力、握力、台阶试验指数、立定体前屈、俯卧向体后仰);运动能力指标共5项(50米跑时间、跳远、投球、引体向上、耐力跑)。

从上述背景来看,X共由7项表示,Y由5项表示。若是研究X和Y这两组指标之间的相关关系情况,不能通过常规的相关分析直接研究,因而使用典型相关分析进行研究。

(2)操作步骤

分析时如有需要可保存典型变量,用于后续研究。

(3)结果分析

SPSSAU共输出4个表格:表格1用于典型变量表述典型变量之间的相关关系情况;表格2和表格3用于展示典型变量与研究变量间的数学表达式关系和相关有关系;表格4可用于典型冗余分析。

①典型相关系数及显著性结果

表1展现的是典型变量的提取情况,上表中共显示共有5个典型变量被提取,经过显著性检验,有2个典型变量呈现出显著性(P<0.01),因此,最终以两个典型变量为准进行后续研究。

典型变量是成对出现的,也就是说,这两个典型变量事实上分为典型变量X1和典型变量Y1;典型变量X2和典型变量Y2。

对呈现出显著性的典型相关变量间的相关系数值进行分析,第一对典型变量的相关系数值为0.763,第二对典型变量为0.706,相关系数值较高,说明典型变量之间有着紧密的正向相关关系。

②典型系数和典型载荷系数(X)

表2展现的是典型变量X与原始X组分析项间的关系情况。 典型系数 用于构建典型变量与X组指标的模型公式; 典型载荷系数 用于具体了解典型变量与X组7项指标之间的相关性。

由于表1中已经得出只有典型相关变量X1,X2通过显著性检验,此时重点关注各指标与典型变量X1,X2的相关情况即可。典型载荷系数绝对值越大说明该项与典型变量之间的相关关系越强:

典型变量X1与X组7项的相关系数(载荷系数)值分别是:-0.598,-0.751,-0.316,-0.380,-0.296,-0.306,-0.277。

典型变量X2与X组7项的相关系数(载荷系数)值分别是:0.311,-0.510,-0.118,0.039,0.773,-0.060,-0.163。

用示意图来表达,如下图所示:

明显的,典型变量与X1(反向横向跳),X2(纵跳)的关系很强,即典型变量更多地提取反向横向跳、纵跳这两项的信息。

典型变量与X2(纵跳),X5(台阶试验指数)的关系很强,即典型变量更多地提取纵跳、台阶试验指数这两项的信息。

③典型系数和典型载荷系数(Y)

同样步骤,分析典型变量y与原始y组分析项间的关系情况。典型变量Y1与原始变量Y1(50米跑时间),Y2(跳远),Y3(投球),Y4(引体向上)的关系很强,载荷系数绝对值均大于0.5,即 典型变量更多地提取50米跑时间、跳远、投球、引体向上这4项的信息。

典型变量与Y2(跳远)的关系很强,载荷系数绝对值为0.446,即典型变量更多地提取Y2(跳远)的信息。

用示意图表达,即如下图所示:

④典型冗余分析

表4为典型冗余分析,即了解典型变量对于研究数据的信息提取量情况。上表格展示5个典型变量分别对于X组或者Y组指标的信息提取情况;比如上表中典型变量X1可提取出X组7个指标20.325%的信息量,典型变量X1可提取出Y组5个指标11.826%的信息量。

从上表可以看出:典型变量X1和典型变量X2对于X组7项指标的信息提取量分别是20.325%和14.293%,共计34.62%;以及典型变量Y1和和典型变量Y2对于Y组5项指标的信息提取量分别是46.751%和7.760%,共计54.51%。

(4)分析总结

分析到此,大致可以总结得出: X组与Y组进行典型相关分析,总共提取出两个典型变量对。

典型变量对1更多地提取反向横向跳、纵跳这两项的信息;典型变量对2更多地提取纵跳、台阶试验指数这两项的信息;典型变量对1更多地提取50米跑时间、跳远、投球、引体向上这4项的信息;典型变量对2更多地提取跳远的信息。

除此之外,典型变量对1之间的相关系数值为0.763,并且典型变量对2之间的相关系数值为0.703,典型变量相关系数值均高于0.7,意味着X组7项指标与Y组5项指标之间有着非常紧密的正向相关关系。

最终分析情况可归纳为如下两图:

登录 SPSSAU官网 体验在线数据分析 ​​​​