2021-06-29 4、Seurat多组样本数据合并

2023-03-04 01:49:01Python011

2021-06-29 4、Seurat多组样本数据合并,第1张

参考原文 https://www.jianshu.com/p/29bccd5178db

scRNA数据校正批次效应的算法有很多：MNN, CCA+MNN, Harmony, Scanorama, scMerge等，本文推荐发表在Cell上的CCA+MNN方法，通过Seurat包就可以实现。Seurat数据整合功能简介Seurat早期版本整合数据的核心算法是CCA，文章发表在2018年的nature biotechnology，作者是Seurat的开发者Andrew Butler。同年Haghverdi等人开发了MNN算法校正批次效应，文章也发表在了nature biotechnology。2019年Andrew等人将CCA与MNN算法结合起来，并参考SNN算法的理念设计了“锚点”评分体系，使Seurat整合数据更强大更稳健。它不仅可以校正实验的批次效应，还能跨平台整合数据，例如将10x单细胞数据、BD单细胞数据和SMART单细胞数据整合在一起；也能整合单细胞多组学数据，例如将单细胞ATAC、空间转录组与单细胞转录组数据整合在一起。

1、使用CCA分析将两个数据集降维到同一个低维空间，因为CCA降维之后的空间距离不是相似性而是相关性，所以相同类型与状态的细胞可以克服技术偏倚重叠在一起。

2、CCA降维之后细胞在低维空间有了可以度量的“距离”，MNN(mutual nearest neighbor)算法以此找到两个数据集之间互相“距离”最近的细胞，Seurat将这些相互最近邻细胞称为“锚点细胞”。

深究技术细节的朋友可以参阅原文：Tim S, Andrew Butler, Paul Hoffman , et al. Comprehensive integration of single cell data[J].Cell,2019.获取数据集

本专题的数据来自Immune Landscape of Viral- and Carcinogen-Driven Head and Neck Cancer，数据集GEO编号：GSE139324。

相关分析是研究两两变量间关系的方法，在现实生活中，变量间的关系往往更加复杂。比如，要考察多个变量与多个变量（即两组变量）之间的相关性，该如何分析呢？如果用普通的相关分析，不仅费时费力，也无法很好的解释结果，面对这样的数据最好的方法是使用典型相关分析。

典型相关分析（CCA）用于研究一组X与一组Y数据之间的相关关系情况。它是借助主成分分析思想，从两组变量中提取出一个或少数几个综合变量（即典型变量），从而将对两组变量关系集中到少数几对典型变量间的关系之上。

从步骤上讲：典型相关分析共分为三个步骤。

第一步：提取出典型相关变量【非常重要】

第二步：寻找典型变量与研究变量之间的关系表达式，以及典型变量与研究变量间的关系情况

第三步：典型冗余分析

下面通过一个案例让大家对典型相关有更为直观的认识。

（1）背景

为研究运动员体力和运动能力之间的相关关系情况。共收集38个学生样本进行分析。测试数据包括体力指标共7项（反复横向跳、纵跳、背力、握力、台阶试验指数、立定体前屈、俯卧向体后仰）；运动能力指标共5项（50米跑时间、跳远、投球、引体向上、耐力跑）。

从上述背景来看，X共由7项表示，Y由5项表示。若是研究X和Y这两组指标之间的相关关系情况，不能通过常规的相关分析直接研究，因而使用典型相关分析进行研究。

（2）操作步骤

分析时如有需要可保存典型变量，用于后续研究。

（3）结果分析

SPSSAU共输出4个表格：表格1用于典型变量表述典型变量之间的相关关系情况；表格2和表格3用于展示典型变量与研究变量间的数学表达式关系和相关有关系；表格4可用于典型冗余分析。

①典型相关系数及显著性结果

表1展现的是典型变量的提取情况，上表中共显示共有5个典型变量被提取，经过显著性检验，有2个典型变量呈现出显著性（P<0.01），因此，最终以两个典型变量为准进行后续研究。

典型变量是成对出现的，也就是说，这两个典型变量事实上分为典型变量X1和典型变量Y1；典型变量X2和典型变量Y2。

对呈现出显著性的典型相关变量间的相关系数值进行分析，第一对典型变量的相关系数值为0.763，第二对典型变量为0.706，相关系数值较高，说明典型变量之间有着紧密的正向相关关系。

②典型系数和典型载荷系数(X)

表2展现的是典型变量X与原始X组分析项间的关系情况。典型系数用于构建典型变量与X组指标的模型公式；典型载荷系数用于具体了解典型变量与X组7项指标之间的相关性。

由于表1中已经得出只有典型相关变量X1，X2通过显著性检验，此时重点关注各指标与典型变量X1，X2的相关情况即可。典型载荷系数绝对值越大说明该项与典型变量之间的相关关系越强：

典型变量X1与X组7项的相关系数（载荷系数）值分别是：-0.598，-0.751，-0.316，-0.380，-0.296，-0.306，-0.277。

典型变量X2与X组7项的相关系数（载荷系数）值分别是：0.311，-0.510，-0.118，0.039，0.773，-0.060，-0.163。

用示意图来表达，如下图所示：

明显的，典型变量与X1（反向横向跳）,X2（纵跳）的关系很强，即典型变量更多地提取反向横向跳、纵跳这两项的信息。

典型变量与X2（纵跳），X5（台阶试验指数）的关系很强，即典型变量更多地提取纵跳、台阶试验指数这两项的信息。

③典型系数和典型载荷系数(Y)

同样步骤，分析典型变量y与原始y组分析项间的关系情况。典型变量Y1与原始变量Y1（50米跑时间）,Y2（跳远）,Y3（投球）,Y4（引体向上）的关系很强，载荷系数绝对值均大于0.5，即典型变量更多地提取50米跑时间、跳远、投球、引体向上这4项的信息。

典型变量与Y2（跳远）的关系很强，载荷系数绝对值为0.446，即典型变量更多地提取Y2（跳远）的信息。

用示意图表达，即如下图所示：

④典型冗余分析

表4为典型冗余分析，即了解典型变量对于研究数据的信息提取量情况。上表格展示5个典型变量分别对于X组或者Y组指标的信息提取情况；比如上表中典型变量X1可提取出X组7个指标20.325%的信息量，典型变量X1可提取出Y组5个指标11.826%的信息量。

从上表可以看出：典型变量X1和典型变量X2对于X组7项指标的信息提取量分别是20.325%和14.293%，共计34.62%；以及典型变量Y1和和典型变量Y2对于Y组5项指标的信息提取量分别是46.751%和7.760%，共计54.51%。

（4）分析总结

分析到此，大致可以总结得出： X组与Y组进行典型相关分析，总共提取出两个典型变量对。

典型变量对1更多地提取反向横向跳、纵跳这两项的信息；典型变量对2更多地提取纵跳、台阶试验指数这两项的信息；典型变量对1更多地提取50米跑时间、跳远、投球、引体向上这4项的信息；典型变量对2更多地提取跳远的信息。

除此之外，典型变量对1之间的相关系数值为0.763，并且典型变量对2之间的相关系数值为0.703，典型变量相关系数值均高于0.7，意味着X组7项指标与Y组5项指标之间有着非常紧密的正向相关关系。

最终分析情况可归纳为如下两图：

变量典型系数关系数据

# 上一篇：家里两台电脑怎么连局域网？

# 下一篇：买wii的问题111

推荐阅读

热门文章

最新发布

标签列表

2021-06-29 4、Seurat多组样本数据合并

给您推荐相同类型的内容：