10X单细胞(10X空间转录组)聚类算法之Louvain

Python08

10X单细胞(10X空间转录组)聚类算法之Louvain,第1张

社会网络(social network)是是由许多节点构成的一种社会结构,节点通常是指个人或组织,社会网络代表各种社会关系,社会网络关注的是人们之间的互动和联系,社会互动会影响人们的社会行为。对于社交网络的分析和研究范围很广,例如在社交网络中社区发现、基于好友关系为用户推荐商品或内容、社交网络中人物影响力的计算、信息在社交网络上的传播模型、虚假信息和机器人账号的识别、基于社交网络信息对股市、大选以及互联网金融行业中的反欺诈预测等。

现实生活中存在各种各样的社会网络,比如人际关系网、交易网、交通运输网等,对这些网络进行社区发现(community detection)具有极大的意义,如在微博构成的人际关系网络中,可以发现出具有不同兴趣爱好、背景的社会团体,方便进行不同的宣传策略和投放不同的广告;在以淘宝为代表的交易网中,不同的社区代表不同购买力的客户群体,社区发现可以方便运营为这些社区推荐合适的商品。

在社交网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏,在这样的的网络中,连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏,这便称为社团结构。

Louvain算法来自于Vincent等人发表的文章《Fast unfolding of communities in large networks》,是基于模块度(modularity)进行社区发现,该算法的优点在于速度快,可以在较短时间内实现大规模网络以不同粒度的社区划分( 这个就对应我们的Seurat的聚类参数resolution ),并且无需指定社区的数量,当模块度不再增益时候,迭代便自动停止。

Louvain算法处理大量数据的结果示例

算法简介

Newman等人在文章《Finding and evaluating community structure in networks》中提出了模块度(modularity)的概念,用来衡量社区划分的好坏。简单讲,如果一个社区划分算法能将连接比较稠密的点划分在一个社区中,而社区之间的连接比较稀疏,这样划分得到的网络模块度的值就会比较大,模块度越大的社区划分算法性能越好。

——模块度的计算

——模块度简单实现

模块度的值在[-1,1]之间,若所有的节点都被划分到一个社区内部,则此时模块度为1,若所有的节点各自为一个社区,则模块度为-1, 文章说当模块度的值在0.3~0.7之间则说明社区划分算法的效果很好 ,Louvain算法的优化目标为最大化整个数据的模块度。

——louvain算法的两个阶段

——模块度增量

——计算模块度

——计算模块度增量

——社区聚合

算法实现

算法测试

——数据导入

——测试结果

根据louvain算法结果,一共将数据“polbooks.gml”划分成4个社区,划分后网络的模块度为0.52,在0.3~0.7之间,可见划分结果还是比较优良。

实例运用

《权力的游戏》,是美国HBO电视网制作推出的一部中世纪史诗奇幻题材的电视剧。该剧改编自美国作家乔治·R·R·马丁的奇幻小说《冰与火之歌》系列。16年数学家 Andrew Beveridge和Jie Shan分析了小说《冰与火之歌》第三部《冰雨的风暴》中人物关系。在文章中介绍了如何通过文本分析和实体提取构建人物关系的网络,并使用社交网络分析算法对人物关系网络分析找出最重要的角色,最后应用社区发现算法来找到人物聚类。其中可视化是利用igraph实现,社区发现则是利用igraph中实现的walktrap方法。划分结果:

7 大子网络阵营

在这里,本文利用权利的游戏中角色之间的联系紧密产能度收集到的数据集,内含两个角色的名字和相互之间对应的权重,利这个数据进行简单的可视化工作,并且将louvain算法运用到上面,进行社区发现并且将划分的子网络通过网络图中不同的色彩标示出来。

实例运用

数据获取

——NetworkX

是用Python语言开发的图论与复杂网络建模工具,内置常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作;支持创建无向图、有向图和多重图;

示例:

——community

是使用louvain方法进行社区发现的模块,在安装库的时候注意使用“pip install python-louvain”进行安装。

示例:

实例运用

数据可视化

实例运用

调用Louvain算法

——算法调用及划分结果局部展示

——划分后的模块度

前面我们说过当模块度的值为0.3-0.7则表示社区划分的效果比较好,可见这里的划分结果为0.5999说明划分效果很好。

实例运用

社区发现结果可视化

看过《权游》的人应该知道Cersei(瑟后)、Tyrion(小指头)和Jamie(弑君者)三人是姐弟关系,其他人物例如Aerys(疯王)、Tywin(瑟后他爹)、Oberyn(红毒蛇)、Gregor(魔山),这些都是以Cersei为中心的人物关系,而我们的社区发现算法也成功的将他们划分到了一个社区里面,可见louvain算法不仅速度快,而且划分的准确性也比较高。

生活很好,有你更好

单细胞测序可以检测一块组织中每个细胞的转录组情况,但其实一块组织中存在着不同发育状态的细胞,因此通过基因的表达情况我们可以了解一些细胞的发育状况和细胞转化的过程,目前为止做拟时序的软件就有monocle,velocity 等等,在这里我们对目前比较主流的进行测试,后期有发现了好用的软件也会持续进行更新。

测试1:monocle2:Monocle 2然后在自动选择的一组数据质心上构造一棵生成树(DDRTree算法)。然后,该算法将细胞移动到它们最近的树的顶点,更新顶点的位置以适应细胞,学习新的生成树,并迭代地继续这个过程,直到树和细胞的位置已经收敛。在这个过程中,Monocle 2保持了高维空间和低维空间之间的可逆映射,从而既学习了轨迹,又降低了数据的维数。官网学习地址 Monocle (cole-trapnell-lab.github.io)

测试2:monocle3:官网推荐的版本,相比于DDRTree算法,UMAP算法进行轨迹推断可能会更直观,算法上也进行了优化,Monocle3正式继承了Monocle2中迭代的灵魂算法,并舍弃了其中被诟病的轨迹图生成部分,引入了以PAGA为蓝本的基于图谱的轨迹推断流程,相比于2,速度和内存消耗都感人了很多,官网学习地址 Monocle (cole-trapnell-lab.github.io)

测试3 :velocity.R:刚转录的mRNA含有内含子与外显子,经过剪切后可形成成熟的mRNA,这个方法就是通过细胞中含有的前体RNA和成熟RNA的含量来预测谱系发生的方向的。

测试4:scvelo:感觉比在R里边操作,顺畅了很多, RNA Velocity Basics — scVelo 0.2.5.dev6+g1805ab4.d20210829 documentation

测试5 scanpy :PAGA是一种基于图形的分析方法,先通过 Louvain algorithm算法对细胞进行降维,生成低纬度的聚类图,基于聚类图进一步分析不同细胞类群之间的关系。官网教程如下 Trajectory inference for hematopoiesis in mouse — Scanpy documentation (scanpy-tutorials.readthedocs.io)

测试1:monocle2

monocle2安装,BiocManager真的好用,能用BiocManager安装的建议用BiocManager安装

1 加载包

2 读入Seurat数据,本次用的是上次Seurat分析的数据,但是monocle的计算速度太令人绝望了,所以一直在各种subset,subset完还剩17000+ cells,还是很占用计算资源。

3 将Seurat对象转为monocle对象

4 数据均一化,这一步挺慢的

5 过滤基因

6 选择高变基因,这一步比较关键,算法也比较多,不同的算法可能会导致不同的结果,大家可以了解其原理,选择适合自己的算法

7 降维分析,细胞排序

8差异基因

9 绘制拟时序分析图

还可以选择不同

10分支点分析

选择自己感兴趣的细胞亚型和分化路径,然后可以看发生变化的基因和基因的变化趋势

这时候还可以看一下基因的变化

关于monocle2的介绍就先到这里把,这个真的是太耗cpu了

Monocle3

软件安装,有些包如果安装了,就可不必重新安装,如果过程中遇到报错,缺啥补啥,总的来说,没有yum权限,装的痛苦无比。

1加载包

2 读入Seurat的数据,为了增加分析速度,还是单挑出来一个样本进行分析,monocle3的分析速度真的是比2感人很多.....

3 生成monocle格式的数据,并进行均一化,降维分析

4 细胞排序

5 寻找轨迹分析差异基因

6 共表达模块分析

3安装velocyto

直接在原来的singlecell_test环境下安装

1 首先我们先加载一下包

2 接下来我们读入数据,还是使用同一套数据,为了降低运算量,我们就选择一个样本来做

3 整理数据格式

4 数据过滤

5 绘图

测试4:

使用R语言先输出需要的信息

读入数据,输出我们需要的数据

下面使用python进行分析

1 导入包

2 读入数据

3 进行数据整理

测试5

1 加载需要的包

2 读入数据并进行预处理

3 去噪

就画到这里吧,总的来说,这方面的教程比较少,理解起来和每步操作起来的逻辑还没有很顺,等有时间慢慢的再学习补充吧