【R语言编程】---利用三代测序绘制菌群聚类热图与物种丰度图

Python016

【R语言编程】---利用三代测序绘制菌群聚类热图与物种丰度图,第1张

前言: 仍然是三代测序数据的分析,宏基因组的文章中经常出现聚类热图和物种丰度图,用来直观地识别与某些疾病或者表型相关的菌群构成。

1.读取数据

一共有11个样本,每一个样本的测序reads都经过Nanopore官方的Epi2Me程序鉴定了物种,下表中第一列是被鉴定的菌种,第二列是该样本中每个物种产生的reads数目。

首先导入到R语言中,合并所有样本到一个数据框:

2.绘制热图

经过上一步,我们得到了列名为样本,行名为菌种的reads数据框,然后就可以绘制热图,进行聚类分析了:

绘制结果:

3.绘制物种丰度图

丰度图,其实就是堆积图,把每个样本的reads数目转换为百分数,然后作图就可以了:

绘制结果:

分给我。

SPSS主要是用来统计分析数据的,EXCEL主要用来整理数据并作简单的统计分析,SQL主要是一种数据集的查询机制。SPSS界面友好,使用简单,但是功能很强大,也可以编程,能解决绝大部分统计学问题,适合初学者。EXCEL能做一些简单直观的统计分析,如果已经安装宏的话还能做一些数值分析,也很实用。个人认为些都是数据处理应用的软件,其中excel界面最为友好,但功能是在太过单一,仅适用于日常的简单数据处理,不适于较复杂的模型分析,因此科研上应用不多;spss有比较强的专业性,另外spss也采用图形界面,但spss的主要缺点是数据输出,不能用word等文字处理工具直接打开。Excel在数据分析中最为基础,最易掌握,图形工具强大和完善,但不适宜大型统计分析;SPSS软件为专门为统计而开发的软件,一般用于大型统计,而对于图形工具上不太全面,不易掌握。但二者常常兼用互补。EXCEL是最常用的既可以处理文字信息如数据透视表也可以整理数据信息如:进行方差分析、回归等等在日常生活中使用最多,而SPSS是一个在数据处理如:方差分析等待比较专业的一个软件。非专业人使用较少。绝大部分问题EXCEL均可以解决。SQL是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统,可以使用相同的SQL语言作为数据输入与管理的SQL接口。

基因测序分析微生物菌群结构 NA是什么意思

微生物群落测序是指对微生物群体进行高通量测序,通过分析测序序列的构成分析特定环境中微生物群体的构成情况或基因的组成以及功能。借助不同环境下微生物群落的构成差异分析我们可以分析微生物与环境因素或宿主之间的关系,寻找标志性菌群或特定功能的基因。对微生物群落进行测序包括两类,一类是通过16s rDNA,18s rDNA,ITS区域进行扩增测序分析微生物的群体构成和多样性;还有一类是宏基因组测序,是不经过分离培养微生物,而对所有微生物DNA进行测序,从而分析微生物群落构成,基因构成,挖掘有应用价值的基因资源。以16s rDNA扩增进行测序分析主要用于微生物群落多样性和构成的分析,目前的生物信息学分析也可以基于16s rDNA的测序对微生物群落的基因构成和代谢途径进行预测分析,大大拓展了我们对于环境微生物的微生态认知。目前我们根据16s的测序数据可以将微生物群落分类到种(species)(一般只能对部分菌进行种的鉴定),甚至对亚种级别进行分析,几个概念:16S rDNA(或16S rRNA):16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。16S rRNA基因序列包括9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。16S rRNA基因测序以细菌16S rRNA基因测序为主,核心是研究样品中的物种分类、物种丰度以及系统进化。OTU:operational taxonomic units (OTUs)在微生物的免培养分析中经常用到,通过提取样品的总基因组DNA,利用16S rRNA或ITS的通用引物进行PCR扩增,通过测序以后就可以分析样品中的微生物多样性,那怎么区分这些不同的序列呢,这个时候就需要引入operational taxonomic units,一般情况下,如果序列之间,比如不同的 16S rRNA序列的相似性高于97%就可以把它定义为一个OTU,每个OTU对应于一个不同的16S rRNA序列,也就是每个OTU对应于一个不同的细菌(微生物)种。通过OTU分析,就可以知道样品中的微生物多样性和不同微生物的丰度。测序区段:由于16s rDNA较长(1.5kb),我们只能对其中经常变化的区域也就是可变区进行测序。16s rDNA包含有9个可变区,分别是v1-v9。一般我们对v3-v4双可变区域进行扩增和测序,也有对v1-v3区进行扩增测序。