用R语言对vcf文件进行数据挖掘.2 方法简介

Python0634

用R语言对vcf文件进行数据挖掘.2 方法简介,第1张

目录

vcfR 可以直接读取vcf格式的数据。如果同时读取参照序列fasta格式的序列文件和gff格式文件的注释文件还可以获取更完整的信息(此步骤并非必须,可以只读取vcf数据)。在此处便于重复用到了 pinfsc50 包。这个包里是植物致病微生物的基因序列测序结果。包含了一个vcf文件,一个fasta文件和一个gff文件。

这里用到参照序列的数据。

当这些数据被读取到内存的时候就可以开始对染色体名字或者其它一些东西进行修改了。由于 vcfR 更擅长对的单独染色体进行分析,所以当你的基因过大或者有很多样本的时候,建议对数据进行拆分。

读取完数据以后就可以建立 chromR ,来对数据进行详细的分析。

首先对数据进行初步的可视化,

我们在上面的图里得到很多信息,比方说测序深度(DP)的峰在500,但是拖着尾巴,这个尾巴表示数据里包含着CNV信息。然后比对质量(MQ)的峰值在60,于是我们可以以60为中心对数据进行过滤。

使用 masker 可以对数据进行过滤标记。然后可视化过滤以后的数据。

是不是顺眼多了。当然我们也可以看一下SNP的分布情况。注意右下角的图。

用 chromoqc() 可以对数据进行更完整的可视化。包括外显子内含子的分布,GC含量的分布等等。

最后可以用函数 write.vcf() 把数据输出成新的vcf文件。

1.R语言常用在数据统计分析、数据绘图和数据挖掘,是一种编程语言和操作环境。

2.R语言可以下载源代码进行使用,甚至已经编译的可执行文件也能直接下载使用。

3.R语言不只局限于一个平台,可以在常见的Windows系统、MACOS中运行使用,也可以在freeBSD和Linux中运行。

4.R语言可以利用用户编写的包增强,添加R语言中的统计、绘图和IN/OUT功能,可以在经济计量、人文统计中使用。

5.R语言的优势如下:R语言是编程小白的入门语言,语法结构较为简单,而且容易学习,特别是工作中要使用绘图、统计时,学习R语言会非常有优势。

6.R语言是开源软件,是免费的,学习时能大大减少成本。

7.在R语言的内部,有完善的帮助系统,学习中可以根据实例进行查漏补缺。

8.R语言是命令行操作方式,在使用中会更加的灵活,适合初学者入门学习,在数据分析和内容编程中有更好的体验。

9.R语言的安装包仅为40M,相比其他的语言可以说非常的小了。

10.R语言在世界范围的使用率非常广,在职业的规划中R语言很有帮助。