用R语言对vcf文件进行数据挖掘.5 vcf可视化1

Python022

用R语言对vcf文件进行数据挖掘.5 vcf可视化1,第1张

目录

本文介绍的案例和方法简介里一样,但是会有更加详细的说明。

和之前一样使用 pinfsc50 包里的数据。vcf数据,参考序列的fasta数据,还有gff格式的注释数据。

然后蹦出来一段警告文

create.chromR 这个函数会自动确认刚才提到的三个文件里的染色体名字是否对的上。这个例子里染色体名用到了Supercontig,貌似有些不匹配,所以跳出了警告文。这里可以进行可视化,确认没有问题的话可以进行下一步。

在此我们根据前面文章里的内容直接对数据进行过滤,然后可视化。

可以发现Variants per Site和Nucleotide Content发生了变化。

这个包还可以快速可视化vcf文件。

可以看出DP,MQ都趋向于正规分布。最后的每个窗口的variant count的主峰在0表示这个基因大多是纯合体,只有少部分有变异。

通过动手练习我们已经掌握了如何导入vcf文件的数据,然后进行可视化诊断,接下来的文章里会介绍更多的其他用法。

一般来详说做数据分析挖掘每种编程语言基本都能做。

做分析方面

R语言

是强项。

数据可视化

是Matlab。

但是挖数据要做爬虫,这个又会用到Java和Python

Python是个全能,在分析方面有Numpy,Scipy等

数据分析库

,又有很多爬虫库,还有matplotlib的库...