用R语言对vcf文件进行数据挖掘.2 方法简介

Python07

用R语言对vcf文件进行数据挖掘.2 方法简介,第1张

目录

vcfR 可以直接读取vcf格式的数据。如果同时读取参照序列fasta格式的序列文件和gff格式文件的注释文件还可以获取更完整的信息(此步骤并非必须,可以只读取vcf数据)。在此处便于重复用到了 pinfsc50 包。这个包里是植物致病微生物的基因序列测序结果。包含了一个vcf文件,一个fasta文件和一个gff文件。

这里用到参照序列的数据。

当这些数据被读取到内存的时候就可以开始对染色体名字或者其它一些东西进行修改了。由于 vcfR 更擅长对的单独染色体进行分析,所以当你的基因过大或者有很多样本的时候,建议对数据进行拆分。

读取完数据以后就可以建立 chromR ,来对数据进行详细的分析。

首先对数据进行初步的可视化,

我们在上面的图里得到很多信息,比方说测序深度(DP)的峰在500,但是拖着尾巴,这个尾巴表示数据里包含着CNV信息。然后比对质量(MQ)的峰值在60,于是我们可以以60为中心对数据进行过滤。

使用 masker 可以对数据进行过滤标记。然后可视化过滤以后的数据。

是不是顺眼多了。当然我们也可以看一下SNP的分布情况。注意右下角的图。

用 chromoqc() 可以对数据进行更完整的可视化。包括外显子内含子的分布,GC含量的分布等等。

最后可以用函数 write.vcf() 把数据输出成新的vcf文件。

在 scater R包里,有个函数 plotHighestExprs ,可自动根据SingleCellExperiment对象数据进行绘制。但有个缺点就是太慢了,具体操作如下

具体可分为三种情况

最主要的原始是,不同细胞的文库大小可能因测序过程存在差异。通过标准化,可使基因在不同细胞的表达情况具有可比性。

上述两步也可合并成一步,但可能跳的有点多,关键理解如下示例的第三步的除法:

(1)R语言的计算是向量化的;例如可以进行向量间加减乘除运算,具体规则,自己尝试下理解更深刻;

(2)应用到矩阵时,可以理解为一行代表向量的一个元素。

如下图,结果与我们上面计算的有点不同;

查看 NormalizeData 帮助文档可知,其默认方法是计算每个细胞中基因表达量与文库的比值,然后乘一个size.factor(一般是10000),最后进行log转换(加1,避免0以及零点几的无意义结果 log1p )

参考文章

https://nbisweden.github.io/workshop-scRNAseq/labs/compiled/seurat/seurat_01_qc.html

1、Office Professional Plus 2010:

6QFDX-PYH2G-PPYFD-C7RJM-BBKQ8

BDD3G-XM7FB-BD2HM-YK63V-VQFDK

2、Office Professional Plus 2010:(VL)

MKCGC-FBXRX-BMJX6-F3Q8C-2QC6P

VYBBJ-TRJPB-QFQRF-QFT4D-H3GVB

3、SharePoint Server 2010:(Enterprise)

6VCWT-QBQVD-HG7KD-8BW8C-PBX7T

4、SharePoint Server 2010:(Standard)

HQ937-PP69X-8K3KR-VYY2F-RPHB3

不过我个人感觉2007更好用、更漂亮,2010有太多华而不实的功能,而且太慢了。