用R语言对vcf文件进行数据挖掘.3 从vcf文件里提取有用信息

Python012

用R语言对vcf文件进行数据挖掘.3 从vcf文件里提取有用信息,第1张

目录

一般的VCF文件都很大,用手动提取里面的信息肯定不大现实。用 vcfR 就可以轻松实现。

vcfR 自带测试文件 vcfR_test 。就用这个文件来操作一下吧。

在分区 Genotype 里,通过观察 FORMAT 列可以看到一共有四种类型的数据 GT:GQ:DP:HQ ,至于这四种类型的数据个各自代表什么意思大家可以查阅知乎百度谷歌。我们可以提取出我们想要的数据类型。比方说最重要的 GT (genotype)。

同样,我们也可以提取例如 DP (测序深度Read Depth)的数字矩阵。

值的注意的是这里用到了参数 as.numeric = TRUE 使得数据自动转换成了数字。但是并不是对所有类型的数据都有效,比方说我们重复一下提取 gt 。

在没有任何报错的情况下 gt 变成了一堆毫无意义的数字,很明显不合理,不要用这些经过错误转换的数据进行下一步分析,比方说喜闻乐见的主成分分析。

在一些类型的数据里可能会出现一个以上的结果,比方说上面的 HQ 数据。

一般情况下我们只需要每一列的第一个数字

不需要samtools之类的软件我们也可以实现vcf数据读取自由,关键是可以直接写入内存进行下一步的统计分析和数据可视化,个人感觉是很有效的提高了生产力。值得花时间学习一下这个工具。

如果这个函数本身返回的东西是一个list,那我们可以用$符号来提取,举例如下:

sum_and_mean = function(a,b){

sum = a+b

mean = (a+b)/2

return(list(sum = sum, mean = mean))

}

# 当我们call这个function的时候

sum_and_mean(2,4)$sum # 结果等于6

sum_and_mean(2,4)$mean # 结果等于3希望对你有帮助!

1、分析数据表:通过浏览“入库明细”表,我们可能看到入库明细表中,作为提取记录的条件零件号在A列。

需要提取的记录,入库日期在H列、入库单号在O列、最后生产批号在L列、入库前库存数在Q列。为DC000496ZL的记录有5条(截图中的4条是指上面有4条)。

2、列出提取条件及项目:在sheet1中,将A列放置提取条件(即零件号)。在B、C、D、E列分别写上提取项目名称:入库日期、入库单号、最后生产批号、入库前库存数。

3、写公式:在最后入库日期项目下B2中输入公式:=MAX((入库明细!$A$2:$A$26=$A2)*(入库明细!$H$2:$H$26)),这是一个数组公式,请用三键确认(ctrl+shift+enter)。

搜索

免费自学excel教程全套

excel另一列数据提取

自动抓取数据excel表

表格技巧大全

excel100个常用技巧

新手怎么做财务报表