r语言取5的倍数

2023-05-01 23:59:01Python056

r语言取5的倍数,第1张

25。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。而在R语言中语句输出所有不大于25就是5的倍数的正数的。

vcf数据包含了所有的等位对立基因的信息，这样就可以帮助我们判断染色体的倍数。比方说有一个位点的碱基是A/T，测序覆盖率为20, 如果这个物种是二倍体，那么A,T的出现概率就是(50%)，会各自出现10次，如果是3倍体，那么A会出现13次，T会出现7次，当然也有可能相反。当把所有的点位集合在一起的时候，我们就可以判断这个物种的倍数体了。

用包里的自带数据，有疑问的小盆友可以查阅之前的文章，这里就不做赘述了。

高通量数据测序可以保证每一个位点都经过很多次的读取，这样就相当于每一个等位基因都被测序过了差不多相等的次数。假设我们对一个二倍杂合体进行了覆盖率为30的测序，那么每一条染色体都被测了15次。当然真实情况不可能正好是这个数字，毕竟测序的时候会发生一定概率的错误。

假设我们用覆盖率为30给一个三倍杂合体进行测序，某基因位点为A/A/T，那么，A和T出现的期待值将是20和10。当某个基因位点的组合是A/G/C时，那么A,G,C就会各自出现10次。

FORAMT里的AD表示对立基因的各自出现的次数。所以我们可以提取AD数据。

一般的SNP Caller都会默认双倍体检验，也就是出现两种对立基因型。所以可以计算每种基因的出现概率。

然后用直方图可视化一下。

可以发现，大多数都是纯合，所以需要去掉纯合的部分。

我们发现峰值出现在了1/2，说明这个物种时二倍体，和预期的一样。

然而这里有一个小小的问题，Fequency几乎从0到1横跨整个横坐标，这个明显不合理，需要进行改善。

我们可以通过等位对立深度(AD)的信息来改善刚才提到的问题。

我们可以看到80%的数据分布在了19和75之间。然后再靠近40和60点的地方出现了两个峰，这分别代表杂合峰和纯合峰。然后整个数据还拖着一个尾巴，最长的地方超过了100，这表示部分区域包含了着非常高的拷贝数(CNVs)。此处的目的是为了可视化倍数体，所以选择100以下15%~95%的数据。

回想一下之前文章里介绍过的用箱图做可视化的内容，我们也可以通过同样的方法来确认过滤数据的效果。

看一下过滤后的结果。

果然好看很多。

最后再回到一开始，看倍数体的可视化效果。

结果明显干净易懂好多。

有同学会问，那么不是二倍体的话会出现什么样的结果呢。数据包的样本里正好有一个三倍体。

可以看到两个峰出现在了1/3，2/3处。结果和实际完美匹配。

R语言实际上是函数的集合，用户可以使用base，stats等包中的基本函数，也可以自己编写函数完成一定的功能。但是初学者往往认为编写R函数十分困难，或者难以理解。这里对如何编写R函数进行简要的介绍。函数是对一些程序语句的封装。换句话说，编写函数，可以减少人们对重复代码书写，从而让R脚本程序更为简洁，高效。同时也增加了可读性。一个函数往往完成一项特定的功能。例如，求标准差sd,求平均值，求生物多样性指数等。R数据分析，就是依靠调用各种函数来完成的。但是编写函数也不是轻而易举就能完成的，需要首先经过大量的编程训练。特别是对R中数据的类型，逻辑判别、下标、循环等内容有一定了解之后，才好开始编写函数。对于初学者来说，最好的方法就是研究现有的R函数。因为R程序包都是开源的，所有代码可见。研究现有的R函数能够使编程水平迅速提高。 R函数无需首先声明变量的类型，大部分情况下不需要进行初始化。一个完整的R函数，需要包括函数名称，函数声明，函数参数以及函数体几部分。

函数数据倍数基因对立

# 上一篇：C语言如何使用print语句

# 下一篇：js开头是什么快递