什么是r检验

Python010

什么是r检验,第1张

r实验指的是科学研究的基本方法之一。根据科学研究的目的,尽可能地排除外界的影响,突出主要因素并利用一些专门的仪器设备,而人为地变革、控制或模拟研究对象,使某一些事物(或过程)发生或再现,从而去认识自然现象、自然性质、自然规律。

科学实验,是指根据一定目的,运用一定的仪器、设备等物质手段,在人工控制的条件下,观察、研究自然现象及其规律性的社会实践形式。是获取经验事实和检验科学假说、理论真理性的重要途径。它不仅包括仪器、设备、实验的物质对象,还包括背景知识、理论假设、数据分析、科学解释,以及实验者之间的协商、交流和资金的获取等相关社会因素。其性质不只是物质性的,还是文化性的和社会性的。

通常把对物理特性的检验称为物理检验对化学性质或组成的检验称为化学检验或简称化验。检验一般有破坏性检验和非破坏性检验,前者只能从整体中取样进行抽查,然后用数理统计方法推定整体的情况后者可对整体进行逐个检查。从被检对象的类别考虑,人们又常将它分为半成品检验、成品检验或商品检验等。

也指用工具、仪器或其它分析方法检查各种原材料、半成品、成品是否符合特定的技术标准、规格的工作过程。

对产品或工序过程中的实体,进行度量,测量,检查,和实验分析,并将结果与规定值进行比较和确定是否合格所进行的活动。

目录

vcf数据包含了所有的等位对立基因的信息,这样就可以帮助我们判断染色体的倍数。比方说有一个位点的碱基是A/T,测序覆盖率为20, 如果这个物种是二倍体,那么A,T的出现概率就是(50%),会各自出现10次,如果是3倍体,那么A会出现13次,T会出现7次,当然也有可能相反。当把所有的点位集合在一起的时候,我们就可以判断这个物种的倍数体了。

用包里的自带数据,有疑问的小盆友可以查阅之前的文章,这里就不做赘述了。

高通量数据测序可以保证每一个位点都经过很多次的读取,这样就相当于每一个等位基因都被测序过了差不多相等的次数。假设我们对一个二倍杂合体进行了覆盖率为30的测序,那么每一条染色体都被测了15次。当然真实情况不可能正好是这个数字,毕竟测序的时候会发生一定概率的错误。

假设我们用覆盖率为30给一个三倍杂合体进行测序,某基因位点为A/A/T,那么,A和T出现的期待值将是20和10。当某个基因位点的组合是A/G/C时,那么A,G,C就会各自出现10次。

FORAMT里的AD表示对立基因的各自出现的次数。所以我们可以提取AD数据。

一般的SNP Caller都会默认双倍体检验,也就是出现两种对立基因型。所以可以计算每种基因的出现概率。

然后用直方图可视化一下。

可以发现,大多数都是纯合,所以需要去掉纯合的部分。

我们发现峰值出现在了1/2,说明这个物种时二倍体,和预期的一样。

然而这里有一个小小的问题,Fequency几乎从0到1横跨整个横坐标,这个明显不合理,需要进行改善。

我们可以通过等位对立深度(AD)的信息来改善刚才提到的问题。

我们可以看到80%的数据分布在了19和75之间。然后再靠近40和60点的地方出现了两个峰,这分别代表杂合峰和纯合峰。然后整个数据还拖着一个尾巴,最长的地方超过了100,这表示部分区域包含了着非常高的拷贝数(CNVs)。此处的目的是为了可视化倍数体,所以选择100以下15%~95%的数据。

回想一下之前文章里介绍过的用箱图做可视化的内容,我们也可以通过同样的方法来确认过滤数据的效果。

看一下过滤后的结果。

果然好看很多。

最后再回到一开始,看倍数体的可视化效果。

结果明显干净易懂好多。

有同学会问,那么不是二倍体的话会出现什么样的结果呢。数据包的样本里正好有一个三倍体。

可以看到两个峰出现在了1/3,2/3处。结果和实际完美匹配。