《Discovering Statistics Using R》笔记6-箱形图和离群值

Python09

《Discovering Statistics Using R》笔记6-箱形图和离群值,第1张

新冠肺炎疫情期间本职工作比较忙。。。好久没更新了OTL

读《Discovering Statistics Using R》第四章 Exploring data with graphs中的4.7节箱形图 以及5.8.1节 处理离群值 做的笔记。主要是介绍箱形图和离群值。之前本系列笔记跳过了第四章的内容,因为对于用R作图我打算另开文集来写的。特意又跳回4.7节是因为按照之前笔记顺序该做如何处理离群值的内容了。

一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的未去除极端值的版本 DownloadFestival.dat

箱形图是展示连续性变量情况很好的方法。

箱体的中间表示中位数

箱体的两端表示为下四分位数(Q1)和上四分位数(Q3)

箱体两端向外分出两条“触须”,触须长度不超过1.5倍的四分位间距(interquartile range IQR=Q3-Q1)

接下来我们使用箱形图来分性别(gender)展示示例数据中第一天卫生评分的情况(day1):

在生成的箱形图中我们可以看到女性组里有一个明显的离群值(outlier)。

离群值(outlier)也叫异常值,简单来说就是与其他数据点明显不同的测量值。在箱形图中:

大于上四分位数+1.5倍四分位间距的值或者小于下四分位数-1.5倍四分位间距的值被定义为离群值。

大于上四分位数+3倍四分位间距的值或者小于下四分位数-3倍四分位间距的值被定义为极端离群值(extreme outliers)。

离群值对一些统计量影响很大(比如均值),因此有时需要留意。

我们对原始数据按照day1变量降序排列后可以找到那个离群值:

发现离群值后有几种常用方法可以减少离群值对分析的影响。在应用这些方法前需要先检查一下离群值是否是数据错误录入造成。如果数据录入无误,主要有三种处理方法:

有理由认为这个20.02的离群值应该是2.02由于错误录入造成的。这时应该去找原始数据进行核实。假设我们经核实确实应该是2.02,现在把它改正。

这里我使用 dplyr 包的 if_else() 进行数据修改,其用法和R自带的 ifelse() 基本一致: if_else(condition, true, false, missing = NULL) ,当 condition 的判断为TRUE时返回 true 参数的值,当 condition 的判断为FALSE时返回 false 参数的值。

修改后再做一次箱形图:

从箱形图中我们可以看出数据分布的范围、中位数水平、中间50%的数据分布的范围(箱体)、最高25%的数据分布范围和最低25%的数据分布范围。通过箱形图还可以看出数据分布是否对称:如果上下触须长度相近则数据分布大致对称。另外,触须以外的点展示了离群值的情况。

目录

vcf数据里除了位点的ATGC的对比,进行纯合/杂合判断的以外。还有一个重要的项目就是 DP ,测序深度。测序深度不仅是看测序质量的重要参考,也是对染色体倍数体以及基因拷贝数进行评估的重要指标。

一般的VCF文件都很大,用手动提取里面的信息肯定不大现实。用 vcfR 就可以轻松实现。

查看一下R读取的数据。

选取我们需要的部分也就是Genotype Section里的 DP 区域。

众所周知箱状图的特点就是(boxplot)包含了所有的信息,包括异常值outlier。正因为这个原因,这张图很大程度上受到了这些异常值的影响,变得非常难懂。自己看看还可以,用来发表文章的话肯定不行。

经过log2转换,我们可以得到理想的效果。

又或者不需要转换,而是通过过滤数据来改善箱图效果。举个例子,提取90%的信赖区间的数据来可视化。

这样也可以获得类似的结果。