【R语言】--- 箱型图

Python036

【R语言】--- 箱型图,第1张

线图主要是通过四分位数描述数据分布,通过最大值,上四分位数,中位数,下四分位数,最小值五处位置描述数据分布情况。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。从箱线图中,可以大致推断出数据的集中或离散趋势。

boxplot() 是一个泛型函数,目前支持两种参数类型:公式和数据。

x 参数为一个数值向量或者列表,若为列表则对列表中每一个子对象依次作出箱线图。

formula 为一个公式,比如 y ~ x。

data 参数为一个数据框或者列表。

na.action 参数是对NA值的操作,默认为忽略。

ann 参数为逻辑值,是否绘制坐标轴。

range 是一个延伸倍数,决定了箱线图的须延伸到什么位置。

width 设置箱子的宽度。

varwidth 为逻辑值,若为 TRUE,那么箱子的宽度与样本量的平方根成比例。

notch 决定了是否在箱子上画凹槽,可以用于比较两组数据的中位数是否有差异。

horizontal 是否水平放置箱线图。

add 参数设置是否将箱线图添加到现有图形上。

at 参数,当add为TRUE时,设置箱线图位置。

[1] https://www.sohu.com/a/220236877_434937

[2] https://zhuanlan.zhihu.com/p/144339417

[3] Robert I. Kabacoff (著). R语言实战(高涛/肖楠/陈钢 译). 北京: 人民邮电出版社.

配对箱线图,常见于配对样本的数据分析中。

例如下图示例,为了研究某些基因在肿瘤组织和正常组织中是否具有表达量的显著不同,在取样时,往往会在同一患者个体中同时获取肿瘤和临近正常组织,两个组织样本就是配对关系。当然在这类研究中,往往需要调查很多的患者,因此会获得大量的配对样本。随后,通过qPCR或RNA-seq等方法定量基因表达后,以箱线图呈现特定基因在肿瘤组织和正常组织中的整体表达水平,并在箱线图中以散点表示具体的样本,此时对于具有配对关系的肿瘤组织和正常组织样本,就可以通过连线连接起来。

这种配对箱线图的好处是,除了能够表现两组的整体差异,还能够清晰地呈现单个样本的前后改变。

本篇教程,就让我们带大家学习如何使用R语言绘制这种配对箱线图。

类似地,假设我们也期望查看某基因(例如MAP2)在肿瘤组织和正常组织中的表达改变情况,在收集了配对样本并检测了这些样本中基因表达水平后,配置这样一张表。

samples是样本名称;MAP2是基因MAP2在各样本中的表达值;group1是样本分组,告知它们来源于肿瘤组织还是正常组织;group2是配对样本信息,配对的两样本设置为同一亚组。

备注: 该示例数据集可点击这里获取。

随后,将上述示例数据导入R中。

绘制箱线图表示两组基因的整体表达水平,并以散点表示样本,配对样本间以连线连接。

这样,配对箱线图就获得了。

箱线图描述了组间基因表达水平改变的趋势,在该图中可以看到MAP2基因的表达在肿瘤组织和正常组织中是不一致的。后续如有需要,不妨执行配对样本的t检验等,计算显著性p值,作为评判基因表达显著差异的指标。