如何利用R软件绘制箱线图

Python042

如何利用R软件绘制箱线图,第1张

方法/步骤

打开r软件,输入数据集。这里以一个班级的学生成绩为例来介绍箱线图的使用方法。

输入绘制箱线图命令boxplot(class1),运行命令,得到一班学生成绩箱线图。箱线图箱体中间的粗黑线表示中位数所在位置,可以看到本例的平均值大约在80分。最下面的圈号表示异常点。本例的异常值为25。

一个图表中可以绘制多个系列的箱线图,便于比较。这里添加另外一个班级的成绩,进行比较。

输入绘制箱线图的代码:

boxplot(class1,class2,names=c('一班','二班'),col=c("green","red"))

其中names表示为两个系列命名。col为颜色取值。

运行代码,得到连个箱线图。从图中可以明显看到两个班级的成绩分布情况。二班的成绩比较集中,一班的差异比较大。二班的平均分要高于一班。完成。

提示:箱线图还有很多参数可供我们绘图时使用。可以运行命令help(boxplot)了解更多内容。

配对箱线图,常见于配对样本的数据分析中。

例如下图示例,为了研究某些基因在肿瘤组织和正常组织中是否具有表达量的显著不同,在取样时,往往会在同一患者个体中同时获取肿瘤和临近正常组织,两个组织样本就是配对关系。当然在这类研究中,往往需要调查很多的患者,因此会获得大量的配对样本。随后,通过qPCR或RNA-seq等方法定量基因表达后,以箱线图呈现特定基因在肿瘤组织和正常组织中的整体表达水平,并在箱线图中以散点表示具体的样本,此时对于具有配对关系的肿瘤组织和正常组织样本,就可以通过连线连接起来。

这种配对箱线图的好处是,除了能够表现两组的整体差异,还能够清晰地呈现单个样本的前后改变。

本篇教程,就让我们带大家学习如何使用R语言绘制这种配对箱线图。

类似地,假设我们也期望查看某基因(例如MAP2)在肿瘤组织和正常组织中的表达改变情况,在收集了配对样本并检测了这些样本中基因表达水平后,配置这样一张表。

samples是样本名称;MAP2是基因MAP2在各样本中的表达值;group1是样本分组,告知它们来源于肿瘤组织还是正常组织;group2是配对样本信息,配对的两样本设置为同一亚组。

备注: 该示例数据集可点击这里获取。

随后,将上述示例数据导入R中。

绘制箱线图表示两组基因的整体表达水平,并以散点表示样本,配对样本间以连线连接。

这样,配对箱线图就获得了。

箱线图描述了组间基因表达水平改变的趋势,在该图中可以看到MAP2基因的表达在肿瘤组织和正常组织中是不一致的。后续如有需要,不妨执行配对样本的t检验等,计算显著性p值,作为评判基因表达显著差异的指标。