例如下图示例,为了研究某些基因在肿瘤组织和正常组织中是否具有表达量的显著不同,在取样时,往往会在同一患者个体中同时获取肿瘤和临近正常组织,两个组织样本就是配对关系。当然在这类研究中,往往需要调查很多的患者,因此会获得大量的配对样本。随后,通过qPCR或RNA-seq等方法定量基因表达后,以箱线图呈现特定基因在肿瘤组织和正常组织中的整体表达水平,并在箱线图中以散点表示具体的样本,此时对于具有配对关系的肿瘤组织和正常组织样本,就可以通过连线连接起来。
这种配对箱线图的好处是,除了能够表现两组的整体差异,还能够清晰地呈现单个样本的前后改变。
本篇教程,就让我们带大家学习如何使用R语言绘制这种配对箱线图。
类似地,假设我们也期望查看某基因(例如MAP2)在肿瘤组织和正常组织中的表达改变情况,在收集了配对样本并检测了这些样本中基因表达水平后,配置这样一张表。
samples是样本名称;MAP2是基因MAP2在各样本中的表达值;group1是样本分组,告知它们来源于肿瘤组织还是正常组织;group2是配对样本信息,配对的两样本设置为同一亚组。
备注: 该示例数据集可点击这里获取。
随后,将上述示例数据导入R中。
绘制箱线图表示两组基因的整体表达水平,并以散点表示样本,配对样本间以连线连接。
这样,配对箱线图就获得了。
箱线图描述了组间基因表达水平改变的趋势,在该图中可以看到MAP2基因的表达在肿瘤组织和正常组织中是不一致的。后续如有需要,不妨执行配对样本的t检验等,计算显著性p值,作为评判基因表达显著差异的指标。
记得之前应该整理过的,但是找不到了,就再来一次吧
箱形图又称为盒须图、箱线图
箱形图针对的是单一变量,可以用来识别异常值
要理解和使用箱形图,需要搞清楚几个概念:
有两个点注意下:
从小到大排列
分成四等份
对于这三个分割点:
Q3与Q1的差距又称为四分位距(InterQuartile Range, IQR)
这个图呢,大概是说,为什么上边界和下边界之外的数据,也就是离群值(异常值)可以忽略掉的原因,貌似就是传说中的3σ原则
我看这里还会标注离群值和极端值,上、下边界外的值
使用Excel、Python或者其他工具画箱线图很容易,但是,通过这个图到底可以得到些什么启示呢?
感觉使用箱线图,是为了看数据的分布情况,看数据集中在哪里,分布有什么特征,数据是集中在较小值一侧还是较大值一侧,有没有异常值
这些资料都没啥特别的,刚才找到篇文章,狗熊会的,不错,对这个箱线图的使用场景算是来个对比,分享下
先附上原文地址: 丑图百讲 | 箱线图应该怎么用
箱线图是针对连续性变量使用的
我们也来看个实际例子,我就使用seaborn中的数据集好了
因为这里,并没有显示具体的各项指标数据,我们可以结合 describe 函数
也就是说,小费的中位数是2.9美元(不知道单位是啥,就当美元吧)
Q1是2美元,Q3是3.5625美元,50%的数据都集中在这个区间内
异常值都集中在上限
中位数和平均值比较接近
其实用箱线图来展示这个小费的分布,并不是非常好,如果用直方图的话,更加的直观
看,数据的集中程度,更加的明显一些
不是所有的数据都适合话箱线图,如果你的箱线图画出来就是一条横线,或者很扁,那就赶紧换一种图吧
通常有2个原因导致这种情况:
原作者总结的很好,直接贴过来了,学习下
作者还说了,这里有一种解决办法,就是做 对数变换
但是,我目前还不是很理解,做了对数变换,数据不就变了吗,这个展示出来没有影响嘛?又为什么可以这样做呢?
等我研究明白了再说
箱线图到底怎么用
配合着定性变量画分组箱线图,作比较!
我理解的是,在不同维度下,对数据进行对比,可以使用箱线图
作者整理了几点箱线图的特点,这里分享下:
嗯,学习了,还是得专业的人来分享
这一篇理论篇先到这,我去整理下seaborn中绘制boxplot
通过ggplot2或使用R语言自带的函数绘制的图像,用r将不同底数的对数图像画在一张图。1、分割屏幕split.screen()。
2、指定绘图位置screen()。
3、绘图。
4、ggplot2是非常流行的R语言可视化包,功能极为强大,能够绘制众多复杂的统计图表。