“对称散点图”的绘制(R语言)

Python014

“对称散点图”的绘制(R语言),第1张

转录组分析中,计算了两组间差异表达的基因后,通常怎样表示?您可能第一时间想到可以使用火山图。的确,火山图是使用频率最多的,在火山图中可以很轻松地根据基因在两组间的Fold Change值以及显著性p值,识别和判断差异表达基因概况。火山图实质上就是一种散点图,通常横纵坐标分别代表了log2转化后的Fold Change以及-log10转化后的p值或p调整值信息(下图左)。提到散点图,常见的还有另一种展示差异表达基因的样式:横纵坐标轴可分别代表两组基因表达均值,这种风格可以更方便直观对比基因在两组中的差异状态。

本篇教程就让我们来学习如何绘制右图这种“对称散点图”,展示组间差异基因表达格局。

示例文件“gene_diff.txt”是一组基因差异表达分析结果,记录了处理组(treat)和对照组(control)间表达显著不一致的基因,鉴定标准为p<0.01以及|log2 Fold Change|≥1。

其中,gene_id为基因名称;control和treat代表了两组中基因的平均表达值;log2FoldChange即log2转化后的基因表达差异倍数;pvalue是差异基因显著性p值;diff为根据p<0.01以及|log2 Fold Change|≥1筛选的差异基因,该列中“up”为上调,“down”为下调,“none”为非差异基因。

接下来通过该示例文件,展示使用R语言绘制差异基因表达“对称散点图”过程。

首先对数据做一些预处理。

例如,基因表达值数量级相差过大,取个对数转换;基因名称按是否为差异基因作个排序,避免后续作图时被不显著的基因点遮盖,即排序的目的是让这些显著基因的点都位于图的上方。

下来就可以使用预处理后的数据作图了。

第一种类型是将基因按上调、下调或不显著类型着色,便于从图中辨认差异基因。我们使用ggplot2的方法绘制差异基因散点图。

两个坐标轴分别代表了处理组(treat)和对照组(control),图中的点代表各基因在两组中的平均表达值(已经作了log转换)。treat组和control组相比,上调基因以红色表示,下调基因以绿色表示。图中的虚线代表了|log2FC|=1时的阈值线。

在该图中,我们可以很轻松地观察差异基因整体分布状态和数量比较的信息。

上图中没有将p值信息展示出。因此另一种思路是,颜色代表p值,这样就可以在图中获得一个渐变梯度。同样使用ggplot2的方法绘制,和上述过程相比仅在颜色指定上存在区别。

类似上图,两个坐标轴分别代表了处理组(treat)和对照组(control),图中的点代表各基因在两组中的平均表达值(已经作了log转换),图中的虚线代表了|log2FC|=1时的阈值线。

和上图不同点在于,此时基因按显著性p值着色,从不显著>显著展示以蓝色>红色渐变,就获得了一种梯度信息。这样可以很方便地看出,在两组中的表达值差异越大的基因,p值越小,二者趋势是一致的,重在描述了差异倍数和p值的关系。

​如何在差异基因Venn图中同时标识上下调基因数量信息

韦恩(Venn)图是常见统计图之一,用于展示各样本(或分组)之间共有(或特有)元素的数量(或比例)。例如做RNA-seq的最直接目的,大多是鉴定差异表达的基因。当试验涉及到多分组情况时,常需要展示多组间共享的差异基因数量,这个时候就要使用到Venn图。例如文献 “Transcriptomic analyses of rice (Oryza sativa) genes and non-coding RNAs under nitrogen starvation using multiple omics technologies” 中,植物组织中响应7天氮缺乏(-N_7d)、7天磷酸盐缺乏(-Pi_7d)和盐胁迫(d)、冷胁迫(e)或干旱胁迫(f)的差异表达lncRNA的Venn图。

不过这种Venn图太过单调,虽然展示了差异基因的数量,却没有区分基因是上调的还是下调的。另一种思路是,分别把上调或下调的基因拿出来,然后分别作图展示上调基因间的交集或者下调基因间的交集,但缺点是如果分组较多的话会很占篇幅,并且如果一个基因在一组中上调而在另一组中下调时则无法绘制出。

为了有效解决这些问题,今天我们来看一种特殊风格的Venn图,能够同时展示基因交集以及上下调数量的二维信息。风格如下, 在Venn图中原数字位置添加了表示上下调基因数量的饼图 。外圈表示不同的分组,饼图则表示了交集/或特有区域中,所包含的上调(红色)和下调(绿色)基因数量。此外,如果交集处某基因在不同组中的上下调趋势不一致,则在灰色区域显示数量。

本节我们来学习如何在R语言中绘制这种特殊的Venn图。

示例数据“treat1_control.txt”、“treat2_control.txt”和“treat3_control.txt”分别为3种不同试验处理下的样品,与对照组相比后识别的显著差异表达基因。表中genes列为差异基因的名称,logFC列中将所有上调基因标识为1,所有下调基因标识为-1。

接下来绘制Venn图展示3组基因的交集概况,并同时将基因的上下调数量信息也表示出来。

使用R包GOplot,即可通过给定的数据绘制这种特殊的Venn图,同时展示基因交集以及上下调数量的二维信息。

这样这种Venn图组合饼图的样式就得到了。

右图Venn图的外圈表示数据中,3组处理组间相同/或特有的差异表达基因数量概况,具体的数值在饼图中展示,红色代表共有的上调基因,绿色代表共有的下调基因,灰色表示交集中在不同组中的上下调趋势不一致的基因。

对于各组交集具体涉及了哪些基因,它们的名称、上下调状态如何,将直接在面板中显示出来,如左图所示列表信息。

总之过程非常方便,很简单的一条命令,您get到了吗?