R语言作图plot函数以及参数设置解析

Python018

R语言作图plot函数以及参数设置解析,第1张

plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL, log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL, ann = par("ann"), axes = TRUE, frame.plot = axes, panel.first = NULL, panel.last = NULL, asp = NA, xgap.axis = NA, ygap.axis = NA,   ...)

x,y  用于横纵坐标作图的数据对象。

type 图类型(线条和点类型),使用格式type=" "。

                                                   type="p"显示为空心点。plot

                                                   type="l"显示为线条。line

                                                   type="b"显示为空心点和线条。both

                                                   type="c"显示为无点和线条。

                                                   type="o"显示为空心点和线条,线穿过空心点。

                                                   type="s"/"S"显示为阶梯线。

                                                   type="h"显示为直方图样的垂直线。

                                                   type="n"显示为无点和无线条。

xlim/ylim 用于指定图的x轴和y轴的范围,使用格式:xlim=c(x1,x2), ylim=c(y1,y2)。

xlab/ylab 用于给图的x轴和y轴添加标签,使用格式:xlab="xlab",ylab="ylab"。

main 用于对plot添加主标题, main="   "。

sub   用于对plot添加副标题, sub="   "。

log   用于对x或者y值取log。log="x"/"y"/"xy"。

ann  使用T/F对plot中的标题,x轴标签,y轴标签是否显示进行定义。

axes  使用T/F对坐标轴是否显示进行定义。

frame.plot  使用T/F对画图外框是否显示进行定义。

panel.first  参数还没弄懂,panel.first="grid(8,8)"对背景线进行定义。

asp  表示y/x的纵横比。

lty   用于线条类型的定义,指定值为整数,lty="1"。

                                                   lty="0"显示为空白,即无线条。

                                                   lty="1"显示为实线线条。

                                                   lty="2"显示为虚线线条。

                                                   lty="3"显示为点状线条。

                                                   lty="4"显示为点虚线线条,点和虚线线条间隔。

                                                   lty="5"显示为长虚线。

                                                   lty="1"显示为双破折号线条。

热图是科研论文中一种常见的可视化手段,而在转录组研究领域,我们常常需要分析一些基因与基因之间的相关性,来判断生物样本中是否存在共表达情况,以及共表达基因模块。除了基因集之间,其他方向,比如免疫细胞群体之间相关性,样本的相关性,也常常用相关性热图的形式进行展示。总而言之,往大了说,任何表征相关性的数值都可以用相关性热图来进行绘制。

常规热图示例

我们先来看看下面这张图,这是一篇发表在  PLoS Medicine  (IF = 11.048) 上的文章图,来看 22 种免疫细胞群体之间的相关性,其中红色的颜色代表正相关,蓝色代表负相关。每一格的数字代表相关系数。这是一种经常会用到的图形,不同于常规热图。常规热图中的每行代表一个观察值,每列代表一个样本,而我们在本次教程中,将为大家带来更高级,也更美观的相关性热图。

相关性热图

Step 1: R 包安装和数据输入

首先是安装必须 R 包,在这里我们需要用到 ggcorplot 和 ggthemes 这两个R包。

然后我们读入R表达谱数据。

数据一共有 10 个样本和 20 个基因,每一行为一个基因,每一列为一个样本,我们需要看这 20 个基因在这 10 个样本中的共表达情况,也就是基因和基因之间的相关性。

Step 2: 相关性计算

为了表示基因与基因相关性,我们除了要计算它们的相关性系数,还需要计算体现其显著性的  P  值。

计算相关性系数并显示前 6 个基因之间的相关性。相关性系数大于 0 为正相关,小于 0 为负相关。

计算基因与基因之间的相关性  P  值,其中  P  小于 0.05 认为这两个基因之间相关性是显著的。

Step 3: 相关性热图绘制

使用 ggcorplot 绘制基因与基因之间相关性热图。

Step 4: 初级美化 Circle

美化第一步,我们将矩形热图改成圆形

是不是大家瞬间觉得眼前一亮?

Step 5: 中级美化 Clustering

虽然有所美观,但是,这样上面一张相关性热图还是存在问题的,大家是否发现热图中的点非常乱,让人没办法捕捉到其中的规律,不容易让人一眼抓住重点。所以,我们要对基因进行聚类。

这张热图,已经是非常漂亮了,放在文章中绝对让人眼睛一亮,正相关负相关基因清清楚楚。

Step 6: 高级美化 Triangle

当然,我们还可以进一步改善。因为相关性之间其实是有对称在的,左上角和右下角的图其实是一样的,这样绘制比较占版面。只绘制左上角的热图,可以让我们的图看起来没有那么臃肿。

Step 7: 终级美化 Label

那么如何显示相关性强弱呢,虽然颜色和点的大小可以看出来,但是毕竟没有那么直观。所以我们将相关性系数加上,并更改热图颜色。

这样基因相关性热图就相当完美了,可以直接放在文章图中,而且比 PLoS Medicine 那篇文章看起来更漂亮呢。

Step 8: 究级美化 Omit

不过,如果我们想知道哪些基因显著性是小于 0.05 的呢,虽然颜色和点的大小以及相关性系数可以看出来,但是如果被老板们问起,模棱两可的回答,可是相当危险的哦。所以,我们把显著性p值加上,并且直接隐藏  P  小于 0.05 的基因。

转录组分析中,计算了两组间差异表达的基因后,通常怎样表示?您可能第一时间想到可以使用火山图。的确,火山图是使用频率最多的,在火山图中可以很轻松地根据基因在两组间的Fold Change值以及显著性p值,识别和判断差异表达基因概况。火山图实质上就是一种散点图,通常横纵坐标分别代表了log2转化后的Fold Change以及-log10转化后的p值或p调整值信息(下图左)。提到散点图,常见的还有另一种展示差异表达基因的样式:横纵坐标轴可分别代表两组基因表达均值,这种风格可以更方便直观对比基因在两组中的差异状态。

本篇教程就让我们来学习如何绘制右图这种“对称散点图”,展示组间差异基因表达格局。

示例文件“gene_diff.txt”是一组基因差异表达分析结果,记录了处理组(treat)和对照组(control)间表达显著不一致的基因,鉴定标准为p<0.01以及|log2 Fold Change|≥1。

其中,gene_id为基因名称;control和treat代表了两组中基因的平均表达值;log2FoldChange即log2转化后的基因表达差异倍数;pvalue是差异基因显著性p值;diff为根据p<0.01以及|log2 Fold Change|≥1筛选的差异基因,该列中“up”为上调,“down”为下调,“none”为非差异基因。

接下来通过该示例文件,展示使用R语言绘制差异基因表达“对称散点图”过程。

首先对数据做一些预处理。

例如,基因表达值数量级相差过大,取个对数转换;基因名称按是否为差异基因作个排序,避免后续作图时被不显著的基因点遮盖,即排序的目的是让这些显著基因的点都位于图的上方。

下来就可以使用预处理后的数据作图了。

第一种类型是将基因按上调、下调或不显著类型着色,便于从图中辨认差异基因。我们使用ggplot2的方法绘制差异基因散点图。

两个坐标轴分别代表了处理组(treat)和对照组(control),图中的点代表各基因在两组中的平均表达值(已经作了log转换)。treat组和control组相比,上调基因以红色表示,下调基因以绿色表示。图中的虚线代表了|log2FC|=1时的阈值线。

在该图中,我们可以很轻松地观察差异基因整体分布状态和数量比较的信息。

上图中没有将p值信息展示出。因此另一种思路是,颜色代表p值,这样就可以在图中获得一个渐变梯度。同样使用ggplot2的方法绘制,和上述过程相比仅在颜色指定上存在区别。

类似上图,两个坐标轴分别代表了处理组(treat)和对照组(control),图中的点代表各基因在两组中的平均表达值(已经作了log转换),图中的虚线代表了|log2FC|=1时的阈值线。

和上图不同点在于,此时基因按显著性p值着色,从不显著>显著展示以蓝色>红色渐变,就获得了一种梯度信息。这样可以很方便地看出,在两组中的表达值差异越大的基因,p值越小,二者趋势是一致的,重在描述了差异倍数和p值的关系。