相关性热图

2023-02-25 07:38:02Python018

相关性热图,第1张

关于相关性，表示数据之间的相互依赖关系。但需要注意，数据具有相关性不一定意味着具有因果关系 。

相关性在组学数据挖掘中应用非常广，如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。

相关性分析其实较为简单，用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。

以R自带的数据集mtcars为例，直接计算矩阵或数据框对应列之间的相关性系数。

上文的corrplot包是基于R基础绘图函数创建的，那么又没有基于ggplot2的呢？有，比如相对应的ggcorrplot包，不过我这里推荐另一个R包：ggcor 。

方差（Variance）： 每个样本值与全体样本值的平均数之差的平方值的平均数，用于衡量一个变量的数据和期望值离散程度，公式如下，其中，σ2 即D(X)、Var(V)，为总体方差，X为变量，μ为总体均值，N为总体个数。

或

协方差（Covariance）： 用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例，即当两个变量是相同的时候。公式如下：

可以看出，若X，Y正相关（变换趋势相同），则协方差值为正；变化趋势相反则协方差值为负。

相关系数（Pearson）： 相关系数是研究变量之间线性相关程度的指标，而相关关系是一种非确定性的关系，数据具有相关性不能推出有因果关系。相关系数的计算公式如下：

其中，公式的分子为X，Y两个变量的协方差，Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时，即X,Y趋近相同时，很容易发现分子和分母相同，即r=1。

好啦，本次就分享到这里啦，不知对你有没有启发呢？

这里随机生成了25个0,1之间的均匀分布的随机数，其中，行是样本，列是特征，如图：

第一种方案绘制的Heatmap需要借助于Corrplot包，我们求出dat特征的相关系数矩阵，进一步利用corrplot函数来画图，在该包的官方文档中，对于corrplot函数的参数描述可以说是非常多，这里我给出几种常用的参数：

method 表示热力图中每一块所展示的形状，可选值有： "circle", "square", "ellipse", "number", "shade", "color", "pie"；

type 表示相关系数矩阵展示的方式，比如只展示上三角或下三角或者全部展示，可选值有：“full”，“upper"，"lower”；

tl.pos 指定文本标签(变量名称)的位置，当type=full时，默认标签位置在左边和顶部(lt)，当type=lower时，默认标签在左边和对角线(ld)，当type=upper时，默认标签在顶部和对角线，d表示对角线，n表示不添加文本标签；

diag 表示对角线上取值，默认为FALSE

cl.pos 表示图例位置，当type=upper或full时，图例在右方，当type=lower时，图例在底部，不需要图例时，需指定该参数为n；

...

下面给出方法运用：

当然，利用corrplot函数画图可以实现图层的叠加，上面这张图就是分上下两部分完成的，其中默认的颜色样式个人觉得还是可以的，只不过对于相关系数值会根据高低颜色深浅会发生变化，对于一些相关性低的值颜色会非常浅，所以看得不是很明显。

关于这个包具体的的使用方法可以参考这位博主写的文章：

这里我们还是用方案一随机生成的矩阵，介绍用pheatmap包来绘制热力图。pheatmap包里关于绘制热力图的参数相对来说比较少，可以帮助我们快速的绘图，这里给出一些常用参数：

color 设置渐变的颜色，通常借助于colorRampPalette函数，比如说设置红黄蓝渐变，并在这之间分成50个等级，我们可以设置color=colorRampPalette(c("red","yellow","blue"))(50)

cluster_cols &cluster_rows 表示是否按行或列聚类，默认值为FALSE

clustering_method 表示聚类方法，默认是complete,此外还"ward.D",“single”,“average”,等；

display_numbers 表示是否在heatmap里面显示数值，默认是FALSE；

show_rownames &show_colnames 表示是否显示行名或列名；

file 设置图片保存位置

...

下面给出方法运用

去掉边框线可能会好看一点：

由于是随机生成的数据，就不显示聚类的效果（只需要把cluster_row和cluster_col删掉即可），总体来说用pheatmap绘制热图会相对简单一点，但是毫不逊色于其他包绘制的热图。此外，如果想对于行或列来显示一些注释信息（annotation），比如将特征分成2类，每一类是不同的颜色，这里就可以先生成一个行名是特征，列名是分类结果的数据框，然后利用annotation_row(或col)参数，将生成的数据框赋给它即可，具体可以参考这位博主的文章：

接下来介绍的ComplexHeatmap包就比较全面了，他可以兼容pheatmap函数的所有功能，可以说是pheatmap包的加强版，能够创建更加复杂的热力图，如果你会pheatmap包的应用，那么在ComplexHeatmap包里面，你只需要指明是该包下的pheatmap函数即可使用（ComplexHeatmap::pheatmap()）。接下来列举出一些常用参数：

name 、column_title、row_title设置图例、列标题与行标题的名字；

column_title_side &row_title_side 设置列标题与行标题的位置，之注意：列标题只能跟"top"或"buttom"参数，行标题只能跟"left"或"right"参数；

column_names_side &row_names_side 设置行名与列名的位置，后面跟的是位置参数，如"left"、"top"等；

column_names_rot &row_names_rot 设置行名与列名的倾斜角度，后面跟的是角度，如0、30、90等；

column_names_gp &row_names_gp 设置行名与列名的颜色，比如 column_names_gp =gpar(col=rep("red",5))

column_title_gp &row_title_gp 设置列与行标题的颜色，注意：这个需要和聚类分割的数量来决定，要指定row_split &column_split，颜色的设置才能生效；

col 设置渐变的颜色向量参数，这里推荐用RColorBrewer包中的颜色，比如 col = rev(brewer.pal(n = 7, name ="RdYlBu"))

cluster_rows &cluster_columns 表示是否对行列进行聚类，默认是TRUE

cluster_rows &cluster_columns 表示是否对行列进行聚类，默认是TRUE，如果是特定值，则表示对聚类树进行处理；

row_dend_reorder &column_dend_reorder 表示将行或列进行排序，默认是TRUE，所以我们在利用这个包绘制相关系数热力图时，会看到对角线不是1，那么我们就需要检查是否设置了这个参数；

show_column_dend &show_row_dend 表示是否展示行与列的聚类树；

...

下面利用上述随机生成的数据来绘制heatmap：

最值得一提的是，cluster_rows参数，可以结合hlust函数来使用，并通过color_branches函数来为不同类别设置颜色，使得整个heatmap看起来更加美观。如果我们要显示聚类后的数据分割并命名，我们可以这样：

如若想得到更加详细的说明，可以看ComplexHeatmap包的官方文档，或者参见这位博主的文章：

当然，画heatmap怎么能少的了ggplot2呢，我们在利用ggplot画图时，只需要设置scale_fill_gradient即可，例如：scale_fill_gradient(low = "yellow", high = "red") 表示颜色从黄色到红色渐变。注意要把数据处理成ggplot所需要的样式！下面来绘制heatmap:

如果要实现聚类树在heatmap上，我们需要利用ggtree函数，分别绘制聚类树与热力图，最后用aplot包进行拼接即可。

由于ComplexHeatmap包绘制的热力图是一个Heatmap对象，故他与其他图形不同，自身可以与其他Heatmap对象结合，我们只需要利用"+"号或者"%v%"连接符对多个Heatmap对象进行水平或垂直连接就可以了。

当我们需要将pheatmap包绘制的热力图与ggplot画的其他图贴在一起时，我们可以利用ggplotify包来实现，具体操作流程为：

我们用上回利用iris数据集画组合小提琴图的例子，进一步组合heatmap：

当然ggplot也可以画heatmap，这里不再阐述，对于上面几种绘图方案，我们只需选取一种最美观，最有效的方式来画heatmap即可。

框内的数字是行变量和列变量之间的相关系数R，相关系数R绝对值越大，颜色越深（红正，蓝负）。统计学中，P值越小相关性越显著，一般来说一个*代表显著相关（P值为0.01，选取不同参数可能不一样）、两个**代表极显著相关（P值为0.001）、三个***代表极极显著相关（P值为0.0001）. 图中还可以看出，相关系数R的绝对值0.67（变量P50与T之间）以上的都显著相关，至少一个*。符合一般关于相关系数R值的显著性统计。

系数表示相关性变量参数

# 上一篇：c语言if语句是什么？

# 下一篇：如何卸载的Ruby版本