R语言相关性分析图。想知道怎么分析这些数据?

Python028

R语言相关性分析图。想知道怎么分析这些数据?,第1张

框内的数字是行变量和列变量之间的相关系数R,相关系数R绝对值越大,颜色越深(红正,蓝负)。统计学中,P值越小相关性越显著,一般来说 一个*代表显著相关(P值为0.01,选取不同参数可能不一样)、两个**代表极显著相关(P值为0.001)、三个***代表极极显著相关(P值为0.0001).   图中还可以看出,相关系数R的绝对值0.67(变量P50与T之间)以上的都显著相关,至少一个*。符合一般关于相关系数R值的显著性统计。

关于相关性,表示数据之间的相互依赖关系。但需要注意,数据具有相关性不一定意味着具有因果关系

相关性在组学数据挖掘中应用非常广,如样本的重复检验、基因的共表达分析、微生物群落的共发生网络分析等。

相关性分析其实较为简单,用R语言自带的cor()函数非常容易计算得到两两变量间的相关系数。下面我们就来看下如何用R语言实现相关性计算并绘制带有显著性星标的相关性热图。

以R自带的数据集mtcars为例,直接计算矩阵或数据框对应列之间的相关性系数。

上文的corrplot包是基于R基础绘图函数创建的,那么又没有基于ggplot2的呢?有,比如相对应的ggcorrplot包,不过我这里推荐另一个R包:ggcor 。

方差(Variance): 每个样本值与全体样本值的平均数之差的平方值的平均数,用于衡量一个变量的数据和期望值离散程度,公式如下,其中,σ2 即D(X)、Var(V),为总体方差,X为变量,μ为总体均值,N为总体个数。

协方差(Covariance): 用于衡量两个变量的总体误差。而方差可看作是协方差的一种特例,即当两个变量是相同的时候。公式如下:

可以看出,若X,Y正相关(变换趋势相同),则协方差值为正;变化趋势相反则协方差值为负。

相关系数(Pearson): 相关系数是研究变量之间线性相关程度的指标,而相关关系是一种非确定性的关系,数据具有相关性不能推出有因果关系。相关系数的计算公式如下:

其中,公式的分子为X,Y两个变量的协方差,Var(X)和Var(Y)分别是这两个变量的方差。当X,Y的相关程度最高时,即X,Y趋近相同时,很容易发现分子和分母相同,即r=1。

好啦,本次就分享到这里啦,不知对你有没有启发呢?

文件包含三列数据:来源地、目的地、及call数量

我们都知道可视化网络,需要准备两个数据文件:

接下来基于此数据集准备点和边列表文件

至此,简单的边和点列表已经准备好了,我们接下来通过几个R包来可视化下

这是R中绘制网络图的一个基本R包,这里主要用到 graph_from_data_fram() 函数。更多关于此包绘图的细节可参考这个帖子 Network Analysis and Visualization with R and igraph (kateto.net) ,介绍的十分详细。

这两个R包目前相对比较流行,可以对network数据进行操作和可视化

ggraph包还有更多好玩的样式,详情参考: https://www.data-imaginist.com/2017/ggraph-introduction-layouts/ , 根据个人的数据去选择最合适的展现形式即可。

这两款R包都是基于浏览器的JavaScript可视化库,用于交互式的展示图形,这里我们还用到刚才的示例数据来展示。

常用来快速创建交互式桑基图、和其它种类的网络图等,核心的函数即 forceNetwork()

制作桑基图

该包绘制更加方便,

我们也可以为网络中的边添加方向,用到 layout_with_fr 方式