R语言相关性分析

Python020

R语言相关性分析,第1张

1.  R语言自带函数cor(data, method=" ")可以快速计算出相关系数 ,数据类型:data.frame

 如data.frame为:zz, 绘图如下:

a. single protein:线性回归画法

1. ggplot(zz,aes(x=a, y=HDL))+

   geom_point(alpha=1,colour="#FFA54F")+

   geom_smooth(method = lm,colour="#8B658B")+

   #scale_color_brewer(palette = "Set1")+

   theme_bw()+

   labs(x="Ferritin",y="HDL.C",title="Pearson’s correlation test of ferritin and HDL.C")+

   annotate("text", x = 1000, y = 2.5, label = "r = -0.51",colour="black",size=4)

2. library(ggstatsplot)

 ggscatterstats(data = alldata,

               y = TRANSFUSION.UNIT,

                x = NPTXR,

                centrality.para = "mean",  #"mean" or "median"                         

               margins = "both",                                       

                xfill = "#D8BFD8",

                yfill = "#EEDD82",

                #line.size= ,

                line.color="#8B6969",

               point.color="#2F4F4F",

                marginal.size=4,

               marginal.type = "density", # "histogram", "boxplot", "density", "violin", "densigram")

                title = "Relationship between TRANSFUSION.UNIT and NPTXR")

b. ggcorrplot, 全部蛋白 global correlation map 画法

ggcorrplot(cor(alldata))

2.  summary(lm(y~x),method=" ") %>%.[["coefficients"]]   正规线性回归

     (其实就是:a<-lm(y~x1+x2+...,data)

      plot(summary(lm(y~x),method=" ")) #绘图

3.  ggcor部分数据绘图:  数据类型为data.frame,纵坐标为各指标or各蛋白,行为观测值。

data <- fortify_cor(alldata[,10:11],alldata,cluster.type = "col")

ggcor<-ggcor(data,label_size=0.5) +

  geom_colour()+

  theme(axis.text.x = element_text(colour = "black",size = 4.7),

                                                        axis.text.y=element_text(size=5.5),

                                                        axis.ticks=element_blank())+

  geom_num(aes(num=r),colour="black",size=1.5)

4. corrr包画法

datasets::mtcars %>%

  correlate() %>%

  focus(-cyl, -vs, mirror = TRUE) %>%

  rearrange() %>%

  network_plot(min_cor = .2)

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。

一般来讲研究对象(样品或处理组)之间使用距离分析,而元素(物种或环境因子)之间进行相关性分析 。两个变量之间的相关性可以用简单相关系数(例如皮尔森相关系数等)进行表示,相关系数越接近1,两个元素相关性越大,相关系数越接近0,两个元素越独立。

Pearson相关系数是用于表示相关性大小的最常用指标,数值介于-1~1之间,越接近0相关性越低,越接近-1或1相关性越高。正负号表明相关方向,正号为正相关、负号为负相关。适用于两个正态分布的连续变量。

利用两变量的秩次大小来进行分析,属于非参数统计方法。适用于不满足Pearson相关系数正态分布要求的连续变量。也可以用于有序分类变量的之间的相关性测量。

Kendall's Tau相关系数是一种非参数检验,适用于两个有序分类变量。

此外衡量两个变量之间关系的方法还有:卡方检验、Fisher精确检验等。

Pearson、Spearman、Kendall相关系数都可以通过cor函数实现,cov协方差函数参数同cor函数。

ggcorrplot包内只有2个函数,一个cor_pmat()用于计算p值,一个ggcorrplot()用于绘图。ggcorrplot相当于精简版的corrplot包,只有主题更加丰富多样。

This function computes and returns the distance matrix computed by using the specified distance measure to compute the distances between the rows of a data matrix.

这个函数用特定的方法计算矩阵的行之间的距离,并返回距离矩阵。

scale是对矩阵的每一列进行标准化,如果要对行标准化需要先转置。如 heatmapdata <- t(scale(t(heatmapdata)))

相关系数r的计算公式是什么? - : 相关系数定义式为:若Y=a+bX,则有:令E(X) = μ,D(X) = σ,则E(Y) = bμ + a,D(Y) = bσ,E(XY) = E(aX + bX) = aμ + b(σ + μ),C...

样本相关系数怎么求 - :[答案] 四个格子里面分别是 abcd 即使 男赞同=a 男反对=b 女赞同=c 女反对=d 公式就是 rΦ=(ad-bc)/√[(a+b)*(a+c)*(b+d)*(c+d)] (四格表里面以ad为中心.相邻的两个数相加)

求相关系数r的公式 - :[答案] 所谓“相关系数”,其完整的名称应该是“简单线性相关系数”,描述的是两个变量线性相关的程度,其公式如下面图片,并没有你所谓的“曲线相关的相关系数”的!\x0d另外有“多重相关系数”的,是多元线性回归里的概念,是一个变量Y与多...

某工业部门进行了一项研究,分析该部门的产量与生产费用之间的关系,从这个工业部门内随机提选了10个企业作样本,有如下资料:产量x(千件)... - :[答案] 思路分析:(1)使用样本相关系数计算公式r=即可完成(2)由小概率0.05与r-2=8在附表中查得r0.05的大小,以检验所得结果,来说明y与x之间的线性相关是否显著(3)用公式代入即可求出.(1)根据题意制表如下:i12345678910合计xi...

在样本数据的回归分析中,相关指数R2的值越大,则残差平方和 n i=1(yi− ̂ yi)2() - :[选项] A. 越小 B. 越大 C. 可能大也可能小 D. 以上都不对

相关系数的作用及计算方法! - :[答案] 相关系数是变量之间相关程度的指标.样本相关系数用r表示,总体相关系数用ρ表示,相关系数的取值范围为[-1,1].|r|值越大,误差Q越小,变量之间的线性相关程度越高|r|值越接近0,Q越大,变量之间的线性相关程度越低.相关系数 又称皮(尔生)氏...

相关系数的计算公式是怎样得来的 - : 相关系数介于区间[-1,1]内.当相关系数为-1,表示完全负相关,表明两项资产的收益率变化方向和变化幅度完全相反.当相关系数为+1时,表示完全正相关,表明两项资产的收益率变化方向和变化幅度完全相同.当...

相关系数怎么算不分依变数Y 和自变量X的两个变数,其密切程度用相关系数r表示.对于有分依变数Y 和自变量X的两个变数,要表示 X、Y密切程度用什么表示... - :[答案] 对于有分依变数Y 和自变量X的两个变数,要表示 X、Y密切程度依然是用相关系数表示. 计算公式是r=E[(X-EX)(Y-EY)]/{[DX*DY]^1/2} E表示变量的期望,D表示变量的方差