如何用R语言进行相关系数与多变量的meta分析

2023-02-21 07:46:02Python010

如何用R语言进行相关系数与多变量的meta分析,第1张

本文第一大部分将介绍用R软件的meta分析数据包实现相关系数的Meta分析，第二大部分如何用R语言进行多变量的meta分析。

想获取R语言相关系数meta分析的程序模板的同学请在公众号（全哥的学习生涯）内回复“相关系数”即可。

meta数据包提供实现相关系数的Meta分析命令是:metacor()，这个命令通过加权的倒方差法运用相关系数和纳入的样本数来实现相关系数的随机效用模型和固定效用模型的合并，得到合并的相关系数及95%可信区间。具体的命令如下：

metacor(cor, n,studlab, data= NULL, subset=NULL, sm=.settings$smcor)

cor为每一个纳入研究的相关系数, n为样本量, studlab纳入研究的标签向量, data为相应的的数据集,sm选项为合并的方法，包括ZCOR和COR，其中ZCOR是合并之前先做Fisher Z变换，COR是直接合并。具体的步骤如下：

library(meta)

data<-read.csv(“C:/Users/86187/Desktop/data.csv”)

录入的数据见图1。

data<-metacor(r,n,data=m1,sm="ZCOR")

在这里合并的方法用的是Fisher Z变换。对样本的相关系数做Fisher Z变换是因为Fisher Z变换可以使样本的相关系数的分布正态分布，尤其是在样本量较小的时候，这样便于进一步估计。一般来说，不管是随机还是固定效应都会先对相关系数做Fisher Z变换。只有很少的情况下才直接用相关系数直接来做分析，比如样本量很大的时候，如果直接合并相关系数，当相关系数值接近1的时候，小样本量研究得到的权重会非常大。因此在这里推荐合并的方法都用(ZCOR)Fisher Z变换。Meta分析的结果见图2。

结果显示，异质性检验Q=6.16, P=0.0461, I2=67.5,可以认为有统计学意义上的异质性。选用随机效用模型，COR=0.8427, 95%CI: 0.6264-0.9385, z=4.8724, P<0.0001, 有统计学差异。

具体的命令如下：

forest(a)

从森林图中，非常简单和直观地看到Meta分析的统计结果，见图3

关于这两个方法的介绍请看我之前公众号（全哥的学习生涯）的推送文章（如何用R语言进行meta分析，详细教程一）的内容。敏感性分析和剪补法的结果图分别见图4和图5。

通常Meta分析假定效应量来自于独立的研究，因此统计结果也是独立的。然而，许多研究不能满足独立性的假设，比如多个治疗组与一个共同的对照组比较的研究和多个结局变量的研究就可能产生效应量之间的相关。多变量meta 分析（multivariate meta⁃analysis）作为单变量meta分析的一个拓展，可合并估计多个研究的多个相关参数，这些参数可以是多个结局或多组间的比较。当同一总体中的测量结局相关时，分别对每个结局进行Meta 分析，测量结局之间的相关结构就可能被忽略。多变量Meta分析在随机对照研究中有多种应用，最简单的是在临床试验中把每个组的结局分别处理，其他的应用还有同时探索两个临床结局的治疗效应，或同时探索成本效益的治疗效应，比较多个治疗的联合试验，以及在观察性研究中评估暴露量与疾病之间的相关性，还有在诊断试验和网络干预中的应用。

本次数据来源请见文末的参考文献，主要研究肝硬化的非手术治疗方式预防其出血的危险性，以初次出血的例数为指标，其中三个组分别是：β⁃受体阻滞剂（A），硬化疗法（B），对照组（C），目的是评价这三种非手术治疗方式预防肝硬化出血的效果。，Bled表示初次出血的例数，Total表示干预组的总例数。YAC和YBC分别表示A、B两组相对于C组估计的ln（OR），即干预组的肝硬化初次出血的危险性是对照组的倍数的自然对数；SAA、SBB和SAB则表示其对应方差及两者之间的协方差。对于包含0的研究（研究10和研究20），在每个组增加0.5个初次出血的例数。整理后见表1。

随后安装调用程序包，并进行加载：

install.packages(‘mvmeta’)

library(mvmeta)。

随后将肝硬化初次出血整理后的数据集data（至少包含YAC、YBC、SAA、SAB、SBB变量）保存为csv格式，然后利用下面命令将其导入R语言。

mvmeta 的语句：mvmeta（formula，S，data，subset，method=“reml”，bscov=“unstr”，model=TRUE，contrasts=NULL，offset，na.action，control=list（））

其中formula 表示结局变量名称（即YAC、YBC）；S 表示研究内（协）方差（即SAA、SAB、SBB）；data 表示数据集名称；method 表示所用的估计方法：固定效应模型时选择FIXED；随机效应模型时则选择

限制性最大似然估计（REML）、最大似然估计（ML）、矩估计（MM）、方差成分法（VC）的其中之一，默认为REML。由输出结果中Q 检验的P 值和I2 统计量来判断异质性以及选择何种效应模型。

mvmeta包中主要提供了多变量Meta分析与多变量的Meta 回归，另外也提供了单变量的Meta 分析和Meta 回归。但对于后两者，在R 语言中的metafor、meta、rmeta 及metalik 等包提供了更多、更详尽和有效的功能。多变量Meta 程序为library（mvmeta），调用mvmeta软件包。

model<-mvmeta（cbind（Ya，Yb），S=S，data=cirrhosis）

model <- mvmeta（cbind（Ya，Yb）~X，S=S，data=cirrhosis），此处X代表协变量。

model<-mvmeta（Y，S=S，data=cirrhosis），此处Y为单变量的效应量，S为效应量方差。

model<-mvmeta（Y~X，S=S，data=cirrhosis），此处X代表协变量。

运行以上程序后，最后将结果输出。

单变量和多变量Meta分析都是采用ln（OR）值做分析。单变量Meta分析时YAC和YBC的Q检验P 值均小于0.05，I2统计量分别为57.7%和77.8%。多变量Meta分析Q检验P<0.05，I2统计量为73.9%。可知两种Meta 分析均存在异质性，都用随机效应模型。估计方法选择默认的REML法。

表2 是单变量Meta 分析结果，可得：AC 与BC的OR 值及95%可信区间分别为0.5281（0.2802,0.9955）、0.5406(0.3095,0.9443)，表明初次出血的危险性由于干预而降低，即β⁃受体阻滞剂、硬化疗法可以预防肝硬化出血，两者为保护因素。

多变量Meta 分析的结果：YAC 为-0.6755（-1.3073，-0.0438），YBC 为-0.5938（-1.1444,-0.043 2），研究间相关系数为0.436 5（见表3），A组与B组的治疗效果呈正相关。OR 值及95%可信区间分别为0.508 9（0.2705，0.9571）、0.5522（0.318 4，0.957 7），多变量Meta 分析的结果说明β⁃受体阻滞剂预防肝硬化出血的效果是最好，其次是硬化疗法。OR 值的95%可信区间不包含1，上下限均小于1，说明两种疗法与对照组比较的初次出血危险性均小于1，差异有统计学意义。

最后，如果屏幕前的你对R语言学习还有什么问题或者看法，可以在我的公众号（全哥的学习生涯）给我留言，公众号里也有我的个人联系方式，我也希望可以结合更多志同道合的伙伴。

感谢你的阅读。

R的功能很强大，各种包很多。但就是因为包太多，造成了很大的麻烦。不可避免的，可以做结构方程模型的包也不少，例如：sem、psych、OpenMx，lavaan等。我选择了lavaan包。原因：语法简介易懂，上手快，支持非正态、连续数据，可以处理缺失值。

lavaan包是由比利时根特大学的Yves Rosseel开发的。lavaan的命名来自于 latent variable analysis，由每个单词的前两个字母组成，la-va-an——lavaan。

为什么说它简单呢? 主要是因为它的lavaan model syntax，如果你会R的回归分析，那它对你来说再简单不过了。

一、语法简介

语法一：f3~f1+f2（路径模型）

结构方程模型的路径部分可以看作是一个回归方程。而在R中，回归方程可以表示为y~ax1+bx2+c，“~”的左边的因变量，右边是自变量，“+”把多个自变量组合在一起。那么把y看作是内生潜变量，把x看作是外生潜变量，略去截距，就构成了lavaan model syntax的语法一。

语法二：f1 =~ item1 + item2 + item3（测量模型）

"=~"的左边是潜变量，右边是观测变量，整句理解为潜变量f1由观测变量item1、item2和item3表现。

语法三：item1 ~~ item1 , item1 ~~ item2

"~~"的两边相同，表示该变量的方差，不同的话表示两者的协方差

语法四：f1 ~ 1

表示截距

此外还有其它高阶的语法，详见lavaan的help文档，一般的结构方程建模分析用不到，就不再列出。

二、模型的三种表示方法

以验证性因子分析举例说明，对于如下图所示的模型：

方法一：最简化描述

只需指定最基本的要素即可，其他的由函数自动实现，对模型的控制力度最弱。只使用于函数cfa()和sem()

model<-'visual=~x1+x2+x3 textual=~x4+x5+x6 speed=~x7+x8+x9' fit <- cfa(model, data = HolzingerSwineford1939)

需要注意的是，这种指定模型的方式在进行拟合时，会默认指定潜变量的第一个测量变量的因子载荷为1，如果要指定潜变量的方差为1，可以：

model.bis <- 'visual =~ NA*x1 + x2 + x3 textual =~ NA*x4 + x5 + x6 speed =~ NA*x7 + x8 + x9 visual ~~ 1*visual textual ~~ 1*textual speed ~~ 1*speed'

方法二：完全描述

需要指定所有的要素，对模型控制力最强，适用于lavaan()函数，适合高阶使用者

model.full<- ' visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 x1 ~~ x1 x2 ~~ x2 x3 ~~ x3 x4 ~~ x4 x5 ~~ x5 x6 ~~ x6 x7 ~~ x7 x8 ~~ x8 x9 ~~ x9 visual ~~ visual textual ~~ textual speed ~~ speed visual ~~ textual +speed textual ~~ speed' fit <- lavaan(model.full, data = HolzingerSwineford1939)

方法三：不完全描述

最简化和完全描述的混合版，在拟合时增加 auto.* 参数，适用于lavaan()函数

model.mixed<- '# latent variables visual =~ 1*x1 + x2 +x3 textual =~ 1*x4 + x5 + x6 speed =~ 1*x7 + x8 +x9 # factor covariances visual ~~ textual + speed textual ~~ speed' fit <- lavaan(model.mixed, data = HolzingerSwineford1939, auto.var = TRUE)

可以设定的参数详见help帮助文档

PS:可以在lavaan()函数里设置参数mimic="Mplus"获得与Mplus在数值和外观上相似的结果，设置mimic="EQS",输出与EQS在数值上相似的结果

三、拟合结果的查看

查看拟合结果的最简单方法是用summary()函数，例如

summary(fit, fit.measures=TRUE)

但summary()只适合展示结果，parameterEstimates()会返回一个数据框，方便进一步的处理

parameterEstimates(fit,ci=FALSE,standardized = TRUE)

获得大于10的修正指数

MI<- modificationindices(fit) subset(MI,mi>10)

此外，还有其他的展示拟合结果的函数，功能还是蛮强大的

四、结构方程模型

（1）设定模型

model<- ' # measurement model ind60 =~ x1 + x2 +x3 dem60 =~ y1 + y2 + y3 + y4 dem65 =~ y5 + y6 + y7 + y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # redisual covariances y1 ~~ y5 y2 ~~ y4 +y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

（2）模型拟合

fit <- sem(model, data = PoliticalDemocracy) summary(fit, standardized = TRUE)

（3）给回归系数设置标签

给回归系数设定标签在做有约束条件的结构方程模型时会很有用。当两个参数具有相同的标签时，会被视为同一个，只计算一次。

model.equal <- '# measurement model ind60 =~ x1 + x2 + x3 + dem60 =~ y1 + d1*y2 + d2*y3 + d3*y4 dem65 =~ y5 + d1*y6 + d2*y7 + d3*y8 # regressions dem60 ~ ind60 dem65 ~ ind60 + dem60 # residual covariances y1 ~~ y5 y2 ~~ y4 + y6 y3 ~~ y7 y4 ~~ y8 y6 ~~ y8'

（4）多组比较

anova(fit, fit.equal)

anova()会计算出卡方差异检验

（5）拟合系数

lavaan包可以高度定制化的计算出你想要的拟合指标值，例如，我想计算出卡方、自由度、p值、CFI、NFI、IFI、RMSEA、EVCI的值

fitMeasures(fit,c("chisq","df","pvalue","cfi","nfi","ifi","rmsea","EVCI"))

（6）多组结构方程

在拟合函数里面设置 group参数即可实现，同样的可以设置group.equal参数引入等式限制

五、作图

Amos以作图化操作见长，目前版本的Mplus也可以实现作图，那R语言呢，自然也是可以的，只不过是另一个包——semPlot，其中的semPaths()函数。

简单介绍一下semPaths()中的主要函数

semPaths(object, what = "paths", whatLabels, layout = "tree", ……）

（1）object：是拟合的对象，就是上文中的“fit”

（2）what：设定图中线的属性，默认为paths,图中所有的线都为灰色，不显示参数估计值；

semPaths(fit)

若what设定为est、par，则展示估计值，并将线的颜色、粗细、透明度根据参数估计值的大小和显著性做出改变

semPaths(fit,what = "est")

若设置为stand、std，则展示标准参数估计

semPaths(fit,what = "stand")

若设置为eq、cons，则与默认path相同，如果有限制等式，被限制的相同参数会打上相同的颜色；

（3）whatLabels：设定图中线的标签

name、label、path、diagram:将边名作为展示的标签

est、par:参数估计值作为边的标签

stand、std:标准参数估计值作为边的标签

eq、cons：参数号作为标签，0表示固定参数，被限制相同的参数编号相同

no、omit、hide、invisible：隐藏标签

（4）layout:布局

主要有树状和环状两种布局，每种布局又分别有两种风格。

默认为“tree”,树状的第二种风格如下图，比第一种看起来舒服都了

semPaths(fit,layout = "tree2")

第一种环状

semPaths(fit,layout = "circle")

额，都揉成一团了！

试试第二种风格

semPaths(fit,layout = "circle2")

还好一点。如果把Rstudio默认的图片尺寸设计好，作图效果会更棒。

还有一种叫spring的布局，春OR泉？

semPaths(fit,layout = "spring")

看起来跟环状的很像。

详细内容可以阅读以下文献，以及相应的help文档：

[1]Rosseel Y. lavaan: An R package for structural equation modeling[J]. Journal of Statistical Software, 2012, 48(2): 1-36.

R语言实用案例分析-相关系数的应用

在日常工作中，经常会存在多个变量之间存在关联关系，比如学习数学好的同学，物理成绩可能也比较高。在公司中外貌和讨人喜欢的关系往往也比较大，在人事招聘过程中，如果想要更加综合的评价某个人，需要把相关系数比较高的方面进行权重或者均值处理。

如以下案例：

现有30名应聘者来公司应聘，公司为这些应聘者制定了15项指标，分别是：求职信的形式（FL）、外貌（APP）、专业能力（AA）、讨人喜欢（LA）、自信心（SC）、洞察力（LC）、诚实（HON）、推销能力（SMS）、经验（EXP）、驾驶水平(DRV）、事业心（AMB）、理解能力（POT）、交际能力（KJ）和适应性（SUIT）。每项分数是从0到10分，0分最低，10分最高。每位求职者的15项指标如下所示，公司计划只录取前5名申请者，公司到底该如何选择呢？

#读入数据

rt<-read.table("applicant.data")

AVG<-apply(rt,1,mean)

sort(AVG,descreasing=TRUE)

attach(rt)

#找到相关系数高的分为一组，然后取平均值，防止值过大

rt$G1<-(SC+LC+SMS+DRV+AMB+GSP+POT)/7

rt$G2<-(FL+EXP+SUIT)/3

rt$G3<-(LA+HON+KJ)/3

rt$G4<-AA

rt$G5<-APP

AVG<-apply(rt[,16:20], 1, mean)