如何用R语言进行相关系数与多变量的meta分析

2023-04-28 22:14:01Python021

如何用R语言进行相关系数与多变量的meta分析,第1张

本文第一大部分将介绍用R软件的meta分析数据包实现相关系数的Meta分析，第二大部分如何用R语言进行多变量的meta分析。

想获取R语言相关系数meta分析的程序模板的同学请在公众号（全哥的学习生涯）内回复“相关系数”即可。

meta数据包提供实现相关系数的Meta分析命令是:metacor()，这个命令通过加权的倒方差法运用相关系数和纳入的样本数来实现相关系数的随机效用模型和固定效用模型的合并，得到合并的相关系数及95%可信区间。具体的命令如下：

metacor(cor, n,studlab, data= NULL, subset=NULL, sm=.settings$smcor)

cor为每一个纳入研究的相关系数, n为样本量, studlab纳入研究的标签向量, data为相应的的数据集,sm选项为合并的方法，包括ZCOR和COR，其中ZCOR是合并之前先做Fisher Z变换，COR是直接合并。具体的步骤如下：

library(meta)

data<-read.csv(“C:/Users/86187/Desktop/data.csv”)

录入的数据见图1。

data<-metacor(r,n,data=m1,sm="ZCOR")

在这里合并的方法用的是Fisher Z变换。对样本的相关系数做Fisher Z变换是因为Fisher Z变换可以使样本的相关系数的分布正态分布，尤其是在样本量较小的时候，这样便于进一步估计。一般来说，不管是随机还是固定效应都会先对相关系数做Fisher Z变换。只有很少的情况下才直接用相关系数直接来做分析，比如样本量很大的时候，如果直接合并相关系数，当相关系数值接近1的时候，小样本量研究得到的权重会非常大。因此在这里推荐合并的方法都用(ZCOR)Fisher Z变换。Meta分析的结果见图2。

结果显示，异质性检验Q=6.16, P=0.0461, I2=67.5,可以认为有统计学意义上的异质性。选用随机效用模型，COR=0.8427, 95%CI: 0.6264-0.9385, z=4.8724, P<0.0001, 有统计学差异。

具体的命令如下：

forest(a)

从森林图中，非常简单和直观地看到Meta分析的统计结果，见图3

关于这两个方法的介绍请看我之前公众号（全哥的学习生涯）的推送文章（如何用R语言进行meta分析，详细教程一）的内容。敏感性分析和剪补法的结果图分别见图4和图5。

通常Meta分析假定效应量来自于独立的研究，因此统计结果也是独立的。然而，许多研究不能满足独立性的假设，比如多个治疗组与一个共同的对照组比较的研究和多个结局变量的研究就可能产生效应量之间的相关。多变量meta 分析（multivariate meta⁃analysis）作为单变量meta分析的一个拓展，可合并估计多个研究的多个相关参数，这些参数可以是多个结局或多组间的比较。当同一总体中的测量结局相关时，分别对每个结局进行Meta 分析，测量结局之间的相关结构就可能被忽略。多变量Meta分析在随机对照研究中有多种应用，最简单的是在临床试验中把每个组的结局分别处理，其他的应用还有同时探索两个临床结局的治疗效应，或同时探索成本效益的治疗效应，比较多个治疗的联合试验，以及在观察性研究中评估暴露量与疾病之间的相关性，还有在诊断试验和网络干预中的应用。

本次数据来源请见文末的参考文献，主要研究肝硬化的非手术治疗方式预防其出血的危险性，以初次出血的例数为指标，其中三个组分别是：β⁃受体阻滞剂（A），硬化疗法（B），对照组（C），目的是评价这三种非手术治疗方式预防肝硬化出血的效果。，Bled表示初次出血的例数，Total表示干预组的总例数。YAC和YBC分别表示A、B两组相对于C组估计的ln（OR），即干预组的肝硬化初次出血的危险性是对照组的倍数的自然对数；SAA、SBB和SAB则表示其对应方差及两者之间的协方差。对于包含0的研究（研究10和研究20），在每个组增加0.5个初次出血的例数。整理后见表1。

随后安装调用程序包，并进行加载：

install.packages(‘mvmeta’)

library(mvmeta)。

随后将肝硬化初次出血整理后的数据集data（至少包含YAC、YBC、SAA、SAB、SBB变量）保存为csv格式，然后利用下面命令将其导入R语言。

mvmeta 的语句：mvmeta（formula，S，data，subset，method=“reml”，bscov=“unstr”，model=TRUE，contrasts=NULL，offset，na.action，control=list（））

其中formula 表示结局变量名称（即YAC、YBC）；S 表示研究内（协）方差（即SAA、SAB、SBB）；data 表示数据集名称；method 表示所用的估计方法：固定效应模型时选择FIXED；随机效应模型时则选择

限制性最大似然估计（REML）、最大似然估计（ML）、矩估计（MM）、方差成分法（VC）的其中之一，默认为REML。由输出结果中Q 检验的P 值和I2 统计量来判断异质性以及选择何种效应模型。

mvmeta包中主要提供了多变量Meta分析与多变量的Meta 回归，另外也提供了单变量的Meta 分析和Meta 回归。但对于后两者，在R 语言中的metafor、meta、rmeta 及metalik 等包提供了更多、更详尽和有效的功能。多变量Meta 程序为library（mvmeta），调用mvmeta软件包。

model<-mvmeta（cbind（Ya，Yb），S=S，data=cirrhosis）

model <- mvmeta（cbind（Ya，Yb）~X，S=S，data=cirrhosis），此处X代表协变量。

model<-mvmeta（Y，S=S，data=cirrhosis），此处Y为单变量的效应量，S为效应量方差。

model<-mvmeta（Y~X，S=S，data=cirrhosis），此处X代表协变量。

运行以上程序后，最后将结果输出。

单变量和多变量Meta分析都是采用ln（OR）值做分析。单变量Meta分析时YAC和YBC的Q检验P 值均小于0.05，I2统计量分别为57.7%和77.8%。多变量Meta分析Q检验P<0.05，I2统计量为73.9%。可知两种Meta 分析均存在异质性，都用随机效应模型。估计方法选择默认的REML法。

表2 是单变量Meta 分析结果，可得：AC 与BC的OR 值及95%可信区间分别为0.5281（0.2802,0.9955）、0.5406(0.3095,0.9443)，表明初次出血的危险性由于干预而降低，即β⁃受体阻滞剂、硬化疗法可以预防肝硬化出血，两者为保护因素。

多变量Meta 分析的结果：YAC 为-0.6755（-1.3073，-0.0438），YBC 为-0.5938（-1.1444,-0.043 2），研究间相关系数为0.436 5（见表3），A组与B组的治疗效果呈正相关。OR 值及95%可信区间分别为0.508 9（0.2705，0.9571）、0.5522（0.318 4，0.957 7），多变量Meta 分析的结果说明β⁃受体阻滞剂预防肝硬化出血的效果是最好，其次是硬化疗法。OR 值的95%可信区间不包含1，上下限均小于1，说明两种疗法与对照组比较的初次出血危险性均小于1，差异有统计学意义。

最后，如果屏幕前的你对R语言学习还有什么问题或者看法，可以在我的公众号（全哥的学习生涯）给我留言，公众号里也有我的个人联系方式，我也希望可以结合更多志同道合的伙伴。

感谢你的阅读。

ks.test()实现了KS检验，可以检验任意样本是不是来自给定的连续分布。你这里的用法就是：ks.test(data,pt,df=df) #data是样本的数据，df是要检验的t分布的自由度我们可以用很多方法分析一个单变量数据集的分布。最简单的办法就是直接看数字。利用函数summary 和fivenum 会得到两个稍稍有点差异的汇总信息。此外，stem(\茎叶"图)也会反映整个数据集的数字信息。>attach(faithful)>summary(eruptions)Min. 1st Qu. Median Mean 3rd Qu. Max.1.600 2.163 4.000 3.488 4.454 5.100>fivenum(eruptions)[1] 1.6000 2.1585 4.0000 4.4585 5.1000>stem(eruptions)The decimal point is 1 digit(s) to the left of the |16 | 07035555558818 | 00002223333333557777777788882233577788820 | 0000222337880003577822 | 000233557802357824 | 0022826 | 2328 | 08030 | 732 | 233734 | 25007736 | 000082357738 | 233333558222557740 | 000000335778888800223355557777842 | 0333555577880023333355557777844 | 0222233555778000000002333335777888846 | 000023335770000002357848 | 0000002233580033350 | 0370茎叶图和柱状图相似，R 用函数hist 绘制柱状图。>hist(eruptions)>## 让箱距缩小，绘制密度图>hist(eruptions, seq(1.6, 5.2, 0.2), prob=TRUE)>lines(density(eruptions, bw=0.1))>rug(eruptions) # 显示实际的数据点更为精致的密度图是用函数density 绘制的。在这个例子中，我们加了一条由density 产生的曲线。你可以用试错法（trial-and-error）选择带宽bw（bandwidth）因为默认的带宽值让密度曲线过于平滑（这样做常常会让你得到非常有\意思"的密度分布）。(现在已经有一些自动的带宽挑选方法2，在这个例子中bw = "SJ"给出的结果不错。)我们可以用函数ecdf 绘制一个数据集的经验累积分布（empirical cumulativedistribution）函数。>plot(ecdf(eruptions), do.points=FALSE, verticals=TRUE)显然，这个分布和其他标准分布差异很大。那么右边的情况怎么样呢，就是火山爆发3分钟后的状况？我们可以拟合一个正态分布，并且重叠前面得到的经验累积密度分布。>long <- eruptions[eruptions >3]>plot(ecdf(long), do.points=FALSE, verticals=TRUE)>x <- seq(3, 5.4, 0.01)>lines(x, pnorm(x, mean=mean(long), sd=sqrt(var(long))), lty=3)分位比较图（Quantile-quantile (Q-Q) plot）便于我们更细致地研究二者的吻合程度。par(pty="s") # 设置一个方形的图形区域qqnorm(long)qqline(long)上述命令得到的QQ图表明二者还是比较吻合的，但右侧尾部偏离期望的正态分布。我们可以用t 分布获得一些模拟数据以重复上面的过程x <- rt(250, df = 5)qqnorm(x)qqline(x)这里得到的QQ图常常会出现偏离正态期望的长尾区域(如果是随机样本)。我们可以用下面的命令针对特定的分布绘制Q-Q图qqplot(qt(ppoints(250), df = 5), x, xlab = "Q-Q plot for t dsn")qqline(x)最后，我们可能需要一个比较正规的正态性检验方法。R提供了Shapiro-Wilk 检验>shapiro.test(long)Shapiro-Wilk normality testdata: longW = 0.9793, p-value = 0.01052和Kolmogorov-Smirnov 检验>ks.test(long, "pnorm", mean = mean(long), sd = sqrt(var(long)))One-sample Kolmogorov-Smirnov testdata: longD = 0.0661, p-value = 0.4284alternative hypothesis: two.sided(注意一般的统计分布理论（distribution theory）在这里可能无效，因为我们用同样的样本对正态分布的参数进行估计的。)转载于： http://www.biostatistic.net/thread-2413-1-1.html

原文: R语言之生信⑦Cox比例风险模型(单因素)

======================================

在前一章（TCGA生存分析）中，我们描述了生存分析的基本概念以及分析和总结生存数据的方法，包括：1.危险和生存功能的定义 2.为不同患者群构建Kaplan-Meier生存曲线用于比较两条或更多条生存曲线的logrank检验

但是上述方法--Kaplan-Meier曲线和logrank测试 - 是单变量分析的例子。他们根据调查中的一个因素来描述生存，但忽略了任何其他因素的影响。

此外，Kaplan-Meier曲线和logrank检验仅在预测变量是分类时才有用（例如：治疗A与治疗B男性与女性）。它们不适用于基因表达，体重或年龄等定量预测因子。

另一种方法是Cox比例风险回归分析，它适用于定量预测变量和分类变量。此外，Cox回归模型扩展了生存分析方法，以同时评估几种风险因素对生存时间的影响。

在临床研究中，存在许多情况，其中几个已知量（称为协变量）可能影响患者预后。

例如，假设比较两组患者：那些患者和没有特定基因型的患者。如果其中一组也包含较老的个体，则存活率的任何差异可归因于基因型或年龄或两者。因此，在研究与任何一个因素相关的生存时，通常需要调整其他因素的影响。

cox比例风险模型是用于对生存分析数据建模的最重要方法之一。该模型的目的是同时评估几个因素对生存的影响。换句话说，它允许我们检查特定因素如何影响特定时间点发生的特定事件（例如，感染，死亡）的发生率。该比率通常称为危险率。预测变量（或因子）通常在生存分析文献中称为协变量。

要一次将单变量coxph函数应用于多个协变量，请键入：

上面的输出显示了回归β系数，效应大小（作为风险比给出）和每个变量相对于总体生存的统计显着性。每个因素都通过单独的单变量Cox回归来评估。

变量系数样本多变效应