R语言之生信⑦Cox比例风险模型(单因素)

Python017

R语言之生信⑦Cox比例风险模型(单因素),第1张

原文: R语言之生信⑦Cox比例风险模型(单因素)

======================================

在前一章(TCGA生存分析)中,我们描述了生存分析的基本概念以及分析和总结生存数据的方法,包括:1.危险和生存功能的定义 2.为不同患者群构建Kaplan-Meier生存曲线用于比较两条或更多条生存曲线的logrank检验

但是上述方法--Kaplan-Meier曲线和logrank测试 - 是单变量分析的例子。他们根据调查中的一个因素来描述生存,但忽略了任何其他因素的影响。

此外,Kaplan-Meier曲线和logrank检验仅在预测变量是分类时才有用(例如:治疗A与治疗B男性与女性)。它们不适用于基因表达,体重或年龄等定量预测因子。

另一种方法是Cox比例风险回归分析,它适用于定量预测变量和分类变量。此外,Cox回归模型扩展了生存分析方法,以同时评估几种风险因素对生存时间的影响。

在临床研究中,存在许多情况,其中几个已知量(称为协变量)可能影响患者预后。

例如,假设比较两组患者:那些患者和没有特定基因型的患者。如果其中一组也包含较老的个体,则存活率的任何差异可归因于基因型或年龄或两者。因此,在研究与任何一个因素相关的生存时,通常需要调整其他因素的影响。

cox比例风险模型是用于对生存分析数据建模的最重要方法之一。该模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点发生的特定事件(例如,感染,死亡)的发生率。该比率通常称为危险率。预测变量(或因子)通常在生存分析文献中称为协变量。

要一次将单变量coxph函数应用于多个协变量,请键入:

上面的输出显示了回归β系数,效应大小(作为风险比给出)和每个变量相对于总体生存的统计显着性。每个因素都通过单独的单变量Cox回归来评估。

Logistic回归在做风险评估时,一般采用二值逻辑斯蒂回归(Binary Logistic Regression)。以滑坡灾害风险评估为例。1、滑坡发生与否分别用0和1表示(1表示风险发生,0表示风险未发生);2、确定影响滑坡风险的影响因子,这个根据区域具体情况而定,一般包括:地层岩性、植被、降水、地貌、断层、人类活动等等。如果是其他风险的话也根据具体情况而定(咨询专家就可以知道)。3、构建回归分析的样本。Logistic回归也是统计学里面的内容,所以必须得构建统计分析的样本。以构建滑坡风险统计分析的样本为例,先找出滑坡发生的地区,同时计算滑坡发生地区的各个影响因子的指标值。再选择滑坡未发生的地区,同时计算滑坡未发生地区各个影响因子的指标值。这样,就构建了统计样本,自变量为各个影响因子的指标值,应变量为0和1,。把样本导入SPSS里面进行分析,就可以构建自变量和因变量之间的非线性关系模型,然后用这个模型继续求解其他区域滑坡风险的概率值。

希望我的答案对你能有帮助!