fit, #生存分析结果
data = NULL, #a dataset used to fit survival curves
fun = NULL, # 定义生存曲线转换的任意函数。 经常使用的转换可以用字符参数指定:“event”绘制累积事件(f(y) = 1-y),“cumhaz”绘制累积风险函数(f(y) = -log(y)),“pct”以百分比表示生存概率。
color = NULL, #曲线颜色
palette = NULL, #颜色调色板,可选调色板有 "grey","npg","aaas","lancet","jco", "ucscgb","uchicago","simpsons"和"rickandmorty".
linetype = 1, #线条形状,可以用数值型向量1,2表示,也可以用字符串向量c("solid", "dashed").
conf.int = FALSE, #是否画出置信区间
pval = FALSE, #是否显示P值
pval.method = FALSE, #是否添加计算P值得方法得文本,前提是pval = TRUE
test.for.trend = FALSE, #默认是F,如果TURE,返回trend Pvalues检验。 趋势检验旨在检测生存曲线的有序差异。 也就是说,至少对一个群体来说。 只有组数为>2时,才能进行趋势测试。
surv.median.line = "none", #画一条水平或者垂直得生存中位值线,允许的值有c("none", "hv", "h", "v"). v: 垂直vertical, h:水平horizontal.
risk.table = FALSE, #是否显示风险table。其他值有absolute" or "percentage",显示绝对数值/百分比;参数"abs_pct" ,百分比以及绝对数值都显示
cumevents = FALSE, # logical value specifying whether to show or not the table of the cumulative number of events.
cumcensor = FALSE, #logical value specifying whether to show or not the table of the cumulative number of censoring.
tables.height = 0.25, #设置table得高度,取值范围0-1
group.by = NULL, #包含分组变量名称得字符串向量。长度<=2
facet.by = NULL, #一个字符向量,包含将生存曲线分成多个面板的分组变量的名称。
add.all = FALSE, #一个逻辑值。 如果为TRUE,则在主图中添加合并患者(null model)的生存曲线。
combine = FALSE, # a logical value. If TRUE, combine a list survfit objects on the same plot.
ggtheme = theme_survminer(), #主题名称
tables.theme = ggtheme, #主题名称,默认是theme_survminer.
... #后面描述的参数和其他参数将被传递给ggplot2 geom_*()函数,如linetype, size, ii)或ggpar()函数来定制图形。 看到的细节部分
)
1. 安装和加载包
绘制Kaplan-Meier生存曲线需要用到的R包:survminer和survival。
library(survminer) # 加载包
library(survival) # 加载包
2 拟合曲线
R中使用survfit()函数来拟合生存曲线。
fit.3<-survfit(Surv(住院天数+病程,组别)~cd1656,data=data)
3. 绘制曲线函数
ggsurvplot(fit, data = NULL, fun = NULL, color = NULL,
palette = NULL, linetype = 1, conf.int = FALSE,
pval = FALSE, pval.method = FALSE,
test.for.trend = FALSE, surv.median.line = "none",
risk.table = FALSE, cumevents = FALSE,
cumcensor = FALSE, tables.height = 0.25,
group.by = NULL, facet.by = NULL, add.all = FALSE,
combine = FALSE, ggtheme = theme_survminer(),
tables.theme = ggtheme, ...)
# 参数解释
fit # 拟合的生存曲线对象
data # 用来拟合生存曲线的数据集
fun # 常用三个字符参数;
# "event"绘制累积事件(f(y)=1-y),
# "cumhaz"绘制累积危害函数(f(y)=-log(y))
# "pct"绘制生存概率(百分比)。
color # 设置生存曲线的颜色。
# 如果只有1条曲线,则直接设置color="blue";
# 如果有多条曲线,默认color="strata",按分组为生存曲线着色;
# 也可以自定义调色板来设置曲线颜色。
palette # 调色板,默认"hue"。
# 可选调色板有"grey","npg","aaas","lancet",
# "jco", "ucscgb","uchicago","simpsons"和"rickandmorty".
linetype = 1 # 设置曲线线型。可以按"strata"设置线型;
# 或按数字向量c(1, 2)或按字符向量c("solid", "dashed")设置
conf.int # 逻辑词;默认FASLE;为TRUE则绘制曲线置信区间
pval = FALSE # 逻辑词;为TRUE则将统计检验计算的p值添加到图上;
# 为数字,则直接指定P值大小,如pval = 0.03;
# 为字符串,则添加字符串到图上,如pval = "p-value: 0.031"
pval.method # 逻辑词,是否添加计算p值的统计方法的文本;
# 只有当 pval = TRUE时, 才会在图上添加检验方法文本
test.for.trend # 逻辑词,默认为FALSE;
# 为TRUE则返回趋势p值的检验,趋势检验旨在检验生存曲线的有序差异
surv.median.line # 在中位生存时间点处绘制水平或垂直线的字符向量;
# 可用值有"none"、"hv"、"h"、"v";其中v绘制垂直线,h绘制水平线。
risk.table = FALSE # 逻辑词,图上是否添加风险表;
# "absolute" 显示处于风险中的绝对数量;
# "percentage" 显示处于风险中的百分比数量
# "abs_pct" 显示处于风险中的绝对数量和百分比
cumevents # 逻辑词,是否添加累计事件表
cumcensor # 逻辑词,是否添加累计删失表
tables.height = 0.25 # 生存曲线图下所有生存表的高度,数值0-1之间
group.by # 包含分组变量名称的字符向量,向量长度≤2
facet.by # 字符向量,指定绘制分面生存曲线的分组变量(应≤2)的名称
ggtheme=theme_survminer() # 设置ggplot2主题,如theme_bw()
tables.theme # 作用于生存表的ggplot2主题名称
# 有theme_survminer、theme_cleantable()
add.all = FALSE # 逻辑词;是否添加总患者生存曲线到主生存图中
原文: R语言之生信⑦Cox比例风险模型(单因素)
======================================
在前一章(TCGA生存分析)中,我们描述了生存分析的基本概念以及分析和总结生存数据的方法,包括:1.危险和生存功能的定义 2.为不同患者群构建Kaplan-Meier生存曲线用于比较两条或更多条生存曲线的logrank检验
但是上述方法--Kaplan-Meier曲线和logrank测试 - 是单变量分析的例子。他们根据调查中的一个因素来描述生存,但忽略了任何其他因素的影响。
此外,Kaplan-Meier曲线和logrank检验仅在预测变量是分类时才有用(例如:治疗A与治疗B男性与女性)。它们不适用于基因表达,体重或年龄等定量预测因子。
另一种方法是Cox比例风险回归分析,它适用于定量预测变量和分类变量。此外,Cox回归模型扩展了生存分析方法,以同时评估几种风险因素对生存时间的影响。
在临床研究中,存在许多情况,其中几个已知量(称为协变量)可能影响患者预后。
例如,假设比较两组患者:那些患者和没有特定基因型的患者。如果其中一组也包含较老的个体,则存活率的任何差异可归因于基因型或年龄或两者。因此,在研究与任何一个因素相关的生存时,通常需要调整其他因素的影响。
cox比例风险模型是用于对生存分析数据建模的最重要方法之一。该模型的目的是同时评估几个因素对生存的影响。换句话说,它允许我们检查特定因素如何影响特定时间点发生的特定事件(例如,感染,死亡)的发生率。该比率通常称为危险率。预测变量(或因子)通常在生存分析文献中称为协变量。
要一次将单变量coxph函数应用于多个协变量,请键入:
上面的输出显示了回归β系数,效应大小(作为风险比给出)和每个变量相对于总体生存的统计显着性。每个因素都通过单独的单变量Cox回归来评估。