R语言绘制生存曲线估计|生存分析|如何R作生存曲线图

By tecdat8月 22, 2019医药生物, 大数据部落, 数理统计R语言, 生存分析, 生存曲线, 绘制

根据生存曲线的估计，可以推断出相比组之间存活时间的差异，因此生存曲线非常有用，几乎可以在每个生存分析中看到。

由Kaizong Ye，Qing Li撰写

根据生存曲线的估计，可以推断出相比组之间存活时间的差异，因此生存曲线非常有用，几乎可以在每个生存分析中看到。

可下载资源

完整程序、数据和文档（word）

我们可以创建简单的生存曲线估计。让我们来看看患有卵巢癌（卵巢浆液性囊腺癌）和患有乳腺癌（乳腺浸润癌）的患者之间存活时间的差异。

× 基本概念和名词解释

1.生存分析（survival analysis）

是研究生存现象和响应时间数据及其统计规律的一门学科。
是将事件的结果（终点事件）和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
生存分析与其他多因素分析最大的区别，就是生存分析考虑了观测结果出现的时间长短。

2.生存时间（survival time, failure time）

终点事件与起始事件之间的时间间隔。
终点事件：研究者所关系的特定结局。
起始事件：反应研究对象生存过程的起始特征的事件。

终点事件与起始事件是相对而言的，都是由特定的研究目的所决定的，是整个研究过程的标尺，需要在设计时明确规定，并在研究期间严格遵守，不能随意改变。

生存时间举例

起始事件		终点事件
服药	—–>	痊愈
手术切除	—–>	死亡
染毒	—–>	死亡
化疗	—–>	缓解
缓解	—–>	复发

3.生存时间的类型（survival time, failure time）

(1) 完全（complete）数据
从起点至死亡（死于所研究疾病）所经历的时间
(2) 删失（censored）数据
指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生，因而得到的数据。

可见删失数据得到的时间是并不准确的

删失原因：失访、死于其它疾病、观察结束时病人尚存活

删失分类：

左删失（left censored）
只知道实际生存时间比观察到的要短
右删失（right censored）
只知道实际生存时间比观察到的要长
区间删失（interval censored）
只知道实际生存时间在某个区间范围内

生存时间度量单位可以是年、月、日、小时等，常用符号t表示，右删失数据右上角标记“+”，其他删失数据标记“？”。

截尾数据（Truncation）
只有“左截尾”和“右截尾”两种。

左截尾：数据都大于某个值
右截尾：数据都小于某个值

截尾数据的产生，往往是因为实验设计的要求使得数据天然具有上界或者下界。

如一个实验研究退休职工的生存情况，那么显然这些数据都是左截尾的，因为所有个体的年龄都大于退休年龄（如t≥60）

截尾与删失的区别

产生原因不同
删失数据的产生往往是随机的，不可事先预知的，如失访等
截尾数据在实验设计时往往就可以提前预知
“左右”意义不同
左截尾是数据大于某个值，左删失是数据小于某个值
右截尾是数据小于某个值，右删失是数据大于某个值
描述级别不同
删失数据体现的是个体数据的特点，如某个患者的数据是删失的
截尾数据体现的实验中样本整体的特点，如上面说的都大于60岁

二、统计概念和名词解释

申明：生存时间的分布一般不呈现正态分布

1.条件生存概率（conditional probability of survival）

表示某时段开始存活的个体，到该时段结束时仍存活的可能性。

年条件生存概率表示年初尚存人口存活满一年的可能性。

2.生存率（survival rate, survival function）

观察对象经历t个单位时间段后仍存活的可能性.

 
fit <- survfit(Surv(times, patient.vital_status) ~ admin.disease_code,
               data = BRCAOV.survInfo)
# 可视化

视频

R语言生存分析Survival analysis原理与晚期肺癌患者分析案例

探索见解 ➜

去bilibili观看 ➜

探索更多视频 ➜

这个简单的图表以优雅的方式呈现了生存概率的估计值，该估计值取决于根据癌症类型分组的癌症诊断天数和信息风险集表，其中显示了在特定时间段内观察的患者数量。生存分析是一个特定的数据分析领域，因为事件数据的审查时间，因此风险集大小是视觉推理的必要条件。

ggplot(
   fit,                     # 生存数据对象.
   data = BRCAOV.survInfo,  # 生存数据. 
   risk.table = TRUE,       # 风险表.
   pval = TRUE,             #    Logrank检验p-value
   conf.int = TRUE,         # 生存曲线置信区间.
   xlim = c(0,2000),         
                            #生存预测.
   break.time.by = 500,      
   ggtheme = theme_minimal(),  
 risk.table.y.text.col = T,  
  risk.table.y.text = FALSE  
)

每个参数都在相应的注释中描述，但我想强调xlim控制X轴限制但不影响生存曲线的参数，这些参数考虑了所有可能的时间。

比较

基础包

看起来很漂亮…..

最受欢迎的见解

1.R语言绘制生存曲线估计|生存分析|如何R作生存曲线图

2.R语言生存分析可视化分析

3.R语言如何在生存分析与Cox回归中计算IDI，NRI指标

4.r语言中使用Bioconductor 分析芯片数据

5.R语言生存分析数据分析可视化案例

6.r语言ggplot2误差棒图快速指南

7.R 语言绘制功能富集泡泡图

8.R语言如何找到患者数据中具有差异的指标？（PLS—DA分析）

9.R语言中的生存分析Survival analysis晚期肺癌患者4例

可下载资源

关于作者

Kaizong Ye是拓端研究室（TRL）的研究员。在此对他对本文所作的贡献表示诚挚感谢，他在上海财经大学完成了统计学专业的硕士学位，专注人工智能领域。擅长Python.Matlab仿真、视觉处理、神经网络、数据分析。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

非常感谢您阅读本文，如需帮助请联系我们！

相关文章

售前咨询热线

15121130882

售后咨询热线

0571-63341498