R语言绘制生存曲线估计|生存分析|如何R作生存曲线图

根据生存曲线的估计,可以推断出相比组之间存活时间的差异,因此生存曲线非常有用,几乎可以在每个生存分析中看到。

由Kaizong Ye,Qing Li撰写

根据生存曲线的估计,可以推断出相比组之间存活时间的差异,因此生存曲线非常有用,几乎可以在每个生存分析中看到。

我们可以创建简单的生存曲线估计。让我们来看看患有卵巢癌(卵巢浆液性囊腺癌)和患有乳腺癌(乳腺浸润癌)的患者之间存活时间的差异 。

× 基本概念和名词解释

1.生存分析(survival analysis)

是研究生存现象和响应时间数据及其统计规律的一门学科。 
是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。 
生存分析与其他多因素分析最大的区别,就是生存分析考虑了观测结果出现的时间长短。

2.生存时间(survival time, failure time)

终点事件起始事件之间的时间间隔。 
终点事件:研究者所关系的特定结局。 
起始事件:反应研究对象生存过程的起始特征的事件。

终点事件与起始事件是相对而言的,都是由特定的研究目的所决定的,是整个研究过程的标尺,需要在设计时明确规定,并在研究期间严格遵守,不能随意改变。

生存时间举例

起始事件 终点事件
服药 —–> 痊愈
手术切除 —–> 死亡
染毒 —–> 死亡
化疗 —–> 缓解
缓解 —–> 复发

3.生存时间的类型(survival time, failure time)

(1) 完全(complete)数据 
从起点至死亡(死于所研究疾病)所经历的时间 
(2) 删失(censored)数据 
指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生,因而得到的数据。

可见删失数据得到的时间是并不准确的

删失原因:失访、死于其它疾病、观察结束时病人尚存活

删失分类:

生存时间度量单位可以是年、月、日、小时等,常用符号t表示,右删失数据右上角标记“+”,其他删失数据标记“?”。

截尾数据(Truncation) 
只有“左截尾”和“右截尾”两种。

截尾数据的产生,往往是因为实验设计的要求使得数据天然具有上界或者下界。

如一个实验研究退休职工的生存情况,那么显然这些数据都是左截尾的,因为所有个体的年龄都大于退休年龄(如t≥60)

截尾与删失的区别

二、统计概念和名词解释

申明:生存时间的分布一般不呈现正态分布

1.条件生存概率(conditional probability of survival)

表示某时段开始存活的个体,到该时段结束时仍存活的可能性。

年条件生存概率表示年初尚存人口存活满一年的可能性。 

2.生存率(survival rate, survival function)

观察对象经历t个单位时间段后仍存活的可能性.




热门课程

R语言数据分析挖掘必知必会

面对扑面而来的数据浪潮,包含Google、Facebook等国际企业,都已采用R语言进行数据分析

探索课程

这个简单的图表以优雅的方式呈现了生存概率的估计值,该估计值取决于根据癌症类型分组的癌症诊断天数和信息风险集表,其中显示了在特定时间段内观察的患者数量。生存分析是一个特定的数据分析领域,因为事件数据的审查时间,因此风险集大小是视觉推理的必要条件。


可下载资源

关于作者

Kaizong Ye拓端研究室(TRL)的研究员。

本文借鉴了作者最近为《R语言数据分析挖掘必知必会 》课堂做的准备。

​非常感谢您阅读本文,如需帮助请联系我们!


 
QQ在线咨询
售前咨询热线
15121130882
售后咨询热线
0571-63341498