我们常采用logistic回归处理二分类因变量和多个自变量之间的关系,但当出现结局所经历的时间也很重要时,比如,恶性肿瘤随访研究中,研究对象出现死亡、复发等结局所经历的时间也很重要,这时候就需要考虑生存分析了。
生存分析(survival analysis)是将事件的结果和出现这一结果所经历的时间结合起来分析的一类统计分析方法;用于研究生存时间和结局与众多影响因素之间的关系。做生存分析时,必须有终点事件是否发生的状态变量(二分类变量)和随访到这个状态的时间(连续变量)。下面介绍一下生存分析相关的概念:
25.1生存时间
生存时间(survival time)是指从观察起点到终点事件之间所经历的时间跨度,度量单位可以是小时、日、月、年等。观察起点、终点事件、时间单位应在研究设计阶段明确。观察起点可以是随机入组的时间、疾病的确诊时间、药物治疗或手术开始或结束时间,终点事件常是某种疾病的发生、疾病复发或死亡等。
25.2删失
生存结局(status)分为“死亡”与删失(censoring)两类,“死亡”是感兴趣的终点事件,其他生存结局都归类为删失。研究结束时尚未发生终点事件、失访、死于其他原因等终止观察均属于删失的范畴。
举例来说,如果要研究直肠癌患者的预后,研究的终点事件是死于直肠癌;那么,因车祸的死亡、心肌梗死发生的死亡、存活、失访的患者都属于删失。在生存分析曲线中,删失数据统一用“+”表示。
此外,要注意,在生存分析研究中,删失值所占的比例不宜太大。删失的比例过大会影响生存分析的检验效能。
25.3生存概率、生存率
生存概率(probability of survival)表示某时段开始时存活的个体,在某时刻仍存活的可能性。生存率(survival rate)指经历一段时间后仍存活的可能性,如5年生存率指研究对象第5年时仍存活的可能性。考虑到删失数据的存在,生存率等于各分段生存概率的乘积。
25.4中位生存时间
中位生存时间(median survival time),表示恰有50%个体出现终点事件的时间,并不等同于生存时间的中位数。中位生存时间越长,表示预后越好;反之,中位生存时间越短,表示预后越差。如果观察结束时,出现终点事件的人数不足50%,也就是说删失值所占比例超过50%,则无法估计中位生存时间。
Km法即乘积极限法(product-limit method),是现在生存分析最常用的方法,是由Kaplan和meier于1958年提出,因此称为Kaplan-meier法,通常简称Km法。Km法是这样估计生存曲线:首先计算出活过一定时期的患者再活过下一时期的概率(即生存概率),然后将逐个生存概率相乘,即为相应时段的生存率。
与Km法类似的还有寿命表法,两者的区别在于:寿命表在计算生存概率时,以一定的时长(如月、年)分段计算生存概率,计算结果较粗略;而Km法则是当有病例出现观察终点时计算生存概率,显然Km法计算的更精确,但当计算机不太普及时,如果样本时较大,Km法由于每个病例出现观察终点时都要计算一次,计算量较大,因此大样本时多采用寿命表法。现在如果不是特别大样本(如人口普查数据),一般的计算机都能满足计算量需要,因此我们建议使用Km法,得到较为精确的结果。
如果两种疗法的生存曲线有所不同时,生存率差别是否有统计学意义呢,这时可以用时序检验或对数秩检验(log rank test)来检验。时序检验是计算不同日期两种(或多种)疗法的暴露人数及出现终点人数,计算不同时期期望人数与实际出现终点的差值,以此可做卡方检验做出判断。当p<0.05,认为两组或多组总体生存曲线差异有统计学意义。
队列研究(cohort study)是将人群按是否暴露于某种可疑因素及其暴露程度分为不同的亚组,追踪其各自的结局,比较不同亚组之间结局频率的差异,从而判定暴露因子与结局之间有无因果关联及关联大小的一种观察性研究方法。
从定义可见,队列研究本身是关注结局的发生率。但实际情况中,队列(cohort)结局的分析并不仅是用率来进行计算的。我们通常把这类能够明确暴露与结局的先后顺序(明确现有暴露、后有结局)的设计方式称为队列设计。生存分析就是在队列设计中进行的考察暴露因素与生存时间关联的分析方法。我们看到一些医生会把删失和失访两个概念搞混,实际上这两个概念完全不同。举个简单的例子,医生收集了100例肿瘤术后患者,观察了1年,其中10例失访,即失访率为10%。观察终点剩下的90例患者中,共有60例患者死亡,30例患者仍然存活,此时这30例仍存活的患者及之前失访的患者即为删失,删失率为40%。
生存分析中的删失数据处理本身就是一个很复杂的统计学问题,对于我们临床医生日常使用,并不需要了解得这么复杂。归纳起来大家只需要记住两个原则。
(1)在使用Kaplan-meier法绘制生存曲线,并采用log-rank法进行统计分析比较不同组间生存曲线差异的时候,通常需要在删失的数量较少的情况下。如果删失数量较多,建议直接使用cox回归模型进行分析。
(2)使用cox(比例风险)回归模型进行分析时,样本量为协变量个数20倍以内,删失比例不宜超过70%;样本量为协变量个数20~100倍,删失比例不宜超过80%;样本量为协变量个数100倍以上,删失比例不宜超过90%。否则分析的准确度就较低了。