文章信息
- 赵延延, 赵维, 王子悦, 李卫, 王杨.
- Zhao Yanyan, Zhao Wei, Wang Ziyue, Li Wei, Wang Yang.
- 时间相关受试者工作特征曲线及其在临床试验诊断分析中的应用
- Time related receiver operation characteristic curves and its application in clinical trials and diagnostic analysis
- 中华流行病学杂志, 2016, 37(6): 891-894
- Chinese Journal of Epidemiology, 2016, 37(6): 891-894
- http://dx.doi.org/10.3760/cma.j.issn.0254-6450.2016.06.030
-
文章历史
- 投稿日期:2015-09-25
受试者工作特征(ROC)曲线作为经典的诊断试验分析方法,被广泛用于定量预后指标对二分类临床结局的诊断性能评价。ROC曲线下面积(AUC)则作为诊断综合准确性的量化评价指标。ROC曲线及AUC通常可以通过构建logistic回归模型获得,用于判断在特定时间点内可能发生的终点事件。
对于以临床终点事件为主要指标的临床研究,多采用生存分析作为统计方法,在评价是否发生事件的同时,还应考虑事件的发生时间。特定的预后指标,其诊断能力可能随时间而发生变化,采用传统方法无法处理。针对该问题,2005年Heagerty和Zheng[1]总结了3种时间依赖的诊断性能定义和评价方法,使研究者可对加入时间后的诊断能力及其动态变化进行评价,类似方法在国内研究中鲜有报道,为此笔者重点复习累积/动态(cumulative/dynamic)定义下的NNE(nearest-neighbor estimator of bivariate distribution)估计方法以及事件/动态(incident/dynamic)定义下的Cox估计方法,并通过实例分别采用两种方法估计与时间相关的ROC曲线及AUC,并比较其结果。
方法原理对于生存数据,假设发生事件的个体所对应的事件时间为Ti(event time),而删失个体的删失时间为Ci(censoring time),令Zi=min(Ti,Ci),定义δi,对应数据的删失情况,设δi=0时,表示该个体数据为删失,等于1则为非删失。那么,通常一组生存数据具有的信息将包括时间Zi、状态δi,以及预后指标的取值Mi。c表示分界值(cut-off)。
(1) 累积/动态定义的NNE估计方法:当给定了cut-off值(c),就能定义与时间相关的C/D型灵敏度及特异度
该定义方法是将整个人群在时间t划分为事件组与非事件组两类。当Ti>t时,个体被划分到非事件组;当Ti≤t时,个体被划分到事件组,使个体i在不同时间t扮演的角色不同。由于采用传统KM估计方法估计每种可能的情况X>c(假设X为预测死亡事件的预测指标;c为区分预测的界值,可取不同的值)的灵敏度和特异度时,不能保证其单调性,而NNE估计方法进行估计时[即采用基于最近邻估计量的二维分布函数(X,T)估计,其中T为生存时间],可保证其单调性。比较传统KM估计法,Heagerty等[2]提出了更为合理的NNE方法估计生存函数,具体步骤:首先估计联合生存函数,其形式为
FX(s)为X的分布函数,S(c,t)的NNE方法估计值为
式中1(Mi>c)为示性函数,(t|M=Mi)为利用近邻核函数
得到加权的KM生存函数估计
其中τn定义为所有不同Zi值的集合,近邻核函数的定义中,λn代表选取“近邻”的范围,且2λn∈(0,1),通常选取λn=O(n-1/3)即可[3]。另外还可以得到NNE生存函数的估计
基于上述,再估计灵敏度和特异度。首先由Bayes条件概率公式
得到
(2)事件/动态定义的Cox估计方法: 2005年Heagerty和Zheng[1]给出了利用Cox模型对时间依赖的I/D型灵敏度与特异度的估计方法,从而可以得到时间依赖的ROC曲线以及AUC(t)。
I/D法定义为
即灵敏度表示在t时刻死亡的人群中,预后指标取值>c的被观察对象所占的比例;特异度表示在活过时间t的人群中,指标值≤c的人所占的比例。该定义方法是将t时间上还处于研究观察的人群(风险人群)划分为事件组与非事件组两类,使得个体在其死亡时间点以前作为非事件组,而在其死亡时间t时作为事件组。该定义①与比例风险模型中对试验组数据与非事件组数据的划分紧密联系;②允许将其扩展运用于对时间相关的指标值上,并运用于非比例Cox模型中;③可得到进行时间平均的总结评估值,从而对该指标值的诊断能力进行与时间无关的整体评价。
Cox模型估计时间依赖的I/D型灵敏度与特异度的具体步骤:通过Cox回归,得到每个受试者的得分Mi= ZiTβ,定义
表示t时间的风险人群,以及
表示Cox模型下受试者i在时间t的风险函数,那么在Cox模型下,给定Ri(t)=1的人群中存在个体死亡条件下,得分为Mi的个体在时间t死亡概率为
再定义
Xu和O’Quigley[4]提出可用上述πk(γ,t)来估计得分Mi在时间t下的分布,即
利用经验估计法可得到
即得到了灵敏度与特异度的估计值
实例分析现有一组1 528例接受过PCI治疗的冠心病患者数据库,其中包括患者编号、死亡/随访时间、删失状态等生存分析相关变量,同时还包括对PCI患者术后死亡风险有预测作用的SYNTAX SCORE及SYNTAX SCOREⅡ组成。其中,SYNTAX SCORE是早期被验证过的,基于患者冠状动脉病变复杂程度获得的死亡风险预后指标;SYNTAX SCOREⅡ则是在SYNTAX SCORE的基础上,不仅仅通过冠脉复杂程度,而是进一步结合患者年龄、肌酐清除率、左心室射血分数(LVEF)、无保护的左主干(ULMCA)病变、周围血管病变、性别及慢性阻塞性肺病(COPD)等人口学和疾病史危险因素后,建立起的能够对PCI术后死亡风险进行更准确预测的指标[5]。
基于上述数据,分别应用累积/动态和事件/动态两种方法,估计不同时间下SYNTAX SCOREⅡ的诊断能力。运用R语言软件包survivalROC中的函数survivalROC,可以得到累积/动态法下每一时间点对应的ROC曲线(ROCC/D)及AUCC/D(t)的值;运用R语言软件包risksetROC中的函数risksetROC和risksetAUC,可以获得事件/动态法下每一时间点对应的ROC曲线(ROCI/D)及其对应的AUCI/D(t)估计值。
图 1展示了不同时间的ROCC/D和ROCI/D曲线图,其中仅选取了有代表性的时间点,分别为0.5、1、2、4、6及7.2年的结果。事实上,对于任意时间点(数据中最后一个时间点之前)的ROC曲线,其结果与上述最接近的代表性时点结果基本一致。
从图 1A可见,不同时间点对应的SYNTAX SCOREⅡ的诊断能力会发生一定的改变,2、4、6和7.2年的诊断能力相对优于0.5和1年的结果。而在图 1B中,各时间点SYNTAX SCOREⅡ的诊断能力虽有改变,但无明显差异。
表 1为不同时间点两方法分别对应的AUCC/D值和AUCI/D值。为便于比较,将其中AUCC/D(t)和AUCI/D(t)作为纵坐标,时间点作为横坐标,则获得图 2。其结果与前类似,累积/动态法给出的SYNTAX SCOREⅡ诊断能力的估计结果,随时间会有较大的波动,在1年内的时点,出现了AUCC/D(t)值<0.65的情况,而在2年这一时点后,AUCC/D(t)约为0.70,波动中有小幅上升趋势;而事件/动态法给出的AUCI/D(t)结果,则整个观察期内相对稳定,在4~5年内基本在0.69左右,之后时点的诊断能力则有小幅下降趋势。
因此,临床研究者通过C/D型定义法,在利用SYNTAX SCOREⅡ对患者进行诊断分析时,其在2年以前的诊断能力相对较弱;而通过I/D型定义法,SYNTAX SCOREⅡ在4年后的诊断能力有所下降。
在获得SYNTAX SCOREⅡ于不同时间上的诊断能力后,就可以通过该指标对患者术后情况进行诊断预测。例如,通过患者的SYNTAX SCOREⅡ值,可对患者进行术后4年的死亡预测。
通过上述NNE估计法与Cox估计法的比较,显示两种方法得到的结论差异较大。以下分析两种估计法得到不同结果的原因。
图 3是北京阜外医院冠心病患者术后发生事件的76个个体SYNTAX SCOREⅡ值与发生时间的散点图。当给定预测时间t时,对于一系列c值:NNE方法估计时,通过灵敏度与特异度的定义,对所得到的ROC曲线上每一点的横纵坐标值(FP值和TP值)产生影响的分别是B区和A区个体的比例,且该方法中A、B、C、D四区的个体权重相等,这导致估计时间点t变化到t’时,所得的各估计值变化较大;Cox方法估计时,对每次估计产生不同影响的分别是B区个体和时间t对应的个体比例,且估计时是通过exp(Mkγ)对不同个体赋予不同权重[1],因此Mk较大的个体权重较大,导致有影响的B区个体对其结果影响更大,因此导致估计时间点t变化到t’时,所得的各估计值变化较小。由此导致当t变化的过程中,Cox方法得到的SYNTAX SCOREⅡ诊断能力随时间的变化明显减小。
事实上,Cox方法中危险因素(如本例中SYNTAX SCOREⅡ得分越高,个体死亡可能性越大)较高的个体其影响力更大,而NNE方法并未从这个角度进行考虑。因此,在实际临床实验中,若判断高得分者明显影响试验结果,则选取Cox方法应更为合理。
小结:由图 2可见,两种方法总体变化的差异较大。主要原因是其灵敏度与特异度不同,且估计方法亦有差异。在临床试验中,如何准确选择更好的方法评价诊断指标,这与研究者关心的实际数据有关。一般有以下几点:①如研究者关心该诊断指标为受试者在特定时间点t之前发生的事件,并能够活过t,应选用NNE估计法;②若关心t时间以后的受试人群,在t时间发生事件并可活过t,应选Cox估计法;③若判断高得分者明显影响试验结果,则选取Cox方法更为合理;④Heagerty和Zheng[1]提出,由于Cox方法中灵敏度与特异度的定义在时间t对事件组与非事件组的划分上与Cox风险模型一致,可将其推广至随时间变化的指标值上,因此对于非比例风险模型同样适用;此外,还可通过均分时间得到平均时间的总体评价结果;⑤Cox估计法无法估计样本中最后一个事件时间点以后的诊断能力;⑥建议在临床试验中通过敏感性分析方式,分别计算两种模型结果,并综合考虑再得出相应结论,这样更助于提高结论的可靠性。
利益冲突 无[1] Heagerty PJ,Zheng YY. Survival model predictive accuracy and ROC curves[J]. Biometrics,2005,61(1):92-105. DOI:10.1111/j.0006-341X.2005.030814.x. |
[2] Heagerty PJ,Lumley T,Pepe MS. Time-dependent ROC curves for censored survival data and a diagnostic marker[J]. Biometrics,2000,56(2):337-344. DOI:10.1111/j.0006-341X. 2000.00337.x. |
[3] Akritas MG. Nearest neighbor estimation of a bivariate distribution under random censoring[J]. Ann Statist,1994,22(3):1299-1327. DOI:10.1214/aos/1176325630. |
[4] Xu RH,O'Quigley J. Proportional hazards estimate of the conditional survival function[J]. J Royal Stat Soc Ser B (Stat Methodol),2000,62(4):667-680. DOI:10.1111/1467-9868. 00256. |
[5] Farooq V,van Klaveren D,Steyerberg WW,et al. Anatomical and clinical characteristics to guide decision making between coronary artery bypass surgery and percutaneous coronary intervention for individual patients:development and validation of SYNTAX scoreⅡ[J]. Lancet,2013,381(9867):639-650. DOI:10.1016/S0140-6736(13)60108-7. |