第二节 筛检方法的准确性评价

筛检方法准确性(accuracy)包含三方面的内容:真实性(validity)、信度(reliability)和预测概率(predict value)。真实性也称为效度,是指筛查方法检测结果与确诊方法诊断结果一致的程度。信度也称为精密度或可重复性,反映的是筛查方法结果重复测量的稳定程度。预测值是指应用筛查结果来估计受检者患病与不患病可能性的指标,是反映筛查效率的指标。这三方面的评价内容考查的是筛检方法的不同方面,设计思路也有所不同,如果真实性评价采用单纯病例对照设计,则还需要分别设计信度评价的研究和根据现患率估计阳性或阴性预测值;但如果用采用横断面或前瞻队列设计,三个方面评价可在同一个队列中实施调查,从而节约研究资源。

一、真实性评价

1.研究设计

肿瘤筛检方法真实性评价采用的是病例-非病例比较研究方法,基本原理是通过计算筛检方法在病例组中判断为阳性的比例,和在非病例组中判断为阴性的比例,来判断筛查方法与疾病真实情况一致的情况。本章将重点讲解肿瘤筛查方法真实性评价的设计及实施中应注意的问题。
筛检方法-真实性评价的研究设计方法有单纯病例对照、横断面和短期前瞻队列法。
单纯病例-对照法是在临床病例中分别收集病例和非病例作为研究对象的方法。这种方法可能存在难以控制的偏倚,首先,病例和非病例并非同一源人群的随机样本,临床病例可能比人群来源的病例分期更晚,病情更严重;其次,临床病例和非病例可能由于存在筛查方法或检查时机不同,而造成系统误差。例如,美国、西欧等国家用前列腺蛋白抗体(PSA)筛查前列腺癌,经过20年的随访研究,并未发现该筛查方案能显著降低人群前列腺癌死亡率。原因之一是在最初评价PSA这种标志物的准确性时,病例组的血清样本是保存多年的样品,对照血样是新近采集的血样,而PSA在血清中的浓度是随着保存时间延长而增加的,因此,单纯病例-对照的研究设计使得PSA方法的准确性被高估了。
横断面法或短期筛查队列法:横断面法是随机选择一个对目标人群有代表性的样本人群。研究者对每个对象无差别地用“金标准”方法和筛查方法进行检查,直至收集到足够的病例组人数,再与非病人群(抽样或全部)组成病例-对照组。如果研究不能对所有研究对象进行病理检查,则“金标准”可以是准确性较高的临床诊断方法,通过对研究人群进行多次测量,尽量减少误诊和漏诊,该设计相当于短时间的前瞻性队列研究。横断面法或短期筛查队列法能较好地控制单纯病例对照法的偏倚,但由于人群中肿瘤的现患率通常不高,采用这种方法进行研究时可能需要建立较大的人群样本,往往在一个地区难以实现,因此多采用多中心的研究设计,需要消耗较多的人力物力资源,实施较为困难。

2.研究设计和实施的基本要求

(1)确定筛查的目标人群:一般针对有患癌高风险的人群。
(2)确定判断病例和非病例的确诊(“金标准”)方法:确诊肿瘤最佳的“金标准”是病理学诊断结果。但如果不能对所有筛查对象进行病理学诊断,一般采用准确性较高的影像学诊断(如CT、内镜)在一段时间内连续检查的方法作为“金标准”,随访期间内发现的病例再经病理诊断确诊。值得注意的是,此时随访的目的是发现漏诊的病例,因此随访间隔期不宜过长(数月),总的随访期一般为1年,随访期内发现的全部确诊病例构成病例组。采用该类型的“金标准”进行病例组和对照组划分时,要注意由于漏诊所造成的错分偏倚。
(3)确定病例和非病例的纳入和排除标准:筛查的目的是发现临床前期的患者,采用单纯病例对照设计时,病例选择时应注意尽量选择早期病症状轻微的病例,同时应保证选择的研究对象对目标人群的代表性。
(4)确定筛查方法的结局指标:一般需要有明确的、有明显区分度的阳性和阴性判断标准;对连续性测量的结局(如癌相关蛋白、代谢产物),一般采用ROC曲线法确定截断值,原则是取阳性似然比较大、阴性似然比较小的点所对应的值作为截断值(cut-off value)。此外,还可以通过比较ROC曲线下面积,对多个指标(连续性变量)的总体效度进行评价。ROC曲线是在连续变化的截断值下,计算所得的连续的灵敏度和1-特异度值的变化线图,ROC曲线下面积(area under the curve,AUC)越大,方法的综合真实性越高,如图14-4,方法Ⅱ的AUC大于方法Ⅰ,则方法Ⅱ的综合效度优于方法I(图14-4)。
图14-4 连续性测量指标的ROC诊断曲线
(5)保证足够的样本量:简言之,通过参数显著性水平α,容许误差δ,灵敏度及特异度的估计值计算病例组和非病例组的样本量。当灵敏度和特异度均接近50%时,样本量估计采用公式14-1;当灵敏度或特异度小于20%或大于80%时,样本量估计采用公式14-2。Z α是正态分布中尾部累积概率为α/2时的Z值(一般用可用绝对值),一般α取0.05或0.01,Z α分别为1.96和2.58;δ为容许误差,通常取0.05~0.10,p为待评价方法的灵敏度或特异度。灵敏度用来估计病例组样本量,特异度用来估计非病例组样本量。

如果是采用横断面或短期前瞻队列的设计方法,要满足收集足够的病例人数,还需要根据筛查肿瘤的现患率或发病率来反算队列的样本量。一般来说,筛查队列的非病例数都远大于样本量估计的对照组人数,故筛查队列的样本只需按病例组人数来反算总样本量。假设肝硬化病人的肝癌发病率为5人/100人年,用甲胎蛋白(AFP)在肝硬化病人中筛查肝癌患者,已知病例组样本量为100人,则研究队列需纳入2000名肝硬化患者,随访时间为1年。
(6)对象选择尽量满足随机化原则,控制选择偏倚。
(7)保证病例和非病例在检查过程(如建档、生物材料采集、检查程序)及结果分析报告中各环节所得到的处理一致,一般采用盲法来控制相关的信息偏倚。

3.评价指标

真实性评价的指标主要包括灵敏度(sensitivity,Sen)、特异度(specificity, Spe)及阳性或阴性似然比(positive /negative likelihood ratio,+ LR/ - LR)。灵敏度是指筛查结果阳性人数占确诊病例人数的比例;特异度是筛查结果阴性人数占非病例总人数的比例。阳性似然比(+ LR)是筛查结果的真阳性率与假阳性率之比;阴性似然比(- LR)是筛查结果的假阴性率与真阴性率之比。
根据定义,病例组中的筛查阳性人数为真阳性数( TP),病例组中的筛查阴性人数为假阴性数(FN),非病例(对照)组中筛查阴性人数为真阴性数(TN),非病例中筛查阳性的人数为假阳性数(FP)。则Sen = TP/(TP + FN);Spe = TN/(TN + FP),灵敏度和特异度在0~1之间变化,值越大说明筛查方法的准确性越高。+ LR = Sen/(1 - Spe),这个指标越大,试验结果阳性时为真阳性的概率越大;- LR =(1 - Sen)/Spe,这个指标越小,试验结果阴性时为真阴性的概率越大。
除了估计研究样本的灵敏度、特异度等指标外,还需要估计它们的95%置信区间,计算公式见下表14-1。

二、信度评价

评价肿瘤筛查方法的信度,多评价其重测信度,即在相同的操作条件下对同一批对象(样品)重复测量获得相同检测结果的稳定程度,包括不同检查者之间检测结果的一致情况,以及不同时间段检测结果的一致情况。简言之,实施过程是从目标人群中随机抽取一个研究样本人群,由两名或多名检查者采取同样的检查程序对研究组人群进行检查,再比较重复检查结果的一致情况,检测过程遵循盲法原则。信度评价的样本人群可从真实性研究建立的筛查队列人群中随机抽样。如果筛查结果是连续性测量指标的(如癌蛋白、代谢产物等),采用总体均数样本量公式计算样本量;如果筛查结果是分类指标的(阳性、阴性),采用总体率(阳性率)样本量公式计算样本量,具体请参考医学统计学专著。
进行信度评价应根据资料类型来选择指标和分析方法,总的说来可以看作配对(定量、定性)资料的比较。连续性测量的资料可用相关系数(r)评价一致程度,一般r≥0.90,可认为该筛查方法的一致性较好。此外,也可以用配对 t检验(paired samples t test)分析重复测量结果的一致性,若两组差异无统计学显著性则认为重复测量的一致性较好。分类测量的资料,一般采用Kappa值来评价一致性, Kappa值计算的定义式为:(实际观察一致率-机遇一致率)/(1-机遇一致率)。若 Kappa值≤0.4可认为一致性差;0.41≤ Kappa值≤0.74,可认为一致性中等或较高; Kappa值≥0.75则认为一致性极好。统计软件SAS、SPSS、Stata等均能进行Kappa值的估计。

三、预测值估计

预测值包括阳性预测值(positive predictive value, PPV)和阴性预测值(negative predictive value, NPV)。阳性预测值是筛查阳性者中能被确诊为患病的概率;阴性预测值是指筛查阴性者中能被确诊为不患病的概率。
预测值要受到筛检方法灵敏度、特异度和现患率的影响,简言之,现患率一定时,灵敏度增加,筛查人群中假阳性人数增加,阳性预测值降低,阴性预测值升高;灵敏度、特异度一定时,现患率增加,阳性预测值会增加,因此在现患率高(高危人群)的人群中开展筛查,筛查效率较高。
预测值的估计方法有直接估计法和间接估计法两种。直接估计法是以横断面或短期筛查队列设计为基础的。这两种设计的研究人群一般被认为是目标人群的一个随机样本,在该人群中开展筛查,所得的阳性或阴性率本身就受到肿瘤现患率的影响,可根据实际的筛查数据计算预测值(公式14-3,14-4)。间接估计法是已知筛查方法的灵敏度、特异度,结合人群现患率对预测值进行估计的方法,又称为贝叶斯估计法(公式14-5,14-6)。值得注意的是,单纯病例-对照设计的研究没有考虑人群现患率的影响,不能直接计算预测值。
预测值直接估计法:

预测值间接估计法:

此外,还需要上述指标的95%置信区间,公式如表14-1。
表14-1 诊断试验准确性指标的区间估计