- 预防肿瘤学
- 赵平 王陇德 黎钧耀主编
- 7612字
- 2021-04-16 17:20:12
第三节 肿瘤筛检项目生物学效果的评价
一、概 述
(一)筛查项目评价的发展
疾病筛查的雏形是20世纪20年代美国医学联合会(American Medical Association)推广的面向人群的定期体检,之后美国癌症控制协会(American Society of Cancer Control),现名美国抗癌协会(American Cancer Society,ACS)又发起并推广了巴氏涂片法筛查宫颈癌,乳腺自检筛查乳腺癌的卫生运动。这些方法推广前没有经过严格的效果评价,人们往往出于防病的热情直觉地认为这些方法应该有效,但经过数十年的观察,这些方法最终被证明并没有改变肿瘤的归因死亡率。肿瘤流行病学家认识到,筛查项目只有经过设计严谨的、长时间的研究证明有效后才能推广。
自20世纪80年代以来,流行病学研究方法在评价乳腺癌、宫颈癌、大肠癌、前列腺癌、肺癌等筛查项目的效果上得以广泛应用,研究者们对研究设计、偏倚、观察指标的确定以及证据质量评价等问题有了越来越深入的认识,形成了系统的筛查项目效果评估框架。本节也将重点讲述流行病学研究方法在筛查效果评价方面的注意事项。
(二)肿瘤筛查项目设计和评价的内容
筛查项目设计和效果评价是密不可分的,评价一项人群肿瘤筛查项目时,一般需要回答以下问题:①筛查应包含哪些人群?筛查年龄段是多少?②筛查方法是否能有效发现癌前病变或早期癌?筛查的间隔应该多长?③筛查能否降低肿瘤发展的中间结局和最终结局(死亡)的发生率?④早期病变后应该如何处理?筛查方法和早期治疗的副作用如何?(一般采用临床研究的证据)⑤采用不同的方法或方案筛查的效果有没有差异,哪一方案更符合卫生经济学的低成本高收益的原则?这些问题同时也是项目设计需要考虑的问题,本部分将重点说明设计筛查方案的基本原则。
1.确定筛查的目标人群
为合理配置卫生资源,肿瘤筛查通常采用高危人群筛查策略,既通过人群的疾病风险度估计筛选出高发病率的风险人群进行筛查,可获得较高的收益(检出率),也更符合低成本高效益的原则。肿瘤筛查的高危人群筛选通常考虑高发年龄段和主要危险因素暴露状况。如根据白种人不同癌症的自然史规律,一些西方国家建议宫颈癌筛查的起始年龄为35岁,乳腺癌筛查起始年龄为50岁,大肠癌筛查年龄为40岁;乳腺癌终生患病风险(Gail评分)≥1.67%者判定为高危人群;将具有一级亲属患有大肠癌、肠息肉病史、慢性结直肠病史者判定为大肠癌高危人群。
2.确定筛查的技术方案
运用一种筛查方法开展肿瘤筛查往往有一定的局限性。如果选择灵敏度和特异度都较高的方法,如螺旋CT筛查肺癌,虽然能发现更多的病人且发生误诊的概率也较小,但这类方法已类似肿瘤的确诊方法,费用过高,难以在人群中实施。如果选择灵敏度较低的方法,则有可能出现较多的漏诊病例,达不到癌症早诊早治的目的。此外,发病率低的疾病筛查收益(筛查发现的病例数)也较低。因此,在实际工作中,为提高肿瘤筛查的收益,通常采用多种筛查方法联合应用的策略。
筛查方法联合应用有两种基本模式,一是系列法(serial method),或称为串联法,二是合并法(parallel method),又称并联法。
串联法是有时间先后的方法组合,初筛方法判断为阳性者,进入下一轮方法的筛检,两轮试验都为阳性者进入确诊环节。该方法的优点是如果筛查的目标人群基数大,可以通过初筛发现高危人群,缩小二次筛查的范围。例如,我国“十一五”期间开展的乳腺癌筛查项目,先通过触诊发现可疑乳腺肿块的人群,再运用钼靶X线检查进一步筛查有肿瘤倾向的患者。该方法也有明显的缺点,如果初筛方法灵敏度较低,则可能出现较多的漏诊病例。因此,在设计串联筛查方案时,初筛的方法尽量选择灵敏度高的方法,而对特异度没有特别要求,第二轮的筛查则尽可能选择特异度较高的方法。
并联法是同时运用两种方法的进行筛查,只要其中一个方法的结果阳性,则进入确诊环节。该方法的优点是可以互相弥补两种方法灵敏度不足的问题,提高筛查整体的灵敏度。如NCI在肝硬化病人中开展肝癌筛查,同时应用AFP、DCP1和AFPL1三种早诊断标志物筛查,发现联合应用这三种标志物能明显提高灵敏度。但在设计并联筛查方案时,应充分考虑筛查方法的成本,否则是没有意义的。比如,有研究者提出,为了提高亚洲女性乳腺癌的筛查发现率,应并联使用钼靶X线和乳腺高频超声的筛查方案,这有可能违背了筛查的低成本高效益的原则。
如果没有条件开展联合试验筛查时,可以通过调整筛查间隔期来减少漏诊的情况。灵敏度和特异度高的方法,筛查间隔可较长,而灵敏度较低的方法,筛查应更频繁。如筛查宫颈癌的技术中,巴氏涂片的合并灵敏度(pooled-sensitivity)仅为55.4%(33.6%~77.2%),而HPV-DNA筛查的合并灵敏度达到94.6%(84.2%~100.0%),巴氏涂片阴性者3年后宫颈重度不典型增生(CIN-Ⅲ)的发病率为0.17%,而联合HPV和巴氏涂片法均阴性者5年后的CIN-Ⅲ发病率才达到这个水平,因此美国癌症协会2012年最新制定的宫颈癌筛查指南中提到“30~65岁的女性最好每5年接受一次宫颈涂片和HPV检查,或每3年接受一次宫颈涂片”。
3.筛查效果观察终点(endpoint)
肿瘤筛查的目的是在临床前期(癌早期)发现病人,采取有效的治疗措施,最终达到降低患者死亡风险的目的。因此,筛查组肿瘤归因死亡率下降是最有说服力的指标,也是筛查效果评估的远期终点指标。它综合反映了筛查方法发现早期癌的能力和治疗的有效性。但是,要准确地估计死亡率指标,需要严格的研究设计(如大人群的RCT实验研究或队列研究)和长时间的随访,需要花费大量的资源。为及时对筛查项目进行评价,还可选用其他的近期终点指标,包括:①病例发现人数或收益,如果筛查方法足够灵敏,在筛查人群中新发现的患癌人数会增加;②肿瘤的分期发病率,筛查如果能发现癌前病变或早期癌,则癌前或早期癌发病率会上升,晚期癌的发病率会下降;③病例的生存率和生存年,筛查组一定时间的(5年或10年)生存率上升,或患者平均生存年延长也可以反映筛查的有效性。
应用近期指标评价时,需注意过度诊断偏倚、领先时间偏倚和病程偏倚的影响(参见“偏倚”部分)。值得提出的是,筛查效果的评价最终还是需要根据长期队列随访的死亡率变化情况来验证。
4.效果评价指标
肿瘤筛查的评价指标包括生物学效果评价和卫生经济学指标。生物学直接效果指标包括粗有效性(effectiveness)和效力(efficacy)。表14-2是用RCT试验的结果来说明粗有效率和效力的关系。粗有效性是干预组(筛查组)和对照组(未筛查组)的总的归因死亡率之比,即MR = M O/M N。效力是评价筛查效果的校正指标,是指在开展筛查项目的地区,实际筛查人群的死亡率与未开展筛查地区可能接受筛查人群的死亡率之比,即MR *= M OA/M NA。
此外,还可比较筛查组和未筛查组的不同终点指标的差异,早诊率、早期癌发生率、晚期癌发生率、生存率、生存时间。在后续的研究方法介绍时,我们将讨论各类研究方法对应的效果评价指标的应用及可能存在的偏倚。
表14-2 筛查有效性与效力的关系
注: M,人群的归因死亡率; O,提供筛查; N,未提供筛查; A,接受; R,拒绝
除了考虑干预的生物学效果外,应平衡筛查项目的成本、风险和收益三者的关系,形成最佳的决策方案。综合成本与收益的评价即项目的卫生经济学评价,详见第四节。
二、生物学效果评价的研究方法
(一)随机对照试验(RCT)设计方法
严格设计的随机对照试验是评价筛检项目效果的首选方法。1988年美国开展了大纽约健康保险计划(health insurance plan of greater New York,HIP)的乳腺癌筛查项目评价,这是第一个大人群的筛查试验研究。开展RCT要考虑以下三个基本条件:①筛检试验方法、后续的诊断试验和治疗方案明确;②筛查的结局变量明确,对应的抽样单位应该是个体水平;③应该有明确的纳入排除标准选择合适的研究对象。
经典的筛查随机对照试验设计上要求较严格,包括:①所有符合纳入标准的对象被随机分配到研究组和对照组;②研究组接受周期性的筛查,而对照组则按个体常规的医疗行为处理,这类设计被称为连续筛查设计(continuous-screen design);③两组除了干预方式外,其他随访程序完全一致,并应尽力保证研究组和对照组的依从性一致;④研究结束后盲法评价结局。
为了节约研究资源,并尽可能解决更多的筛查效果评价问题,研究者们在经典模型的基础上扩展了RCT研究设计的类型。Etzioni(1995)总结了多种扩展类型。
(1)多组筛查组设计:
可以比较多种筛查方案(不同入组年龄段,不同方法的联合筛查等)筛查同一种肿瘤的效果。
(2)多种干预对照(all-versus-none)设计:
给予研究组针对不同肿瘤的多种筛查方法,同时评价多种肿瘤筛查方法的效果。
(3)交叉对照设计(reciprocal control design):
分别给予两个研究组不同肿瘤的筛查,如A组开展乳腺癌筛查,而B组开展肺癌的筛查,则A、B两组可互为两种癌筛查方案的对照组。
(4)短期筛查后终止设计(stop-screen design):
即只在一段时间内在研究组中进行筛查,后期按常规的医疗服务程序进行随访,直至有足够的筛查对象出现观察结局。
(5)分半筛查设计(split-screen design):
该方法是终止设计的一种变化类型,研究随访时间较短,终点变量往往不是死亡,而是预后不良的晚期癌。具体设计是在研究组最后一次筛查结束后,在对照组中实施同样方案的进行筛查,查出对照组中隐藏(Hidden)的病例,评价由于筛查使干预组减少了多少晚期癌的发生。
(6)延迟筛查设计(delayed screen design):
该方法是两组在不同的年龄段开始筛查,适用于评价那些已经在年长人群中开展的成熟的筛查方案,提前筛查开始的年龄是否能有效降低人群的死亡率。
如前所述,肿瘤的人群发病率和死亡率均较低,如果以死亡为观察结局,随机对照研究往往需要庞大的样本量和较长的随访期,此外,对照组缺乏有效的干预也有悖伦理学上的公平原则。因此,尽管随机对照试验是最理想的研究方法,但它的使用仍是有限的,通常应用在新的筛查方法的近期有效性的评价上,如癌前病变的发现率、癌的发病率或晚期癌的发生率。在已广泛开展了人群筛查项目的地区,可采用观察性研究的方法来补充筛查长期效果的证据。
(二)观察性研究
观察性研究通常是在已开展筛查项目的特定人群中进行的。开展这类研究的前提条件是,筛查项目已经在某些地区广泛应用,并且在这些地区全人群健康档案齐全,有连续多年的、完整准确的筛查和疾病登记信息。
1.队列研究
队列研究方法已经广泛地应用在宫颈癌、乳腺癌、大肠癌筛查方案的远期效果评价上。这些肿瘤筛查项目自20世纪70年代以来,基本已经覆盖了欧洲、北美地区的所有适龄人群,并已有20年以上的人群随访数据。研究设计通常采用回顾性队列研究,通过比较既往参与筛查人群和不接受筛查人群的随访一段时间后的归因死亡率、生存率的差异来说明筛查项目的效果。效力的估计指标为两组对象的归因死亡危险度比(relative risk, RR),即 RR = M OA/ M OR。
从表14-2可以看出,只有当未提供筛查但有筛查意愿的人群的归因死亡率( M NA)等于提供了筛查但不接受筛查的人群的归因死亡率 M OR时,队列研究的归因死亡危险度( RR)才是随机对照试验的效力(efficacy)的无偏估计。但实际上,这种假设往往是很难成立的,观察性研究的效力计算往往要受到自我选择偏倚(self-selection bias)的影响。自我选择偏倚的影响有两方面,一是选择参加筛检的对象可能具有更高的患癌风险(如遗传背景、疾病史),则筛查的效力可能被低估;二是选择筛查的人群具有更好的保健知识和健康行为,除筛查疾病外的其他疾病死亡风险均低于对照组,则筛查项目的效力可能被高估。为了正确评价筛查的效力,应该对观察性研究的两组间的基本人口学、疾病风险特征进行可比性分析,并对除筛查疾病外的其他疾病死亡风险进行评价,以此来评价自我选择偏倚的影响程度。
2.病例对照研究
加拿大科学家Clarke和Anderson(1979)最早应用病例对照研究方法评价细胞学方法筛查宫颈癌的效力(efficacy),20世纪90年代至今,该方法被广泛应用到评价乳腺癌、宫颈癌、大肠癌及肺癌的筛查项目中。它的基本原理是,筛查项目理论上能够降低癌死亡率,则在同一人群中,死于癌的对象中曾接受筛查的比例应低于存活者,筛查效力即死亡病例与对照组参与筛查的优势比(odds ratio, OR)。严格设计病例对照研究所得的优势比与队列研究估计死亡归因危险度非常接近,Connor等利用HIP (health insurance plan)的乳腺癌筛查资料比较了病例对照研究和随访队列研究的效力指标,二者在全人群及不同筛查起始年龄段(50岁为界限)所得的危险度值(效力值)基本一致,误差率<1%。病例对照研究相对于队列研究具有明显的节约时间和易于收集信息的优点,因此应用更为广泛。
病例对照研究设计的关键是选择合理的病例组和对照组。病例是在实施了筛查项目的地区人群的所有死亡病例的随机样本;对照是同一源人群(包括所研究的癌的患者)的存活者的随机样本。筛查评价的病例对照研究一般采用匹配设计,匹配的因素一般包括年龄和出生地。
由于对照大多数是未查出癌的对象,因此他们参与筛查的行为随时间因素(年龄和开展筛查的时间)的变化较病例组更突出,从而可能导致时间相关的偏倚 [15]。
目标人群参与肿瘤筛查的行为如果受年龄因素的影响,则该行为被称为年龄相关筛查利用(age-related screening utilization)。一般说来,参与筛查率随年龄增长而增加,如果对照低年龄段构成比高,则对照组的实际参与筛查率低于目标人群的筛查率,则筛查的效力则可能被低估。
目标人群中参与筛查的累积率呈逐年增加的趋势,即有筛查利用的时间累积趋势(time trends in screening utilization)。假设每年的新筛查率不变,则往年参加筛查但结果阴性人数将累积到第二年,如果按筛查年份分层抽取对照组,则对照组筛查率就高于实际人群的筛查率,筛查效力则可能被高估。
控制时间因素的偏倚可采用限制的方法,病例和对照的对象应限定在筛查率稳定的年龄段或年代。
(三)生态学研究
生态学研究方法可用于筛查项目推广多年后的效果评价。常用的设计有①开展筛查项目地区与未开展地区肿瘤死亡率的比较;②同一地区筛查前后肿瘤发病率和死亡率变化的趋势。③二者相结合的综合研究。从研究设计上,生态学相对随机对照试验、队列研究和病例对照研究都容易实施,它只需要收集地区或时间段上人群的发病率和死亡率的数据,但是对生态学研究存在较多无法控制的混杂因素(生态学谬误)的影响,因此它的结果在评价筛查方案的有效性方面是有限的。
开展生态学研究应注意以下问题:①地区间或不同时间段与肿瘤预后相关的因素,如人群的发病率、医疗水平、卫生投入、经济状况等应尽量可比;②开展筛查的地区,筛查应该在较短时间内覆盖所有的风险人群;③研究地区应在筛查前、后分别有足够长时间(10年以上)的人群发病率、死亡率监测数据。
三、肿瘤筛查效果研究的偏倚
(一)领先时间偏倚(lead-time bias)
领先时间是指无症状时由筛查发现肿瘤的时点至出现症状后主动就诊诊断的时点之间的时间间隔。换言之,该间隔是疾病的自然病程阶段,如果筛查活动只提前了发现疾病的时点,而不给予有效的处理,筛查人群比不筛查人群带癌生存时间延长的部分。以生命年为观察指标的研究应扣除领先时间,否则会产生领先时间偏倚,从而高估了筛查效果。例如,“梅奥肺疾病项目”(Mayo lung project,MLP)在1971—1983年期间开展了用X线结合痰细胞学在9211名吸烟者中筛查肺癌的RCT试验,干预了6年,每4个月筛查一次,随访截止期为1996年。在这个大人群的RCT研究中,以生存时间为效果指标时,干预组的中位生存时间为16年,而对照组为5年,患者5年生存率筛查组较对照组高近一倍(35%比19%)。但是,用死亡率为指标评价时,发现筛查组20年的累计死亡率反而略高于对照组(0.44%比0.39%)。由此可见,用生存率或生存时间作为观察结局比用死亡率作为结局更倾向提出筛查有效的结论,但其中不可忽视领先时间的影响。此外,领先时间偏倚也说明用5年生存率来评价筛查的效果显然是不够的。
(二)病程偏倚(length bias)
进展迅速的癌从无症状至出现明显症状的窗口期很短,在人群中开展筛查能发现的这类病人的概率很小;进展缓慢的癌则窗口期长,筛查能检出这类病人的概率较大。因此,如果筛查出的病例中肿瘤进展缓慢的患者占较大比例时,则筛查组生存概率或生存时间长于对照组,可能归因于筛查组病人本身病程较长的缘故,此时,筛查的效果可能被高估了。这种偏倚被称为病程长短偏倚。
(三)志愿者偏倚(health volunteer bias)
开展筛查效果评价的研究通常采用观察性的研究方法,则研究对象参加或不参加筛查主要取决于自身的意愿。参加筛查者与不参加者相比可能有更高的受教育程度、个人经济状况更好,更关注自身的健康,不良行为(吸烟、饮酒、体力活动缺乏等)习惯的发生率较低,因此参加筛查人群的恶性肿瘤发病或死亡基础风险可能低于总人群和不参加筛查者。流行病学家称这种偏倚为“健康志愿者偏倚”,它可能会高估筛查的效果。志愿者偏倚在观察性研究方法中是很难控制的,一般可通过对参加筛查组和不参加组的其他原因死亡率(扣除筛查肿瘤的死亡率)的比较来评价是否存在这类偏倚及影响程度。如果筛查组的其他原因死亡率明显低于不筛查组,则在评价筛查效果时应注意分析志愿者偏倚的影响。
(四)过度诊断(over diagnosis)引起的偏倚
如果筛查出的癌前病变正处在良性阶段,没有恶性增长的潜能,甚至可能发生逆转,恢复至正常状态,如宫颈癌的CIN1阶段;或者患者恶性肿瘤进展缓慢,如前列腺癌,患者可能在出现明显症状前由于其他竞争性疾病死亡(又称为“惰性病例”),因此,尽管筛查能观察到癌前病变或早期癌的发病率升高,但并不能观察到人群的晚期癌发生率或癌的归因死亡率下降。反而由于发现过多的早期病例而增加了治疗的负担,这种现象称为过度诊断。例如,在日本、德国和加拿大等国,从20世纪80年代起采用尿检VMA酸的方法筛查儿童成神经细胞瘤,在开展项目期间,早期成神经细胞瘤的发病率迅速攀升,但是晚期癌的发生率没有变化,项目开展20年来也没有发现总人群该肿瘤的死亡率有下降的趋势,鉴于该项目没有明确的生物学效果,2003年日本终止了这项筛查项目。
四、肿瘤筛检的伤害和伦理学问题
(一)伤害
筛查引起的伤害包括两个方面,一方面是筛查方法本身的伤害,比如较频繁使用胸部X线筛查肺癌、钼靶X线筛查乳腺癌,会造成超额的射线暴露风险,乙状结肠镜检可能造成肠腔损伤出血;另一方面,筛查的假阳性者可能面临过度诊断的问题,后果是假阳性者必须接受有创性确诊检查,经历确诊前的焦虑情绪困扰,另外,如果早期诊断的病例是所谓的“惰性病例”,随之而来的早期治疗措施可能会损伤病人的健康。对医疗资源来说,过多的假阳性可能造成资源的浪费。Lafata等测算了在前列腺癌、肺癌、大肠癌和卵巢癌筛查项目(PLCO)中由于假阳性结果带来的1年内诊断和治疗费用,女性每人为$ 1024/年,男性每人为$ 1171/年。
(二)伦理学问题
筛查研究作为一种医学实践对受试者的影响可能存在不确定性,因此必须遵循“赫尔辛基宣言”的医学伦理学准则,必须具备尊重个人意愿、有益无害、公正等一般伦理学原则。首先,开展筛查研究前应提交伦理委员会审查及获得受试者的知情同意,充分告知筛查过程中可能的有创检查、潜在的危害及处理的措施等。其次,应保护受试者的生命、健康、尊严、完整性、自我决定权和隐私,受试者有权随时退出,研究者应对受试者的个人信息保密。再次,筛查应该是有益无害或收益远大于危害的,对筛查试验阳性者,有进一步的诊断、治疗方法,不会给他们带来不必要的心理负担,也不会对健康产生负面影响。最后,筛查研究的对照组应得到公平的处理,如果证明筛查措施有效,应优先在对照人群实施。