第一节 肿瘤分子流行病学常用的研究设计方法
肿瘤分子流行病学是在传统流行病学研究设计原理的基础上,充分结合分子生物学技术或生物标志物的检测。在进行设计时,首先应符合传统流行病学研究设计的一般要求,如有明确的研究目的,选择有代表性的样本及数量,合理设置各种对照,病例组和对照组应具有可比性,来源可靠,研究方法准确,选择合适的统计分析方法,控制偏倚等。同时,应考虑分子流行病学的特殊性,采用相应的流行病学调查方法,合理采集生物样本并进行不同生物标志物的检测。
一般来说,流行病学描述性、分析性和实验(干预)性研究方法都可以应用于肿瘤分子流行病学研究,可以根据不同的研究内容采用不同的研究设计。然而,描述性研究虽然较易实施,花费时间较短,但所需样本量较大,作为病因研究的论证强度不高,仅能初步提出某些病因线索,因而作为分子流行病学研究而言,它并不是一种经济有效的模式。而以随机对照为基础的实验干预研究,主要是疾病预防、治疗效果评价为内容的临床(现场)试验,研究设计严谨,结果的论证强度亦最高,如能引入适当的分子生物学技术,可使研究的精度提高,并可以进行某些干预措施作用机制的研究,但目前相关研究还比较少见。与上述两种方法相比,分析性分子流行病学研究设计的论证强度较描述性的强,实施的难度小于干预性的研究设计,因而是分子流行病学研究中最常被采纳的模式。下面主要介绍几种肿瘤分子流行病学常见的分析性研究设计方法,包括病例-对照研究、队列研究,及其特殊类型如预后研究以及家系为基础的研究等。
一、病例-对照研究
(一)研究特点
传统的病例-对照研究的设计分析方法可直接应用到肿瘤分子流行病学的病例-对照研究中,包括选择合适、可比的对照和控制、避免可能的偏倚等。病例-对照研究结果偏倚因素较多,难以很好控制,同时暴露与疾病的时序关系有时也难以阐明,但其在肿瘤分子流行病学研究中仍具有一系列优点 [1]:病例与对照分类比较准确;病例组能以不同遗传特征等分为几个亚组,可以提高研究效率;生物标志物较一般性观察真实性高;对环境因素等效应修饰作用分析效果较好。此外,病例对照研究需要的研究样本较少,可以在较短时间内完成;并且诸多研究表明,一项设计周密,实施严谨的病例-对照研究的结论是可靠的。因此,在肿瘤分子流行病学研究设计中,病例-对照研究仍是一种最常被采用的方式。
(二)研究对象的选择和样本收集
在肿瘤分子流行病学的病例-对照研究中,病例和对照的选择条件与传统的病例-对照研究设计类似。例如,选择病例的来源时,最好是新发病例而不是现患病例,否则可能出现现患偏倚。当然,如果有确切的证据表明所研究的生物标志与肿瘤的生存无关,则现患病例也是可行的选择。选择对照时,需选择合适、可比的对照,控制和避免选择偏倚。此外,许多生物标志物对于肿瘤发生的效应可能具有种族特异性,因此,人群分层的影响尤其要注意,对照和病例在种族特征和遗传背景等方面要可比,以减少可能的选择偏倚 [2]。
在肿瘤分子流行病学研究中,往往不易获得全部病例和对照的生物样本,尤其是组织样本,因此如果病例和对照的生物样本获得量不一致,可能会引起抽样偏倚。此外,病例对照研究中,由于暴露信息和生物样本的采集通常在疾病诊断之后,疾病进程对于生物标志物的影响无法评估,因此研究可能会受到差异性错分的影响 [3]。
(三)主要应用 1.暴露标志物测量
暴露标志主要包括外暴露标志、内暴露标志和生物有效剂量标志(详见第三章)。在肿瘤分子流行病学研究中,已广泛采用病例对照研究设计探讨与肿瘤发生发展相关的各种化学、物理和生物暴露的生物标志,如可以反映烟草近期暴露的血或尿中烟草代谢物可替宁或尼古丁的水平、反映靶细胞分子内接触剂量的多环芳烃DNA加合物水平等 [4-5]。在过去的几十年里,有关人体内暴露标志物的研究不仅定性地阐明了诸多加合物或致癌代谢物的存在,还定量检测了部分标志物的水平与外界暴露信息的关联 [6-7]。然而,虽然检测分析方法早已建立,但真正能够确定的、可定量反映人体暴露水平的标志物却寥寥无几,许多标志物难以在别的研究中得到验证。此外,应用病例对照研究设计探讨暴露标志时,除需要考虑生物学标志的动力学,即其生理和病理的动态变化外,还需考虑暴露标志的特性(收集时间、半衰期等)以及疾病对暴露标志的影响(临床治疗方式等)等。
研究实例1:DNA加合物水平与肺癌风险的关联研究[8]
研究设计:医院为基础的病例-对照研究
研究对象及方法:包括119名新发非小细胞肺癌病例和98名非肿瘤对照。通过ELISA法检测所有研究对象外周血淋巴细胞中的多环芳香碳氢化合物-DNA加合物的水平。
研究结果:经年龄、性别、种族、采样季节、吸烟状态等因素校正后,肺癌病例组的DNA加合物水平显著高于对照组(OR=7. 7,95%CI=1. 7~34, P<0. 01)。
结论:DNA加合物的水平与肺癌的发病风险存在关联。
2.易感标志物测量
遗传易感标志是机体稳定存在的遗传性的可测量指标。大多数遗传标志与那些可能影响研究对象是否参与研究的因素不相关,因此在研究遗传标志的主效应时,选择偏倚较少发生。这种生物标志可以是基因型的改变,如某个基因的缺失,某段未知染色体片段的拷贝数变异(copy number variation,CNV)或者单核苷酸多态性;也可以是功能学或者表型的改变,如代谢表型、DNA修复能力(DRC)等。由于DNA水平的遗传标志物可以长时间保持稳定,故病例对照研究中外周血来源的基因型易感性标志物检测一般不会受到诊断时间和疾病状况的影响。
(1)基因型研究:
随着人类基因组计划及环境基因组计划的完成,越来越多的基因及其多态性被发现,这些基因大多行使机体的日常功能,多态性的改变可能影响其参与的多个生物学途径,如细胞分化、细胞凋亡、细胞周期调控以及DNA修复等,从而导致一系列健康异常状况的出现。因而,基因型标志越来越多地被用于肿瘤的病例对照研究中。例如,笔者所在的研究小组曾通过病例对照研究发现了一批与中国人群肺癌发病相关的功能性/标签单核苷酸多态性,包括DNA损伤识别因子 PIKK,DNA修复基因 XRCC1, XPD/ERCC2, MGMT等 [9-12]。近年来,全基因组关联研究的出现使得研究者们能够通过大样本量的病例对照研究设计从全基因组范围内探讨遗传易感标志物与肿瘤等疾病的关联。近几年来,对常见恶性肿瘤已开展了多项GWAS,如肺癌、前列腺癌、乳腺癌、结直肠癌等 [13-17],最近已经逐渐扩展到一些低发肿瘤,如膀胱癌和甲状腺癌 [18-19]等,报道了数百个肿瘤易感位点/区域。
研究实例2:中国汉族人群肺癌的全基因组关联研究[20]
研究设计:多阶段的病例对照研究设计
研究对象及方法:通过AffymetrixGeneChip Human Mapping 6. 0芯片(Affymetrix公司),iPLEXSequenom系统和TaqMan基因分型平台(Applied Biosystems公司)等基因分型技术进行了中国汉族人群(包括2331肺癌新发病例和非肿瘤3077对照)全基因组906,703个SNP位点的筛选及后期二阶段验证(第一阶段:2283新发肺癌病例和2243非肿瘤对照;第二阶段:4030肺癌新发病例和4166非肿瘤对照)。研究结果:发现了3q28、5p15、13q12和22q12 这4个染色体区域上6个SNP(rs4488809、rs465498、rs2736100、rs753955、rs17728461和rs36600)与肺癌易感性存在显著相关,其中,位于13q22和22q12区域的3个SNPs (rs753955、rs17728461和rs36600)为中国人群首次报道。
研究结论:全基因组范围内的多个遗传变异与中国汉族人群肺癌的易感性存在关联。[摘自Hu Z et al.,Nat Genet. 2011 Jul 3;43(8):792-6)]
(2)表型研究:
病例-对照研究中可以有效检测那些反映基因功能个体差异的表型。例如,通过病例对照研究设计探讨DRC(DNA修复能力)表型与肿瘤患病风险这一科学问题已得到比较一致的阳性结论(表2-1),DRC与肿瘤风险呈现了很好的剂量-效应关系。此外,乙酰基转移酶活性表型与膀胱癌的研究也表明,表型为慢型代谢的人有较高的患膀胱癌的危险性。需注意的是,利用表型标志来研究肿瘤的遗传易感性,在方法学上存在与上述暴露标志类似的困难,容易受短时近期暴露影响的表型指标较难应用于病例-对照研究中,尤其是在还未掌握暴露谱和它们的表型改变关系的情况下。
表2-1 DRC与肿瘤的关联研究[21]
1根据发表文章计算所得
[Hu Z et al.,2007]
二、队列研究
(一)研究特点
在流行病学设计上,大规模的队列研究一直是最理想的,但对于分子流行病学而言,经济上耗费较大。队列研究除通常用于病因研究外,还可用于生物学标志对疾病危险性和预后预测价值的研究等,因其属前瞻性研究或随访研究,因而可以充分探讨从暴露开始至疾病或事件发生其间各阶段的生物学标志及其变化动态。通常,队列的建立初期需要耗费大量的人力、物力和时间,但这种设计可以探讨一种暴露与多个结局之间的关联,因而具有较高的成本效益,并且提供了一个固定的人群便于采集生物标本。
(二)研究对象的选择和样本收集
在研究开始,就通过调查问卷收集研究对象的基本暴露信息并储存血液样本,后者可以分离出白细胞作为基因组DNA的来源。随着随访的进行,新发病例逐渐增多,就可以分析易感标志物或血清/血浆标志物(如激素水平、化学致癌物水平以及蛋白质谱等)。队列研究理论上可以在研究过程中不断地定期收集样本,但实际上许多大型的研究在真正实施时,仅能采集某个时点的单一样本。当然,这并不影响以DNA为基础的遗传易感标志物的检测,但对于其他一些标志物可能会有局限,尤其是短期暴露和随时间变异较大的标志物检测。
(三)主要应用
巢式病例对照研究或者病例-队列研究设计可以提高肿瘤分子流行病研究的效率 [22]。这些研究设计一般只需要在较小的队列子集选择新发生的病例和随机选择的非病例作为研究对象,因而可以大幅度的降低实验室检测的成本。
1.巢式病例对照研究
其基本方法是:开始按照队列研究进行设计实施,收集有关资料和生物标本;在随访中发现新病例后,从同队列中选取对照;对病例和对照的有关资料和生物标本的监测结果进行病例对照研究分析。巢式病例对照研究也存在一些缺点,例如,在统计效率上比队列研究略有损失;另外,巢式病例对照研究探索病因的能力依赖于回顾性地评价生物标志的能力,这可能会导致测量偏倚或遗漏而影响所估计的效应。巢式病例-对照的研究设计在分子流行病学研究设计中已被用于许多疾病的研究。
研究实例3:黄曲霉毒素水平与肝癌风险的关联研究[23]
研究设计:巢式病例-对照研究
研究对象及方法:选择上海18 244例45~64岁的男性作为队列人群,经过35 299人年随访后新发肝癌22例,然后从队列中随机选择年龄和居住区等配对的对照(1 : 5~10),检测病例和对照尿液中的黄曲霉毒素B1及其代谢物的水平。
研究结果:尿黄曲霉毒素任一种代谢物阳性者患肝癌的危险性是对照组的2. 4倍(95% CI=1. 0~5. 9);其中,黄曲霉毒素P1的效应最强(RR=6. 2;95%CI=6. 2~21. 5)。
结论:黄曲霉毒素的暴露水平可作为肝癌防控的评价标志物。
2.病例-队列研究
病例-队列研究设计是一种不匹配的巢式病例-对照研究。基本原理是:队列研究开始时,在队列中按一定比例随机抽样选出一个有代表性的样本作为对照组,观察结束时,队列中出现的所研究疾病的全部病例作为病例组,与上述随机对照组进行比较。由于病例队列研究设计的研究对象是全队列很小的一部分,因此称其为亚队列,是全队列的随机样本。该研究通常以同一组对象作为参比组,对多种研究结局进行评估,但由于对照组是同一群人,在对不同结局进行研究时,其生物样本可能会很快耗尽。当然,对于遗传标志物而言,可以使用对照前期的检测结果与随访过程中发生的多种疾病的病例进行比较。但总的来说,病例组和对照组应当在同一时间、同一实验室、同一检测平台甚至同一实验员的情况下进行生物标志物的检测,从而降低生物标志物在病例组和对照组中的检测差异。
三、预后研究
(一)研究特点
预后研究属于队列研究范畴。影响肿瘤预后的因素较多,因此,不同研究领域的研究者通常会从多个方面对肿瘤的治疗预后和结局进行探讨。预后研究包括预后的评价以及影响预后因素的研究,其中,预后评价的常见内容包括总生存,无进展生存以及生存质量评价等。在肿瘤分子流行病学研究中,如果能够前瞻性的收集病例的临床信息,如治疗、复发、转移以及生存情况等,结合生物标志物的检测,则可以大大提高研究的价值。预后评价的指标包括治愈率、死亡率、复发率、生存率等。
(二)研究对象的选择及样本收集
在一个随访队列中,可以根据关键结局的有无或严重程度进行研究对象的选择和分组,进行病例-病例比较既往采集的一些因素,从而探讨不同的预后影响因素,类似于队列研究中的巢式病例对照研究。在预后的队列研究设计中,可以在对象招募时按照不同的研究因素或检测的生物标志物分组,也可以根据随访过程中的某些特征进行分组,最终比较这些因素/标志物的有无或不同水平与肿瘤不同结局,如复发、转移或死亡等以及生存质量的关联。在肿瘤分子流行病学研究中,常用的临床队列研究设计是:纳入对象通常是临床上病理诊断明确的新发肿瘤患者,在治疗或其他干预前对其进行生物样本的收集和生物标志物的检测,进而对其进行随访以确定结局,最终比较生物标志物的水平或不同分类与肿瘤预后或治疗效果差异的关系。
需注意的是,病例临床结局信息的收集主要来自于随访。随访的目的是:①早期发现有无复发或转移病灶。有些肿瘤在复发和转移后及时进行治疗仍能取得较好的疗效,如大肠癌术后单发的肝转移、乳腺癌术后胸壁局部复发等可再次行手术治疗,仍能得到较满意的效果。②研究、评价、比较各种恶性肿瘤治疗方法的效果,提供改进综合治疗的依据,以进一步提高疗效。③随访对肿瘤患者有心理治疗和支持的作用。此外,随访应有一定的制度,在恶性肿瘤治疗后最初2年内,每3个月至少随访一次,以后每半年复查一次,超过5年后每年复查一次直至终生。由于各种肿瘤的恶性程度不一,故治疗后的疗效判断也不尽相同。如胃肠道腺癌、肺癌、子宫颈癌需观察5年以上,乳腺癌发展较慢,目前认为随访10年才能得出临床治愈的结论。甲状腺乳头状癌的发展更慢,至少随访10年以上才能判断有无治愈。
(三)主要应用
临床观察显示,相同肿瘤的患者,对同一种治疗方法(药物)的效果和预后可表现出较大的差异。如能利用有效的生物标志物,进行患者药物敏感性和预后的预测,进而选择敏感的药物和适当的剂量,可以有效改善疗效和预后。近期预后的评价主要包括肿块大小的变化、肿瘤的复发、转移等,而在对肿瘤的远期临床疗效进行评价时,则需进行生存分析(详见第七章)。此外,治疗药物的毒副反应、并发症等也是预后评价的重要内容。近年来,已有大量的研究探讨了基因表达、突变、单核苷酸多态性等不同生物标志物与肿瘤预后的关联,获得了一批有望用于预测肿瘤预后和促进临床个体化治疗的生物标志,如 XRCC1Arg399Gln、 MDM2SNP309等位点多态性改变能显著影响非小细胞肺癌的预后 [24-28], CASP3rs6948、 CDA Lys27Lys多态改变能显著影响肿瘤患者化疗后的骨髓抑制毒副反应等 [28-30]等。然而,肿瘤的预后是一个受多因素影响的复杂过程,患者本身的基础疾病、治疗手段、生活方式、营养状况以及遗传因素等均可能发挥重要作用。因此,研究者们越来越认识到,肿瘤的预后研究需要进行更全面、更综合性的考虑。
研究实例4:晚期非小细胞肺癌(NSCLC)铂类化疗预后的全基因组关联研究[31]
研究设计:多阶段、多中心的临床预后研究
研究对象及方法:为控制研究的异质性,所有病例限定在患病期间未手术、以铂类化疗为主的晚期(Ⅲ~Ⅳ)NSCLC病例,无其他肿瘤病史,采血前未接受放射治疗和(或)化疗的患者。初筛阶段:符合以上样本选择要求且具有完整随访信息的535例中国汉族人群NSCLC患者。验证阶段:第一阶段验证样本共340例中国汉族人群NSCLC患者;第二阶段验证样本为409例高加索NSCLC患者。
研究结果:5个区域(3p22. 1,5p14. 1,7q31. 31、9p21. 3和14q24. 3)的遗传变异与与中国人群晚期肺癌患者接受铂类治疗后的预后显著相关,且3p22. 1和14q24. 3区域的两个位点还与高加索人群的NSCLC预后有关联。
研究结论:全基因组范围内的多个遗传变异可影响不同种族人群NSCLC患者铂类化疗的预后,既有共性又有特异性。
四、基于家系的研究设计
以家系为基础的关联研究通常以家系中的非患病个体作为同一家系中患病个体的对照,并采用传递不平衡检验(transmission-disequilibrium test,TDT)进行分析。如病例-同胞对设计 [32-33],即将患者的至少一个非患病同胞作为对照,通过比较同胞的等位基因或者基因型,来检测遗传标志是否与疾病位点基因关联或者连锁,及基因与环境是否有交互作用。病例-同胞对照设计选择患者未患病的同胞作为对照,由于患者及对照具有相似的遗传背景,可以有效地避免人群分层混杂现象。如果是早发疾病,可以采用病例父母对照研究 [34](case-parental control studies),其基本设计原理为:首先根据研究目的确定一部分家系(家系包括一个患者和其父母),收集患者及父母的一般情况、环境暴露资料(协变量),采集患者的生物标本,运用分子生物学技术检测患者及其父母的基因型,将患者父母的四个等位基因划分为两组,传递给患病子女的两个等位基因为疾病组,即患者的基因型;未传递给子女的两个等位基因构成了“对照组(虚拟个体)”基因型,形成了每个病例的基因型与对照的基因型配对的资料,然后计算病例组和对照组的基因频率,进行差异显著性检验,并计算相对风险以及TDT检验。该研究的主要特点同样是能够消除群体分层现象,但对于一些晚期发病的肿瘤,要测定双亲的基因型是非常困难的。
五、其他研究设计
病例-病例研究也称单纯病例研究 [35]。其基本原理是:把不同临床类型或具有某些生物学标志的病例与无标志的病例按照病例对照研究的方式处理资料,以探讨不同临床类型的危险因素的差异或者这个生物学标志与该病的其他危险因素之间的关系和交互作用。该种研究设计可以评价肿瘤的病因异质性,并对测定环境因素与遗传因素之间的基因-环境或基因-基因交互作用具有独特的价值,同时也避免了由于选择对照而可能产生的选择偏倚。但这类研究设计存在如下缺陷:①该研究采用相乘模型估计环境暴露与遗传交互作用,其结果只能评价二者在疾病发生中有无相乘模型交互作用,而不能评价是否有相加模型交互作用;②该研究的零效假设是遗传与暴露相互独立,这种假设有时并不成立;③单纯病例研究无法估计主效应因素(基因、环境)与疾病的独立关系。