第四节 危险度模型在分子流行病学中的应用

一、危险度评估

危险度评估(risk assessment),是利用定量或者定性的方法来确定危险因素的累积与疾病风险间的关系。这些危险因素可以包括环境毒物的测量、个体的生物学特征、体内标志物及DNA位点的测量结果,等等。在得到这些测量值之后,建立某个个体的患病风险或预后情况的危险度模型,有助于对筛选易感个体进行早期干预,或对具有某种特征的个体采取个体化的治疗手段;另一方面通过评价危险度模型,也有助于了解疾病发生、发展等过程中的重要环节,为有针对性地采取预防和治疗手段提供依据。
传统上,进行危险度评估主要基于受试者的一些个体特征及环境暴露测量。例如,广泛应用于妇女散发性乳腺癌风险评估的Gail模型中包括年龄、一级亲属乳腺癌家族史、初潮年龄、首次活产年龄、乳腺活检次数及是否乳腺不典型增生等因素。然而,随着分子检测水平的提高及新型肿瘤遗传标志物的不断发现,综合使用环境暴露与遗传信息建立预测模型,已成为危险度评估领域的研究热点。

二、常用的危险度模型

1.基于风险得分函数的危险度模型

在识别了危险因素的基础上,可以通过对危险因素进行记分,并汇总成风险得分函数(risk score function,RSF),从而根据个体得分的高低来判断其危险性。假设某疾病有 K个可能的危险因素,对于第 i个危险因素,假设已经通过某种准则将其进行记分,用 si表示,则风险得分函数记为

考虑到不同危险因素的重要性有所不同,有时候会给每个危险因素赋予相应的权重,于是有

上式中, wi为第 i个危险因素的权重。权重的确定可以基于危险因素的效应或专业意义来决定。
例7  Hu等在2010年的Journal of Clinical Oncology杂志上报道了血浆微小RNA表达谱与非小细胞肺癌生存期的关系 [5]。他们首先将30名长生存期及30名短生存期NSCLC患者作为发现阶段样本,利用Solexa测序,最终筛选出了4个差异表达的微小RNA(miR-486,miR-30d,miR-1和miR-499)。第二阶段,他们选择了120名NSCLC受试者作为训练集,利用发现阶段选出的位点,建立了如下的危险度得分

(0. 969×miR-486)+(0. 973×miR-30d)+(-0. 650×miR-1)+(-0. 815×miR-499)

在训练集中,中位危险度得分为0. 415分,以之作为分割点(cutoff point),高风险的受试者(>0. 415)与低风险(≤0. 415)相比,风险比HR为10. 74。将该风险得分函数及分割点用于另外123名受试者组成的测试集,风险比HR为6. 35,与训练集基本一致。图5-3中给出了所有303名受试者的风险得分及生存情况,可见,该风险得分较好地区分了高和低死亡风险的非小细胞肺癌患者。
图5-3 基于血浆微小RNA的风险函数与非小细胞肺癌预后的关系

2.基于机器学习的危险度模型

尽管上述基于风险得分函数的危险度模型具有使用方便、易于理解等优点,但一些研究者认为它对风险模型有过度简化之嫌。例如,是否需要纳入低阶甚至高阶交互作用?是否需要考虑非线性模型?等等。
近年来,一些基于机器学习的统计预测模型,开始在危险度评估中得到重视。与风险得分函数不同,这些预测方法往往不指定模型的具体形式,而是由计算机根据某种算法,来“训练”出一个预测模型。在本章中介绍的随机森林法,便是一种使用较为广泛的方法。
例8 在一项非小细胞肺癌的GWAS研究中,研究者将2000名受试者(1000病例+1000对照)随机分为训练集(1800人)和测试集(200人)。在训练集中,首先利用随机森林算法,对所有SNP的重要性进行了排序。然后再从最重要的SNP开始,将SNP按照重要性由高到低逐渐加入预测模型。每加入一个SNP,便拟合一个随机森林模型,并用测试集进行验证。模型中的SNP个数与AUC的关系见图5-4。
图5-4 利用随机森林法进行NSCLC风险预测
由图5-4可见,随着SNP个数的增加,模型的AUC逐渐增加,当模型中大约有100多个SNP时,模型的AUC达到最高,约为0. 72,此后逐渐下降,说明再增加SNP已经不能够提高模型的预测能力。
除了随机森林法,其他的机器学习方法,如支持向量机、人工神经网络,等等,也在危险度评价中受到了越来越广泛的重视。尽管机器学习法的预测效果要略微好于风险得分模型,但这种预测能力的提高往往以模型中增加几十甚至上百位点的代价来达到,且结果的可解释性不如风险得分模型,故在应用中需谨慎。

三、危险度模型的评价

危险度模型建立后,需要对其进行评价。对于2分类结局事件,常用于评价危险度模型的指标是受试者工作特征(receiver operating curve,ROC)。对于同时具有较高灵敏度和特异度的评估模型,ROC的曲线下面积(area under curve,AUC)将接近于1。对于生存结局的研究,可以使用 c统计量进行评价。
尽管AUC在临床诊断研究中被广泛使用,在一些基于血浆生物标志物(如微小RNA和基因表达谱)的危险度评估研究中也得到了成功的应用,但在将其运用到基于高维基因组学数据的危险度评估模型中去时,其限制性表现得越来越明显。一方面,当AUC达到一定程度后,额外的标志物将很难明显提高AUC;另一方面,在遗传标志物的模型评价中,由于在GWAS研究中,芯片上的位点只能解释很小的遗传力,故遗传标志物对传统模型AUC的提高有限。例如,在妇女散发性乳腺癌风险评估中,单纯使用Gail模型,AUC为0. 607,若在此Gail模型上引入7个GWAS发现的乳腺癌位点,AUC只能提高到0. 632。类似的现象也发生于前列腺癌、肺癌等复杂性疾病的危险度评估中 [6]
针对以上问题,一些研究者提出了新的指标。净重分类改进指数(net reclassification improvement,NRI)可以评价新的预测因子提高原有分类(如高、中和低危等)正确率之能力。它定义为阳性事件在各风险分类(组)评价中提高比例与降低比例的差值与阴性事件在各风险分类(组)降低比例与提高比例的差值之和。
例9在一项急性呼吸窘迫综合征(acute respiratory distress syndrome,ARDS)危险度评价的研究中,研究者想要考察在仅使用APACH得分的预测模型中纳入遗传标志物对预测模型改善程度的影响。研究数据如下。
则NRI为

不难发现,NRI的可靠性与分类标准选择的合适与否有很密切的关系。针对这个局限性,有研究者提出了整合判别改进指数(Integrated Discrimination Improvement,IDI),它可以被认为是NRI的连续性版本,用引入预测因子后概率的差异取代了NRI中的分类。
建立预测模型后,还需要进行验证,以避免过度拟合的现象发生,从而导致该模型难于外推。尽管寻找外部样本进行验证是一种较常见的做法,但实际应用时往往存在一定的困难,主要原因可能包括:人群间暴露、种族特征区别较大;外部人群中可能没有相应的危险因素记录,等等。因此,若样本量较大,可以将样本随机分为训练集和测试集,在训练集中建立模型,并在测试集中进行验证。但由于训练集的样本减少,可能会导致效能的下降。此时可采用交叉验证的方式,如十分法(ten-fold cross validation),即先将样本分为10个子样本,每次将其中9份作为训练集建立模型,再用剩下的1份进行测试,重复10次,直到所有的10个子样本都作为测试集为止。可以通过考察10次验证中得到的评价指标的平均水平和变异程度来评价预测模型的性质。
需要说明的是,模型的建立,包括位点选择、权重确定及分割点选择,均需在训练集中完成,测试集仅能用于模型的验证。有些研究者在筛选位点时利用了全样本,得到的模型在测试集中可能具有较好的表现,但这样做重复利用了样本,会导致过度拟合现象。

四、基于遗传标志物的肿瘤危险度评价的前景

本节主要介绍的是危险度模型的统计学问题。随着GWAS研究的广泛开展,越来越多的肿瘤相关危险单核苷酸多态性被发现。在国内,已经开展的GWAS包括肺癌、胃癌、乳腺癌、食管癌,等等,这些研究发现了多个与汉族人肿瘤风险有关的位点。
一些研究者逐步开始认识到利用全基因组数据来进行肿瘤发生预测的可能性。在识别了危险位点的基础上,通过风险得分模型,可以对个体是否发病进行预测。例如,Zheng等研究表明,基于GWAS所发现的11个位点,可以建立前列腺癌的预测模型,AUC达到0. 648 [7];而Hartman等人基于13个位点对乳腺癌预测,其AUC在高加索、新加坡华人、新加坡马来人和新加坡印度人样本中分别为0. 698,0. 617,0. 661和0. 743 [8]。这些研究提示GWAS数据具有用于肿瘤风险预测的潜力。
然而若单纯从统计学的角度,目前基于遗传标志物的肿瘤危险度评估模型表现并不理想,预测模型的AUC往往较低,几乎不超过0. 75。究其原因,一方面癌症的发生、发展和预后往往和多个位点有关,且极少存在强效应(OR>2甚至1. 5)的位点,而现有的统计分析方法过于看重全基因组水平上的显著性,忽略了弱效位点;另一方面,现有的GWAS芯片只能解释有限的遗传力(heritability),没有包含可能存在较强效应的罕见变异位点;同时,现有预测模型往往均仅依赖于GWAS芯片分析结果本身,忽略了由基因组到疾病过程中的转录、调控、编码、甲基化等过程。
笔者认为,一方面需要对现有危险度评估模型进行改进,采用高效的方式筛选罕见变异,采取合适的方法以更灵活的形式纳入交互作用、罕见变异及功能学信息,提高预测精度;另一方面,我们也要合理地解释基于遗传标志物的危险度模型所得到的结论。需要注意的是,我们不应当将基于遗传标志物的危险度模型作为诊断工具,该模型应当发挥“超级位点”的作用,用以量化个体的遗传风险,从而有助于筛选高危人群;同时,对于模型本身,我们也应当更关注该模型与传统的仅仅基于环境或临床信息的模型相比,究竟改善了多少。例如,Xu等考察了基于基因风险得分的危险度模型在前列腺癌遗传风险评估中的应用,认为相对于家族史而言,该基因得分模型是一种更客观、表现更好的遗传风险的度量 [9]
在实际工作中,对个体进行肿瘤的危险度评价,需要考虑社会、医学、伦理、心理及经济等方面的一系列问题。以乳腺癌和卵巢癌的危险度评估为例,2012年的国立基因咨询协会(National Society of Genetic Couselors,NSGC)的指导原则中建议,对个体进行乳腺或宫颈癌的危险度评估,除了基因检测外,还要收集个体的既往医疗史和家族史信息;医生需要和受试者对基因检测的伦理、法律和社会问题进行详细的讨论;在个体的风险评估结果知晓后,还要能提供必要的心理和医疗支持,等等。

(赵杨 陈峰)