第三节 研究实施及资料分析
一、研究的实施步骤
1.研究目的
在进行肿瘤分子流行病学研究设计时,首先要在广泛查阅文献和了解最新进展的基础上,明确该项研究拟阐明或解决的问题,充分考虑创新性、实用性和可行性。
2.调查方法与样本
确定所要进行的调查研究方法,如描述性、分析性或干预(实验)性研究;样本选择:样本来源的地区和人群、样本大小,标本采集和储存的要求。
3.测量指标
根据研究目的和具体研究内容确定测量指标。主要考虑生物标志是否特异、稳定,标本采集是否方便,是否有灵敏而特异的检测方法,生物标志是否最好地代表了所要阐明或解决的问题关键。
4.测量方法
根据测量指标,结合实验室条件合理选择测量方法,检测方法要简便、成熟,灵敏度和特异度高;新方法要考虑检测结果与其他方法结果的可比性。
5.结果与分析
根据选择的测量指标和测量方法确定资料分析方法,即率或比分析、定量分析、遗传关系分析、生存分析等。并要制订总结、分析、结果报告的具体计划。
6.质量控制
在肿瘤分子流行病学研究中,在注重现场质量控制的同时,还要特别重视实验室的质量控制,制订监控和核查计划。
7.注意事项
在研究的不同阶段都要注意一些关键问题及其处理办法,要进行预实验。
二、样本含量的估算
为了保证研究结论的可靠性,确定研究所需要的最低观察对象的数量,即样本量的估算十分重要。在肿瘤分子流行病学研究中,通常需要对大量个体的不同遗传标志物进行检测,因此建立在统计学基础上的遗传学数据分析方法导致样本量成为该类研究中非常重要的因素。如果样本量太低,统计学把握度小,难以检测出诸多效应低微的生物标志物的效应;相反,如果样本量太大,则会导致昂贵的生物标志物检测成本增加。
样本大小的影响因素包括多个方面,以检测单核苷酸多态性(SNPs)与肿瘤易感性的病例对照研究为例,决定样本大小的因素包括:肿瘤的患病率、易感等位基因频率、位点间的连锁不平衡(LD)大小、遗传模型的类型(相加模型、共显性模型、显性模型、隐性模型等)及遗传标志物的效应(OR、RR等)等 [37-38]。由于单个SNP在肿瘤发生中的作用相对微弱(一般OR值为1. 1~1. 5),因此关联研究所需的样本量通常较大。有研究者 [39]根据不同的遗传模型和OR估计值(把握度设为80%,患病率设为5%,最小等位基因频率MAF设为5%,病例和对照数目比为1: 1)对检测单一SNP效应的病例对照研究进行了样本量估算,结果表明,同样的OR估计值下,隐性模型所需样本量远高于其他遗传模型(表2-2)。
表2-2 病例对照研究的样本量估算(把握度为80%)
*OR het/OR homo杂合子或罕见纯合子所对应的OR估计值
此外,复杂性状疾病的发生一般涉及众多的环境因素和基因,两者可能存在交互作用。然而,分析两个因素的联合作用的样本量至少是分析每个因素单独作用的2~4倍。因此,检验基因-环境交互作用的最大挑战是对样本量的要求。目前,许多肿瘤分子流行病学研究样本量均不大,没有足够的把握度,因而,除非交互作用很强,否则难以被检测出来。
三、传统的流行病学分析指标
传统流行病学常用分析指标如疾病率、暴露率、复发率、缓解率、生存率、比值比OR和相对危险度RR等,都可应用于肿瘤分子流行病学研究。有些指标的含义可能有些变化,如生物标志发生率、检出(阳性)率等;对于数值变量资料也可计算均数、标准差等。
四、基因多态性与疾病的关联研究分析
关联研究(association study)是分析复杂性疾病遗传易感性的常用方法,通过比较遗传变异在一定样本的病例组和对照组中的差异,进而发现疾病相关的变异位点。由于早期基因分型技术不成熟和基因组变异信息缺乏,关联研究主要是采用候选基因策略,即侧重已知肿瘤发生发展的相关通路/基因的SNP。但是,由于单个SNP在肿瘤发生中的作用相对微弱,采用候选基因策略的关联研究由于样本量较小、研究设计参差不齐、研究结果缺乏验证,导致研究结果重现性差,真正与肿瘤易感性建立明确关联的基因变异很少 [40-41]。自2007年国际人类基因组单体型图谱计划(International HapMap Project)启动以来,大量SNP研究数据被共享。同时,高通量基因分型技术也得到了迅猛发展,检测成本大幅下降,基因分型成功率和一致性不断提高,全基因组关联研究(Genome-wide Association Study,GWAS)应运而生。以下仅对目前肿瘤分子流行病学研究中常用的一些关联分析方法进行简要介绍。
(一)常见的关联分析
肿瘤分子流行学研究中,常用多种遗传模型如共显性模型、显性模型、隐性模型、相加模型等来估计不同等位基因与肿瘤发病/死亡风险之间的关系。假定一个多态性位点上存在两种等位基因A和C,A为野生等位基因,C为突变等位基因。那么,AA称之为野生纯合型,AC称之为杂合型,而CC则称之为突变纯合型。共显性模型是以野生纯合型AA为参比组,探讨杂合型AC和突变纯合型CC分别对于表型的影响(AC vs AA和CC vs AA);显性遗传模型是以AA为参比组,探讨(AC+CC)对于表型的影响(AC/CC vs AA);隐性模型则是以(AA+AC)为参比组,探讨突变纯合型CC对于表型的影响(CC vs AA/AC);相加模型主要是评估随着突变等位基因C个数的增加对于表型的影响。一些传统的统计学分析方法同样适用于肿瘤分子流行病学的关联分析,如卡方检验、t检验、单因素和多因素Logistic回归分析等。对于预后分析而言,也可以应用log-rank检验、Kaplan-Meier估计以及Cox回归等。
(二)基于单倍型的关联分析
单倍型(haplotype)指在同一染色体上进行共同遗传的多个基因座上等位基因的组合,能够很好地反映多个位点之间联合的信息。如果人群中某个位点上共有n1个等位基因,另一个位点上共有n2个等位基因,可能就有n1n2个双位点的单倍型组合。单倍型分析进行复杂疾病的研究主要优点有:
(1)常见(common)位点之间存在连锁不平衡(LD),我们可以在不直接检测致病位点的情况下,获取某个标签位点(tagging SNP)来指示重要的染色体位置或区段,这样的标签位点通常与致病位点处于同一个haplotype;
(2)单倍型有时本身是生物功能的基本单位;
(3)单倍型是染色体上的特征结构,可能以块的形式存在并可作为一个整体传递给下一代;
(4)从统计上看,利用单倍型可以降低研究问题的维数。Logistic回归模型、广义线性模型、似然比检验以及得分检验等均统计学方法均可用于分析单倍型与肿瘤发病或死亡风险的关联。
(三)基因-基因和基因-环境交互作用分析
常见的病例-对照研究或队列研究中获得的资料均可用于分析基因-基因、基因-环境的交互作用。表2-3为病例对照研究基因环境交互作用分析模式。OR 10为基因的主效应,OR 01为环境的主效应,OR 11为环境-基因的联合作用,交互作用的相对比值比OR int可由公式OR int=OR 11/(OR 01* OR 10)计算获得。有关基因-基因和基因-环境交互作用的详细介绍和分析见第五章。
表2-3 病例对照研究基因环境交互作用资料分析*
*+:暴露,-:非暴露
(四)全基因组关联研究分析(GWAS)
GWAS是在全基因组层面上开展的多中心、大样本、多阶段验证的遗传变异与疾病的关联研究分析。一般采用高通量的基因分型平台,基于LD原理选择几十万甚至上百万个标签位点来涵盖人类基因组范围的遗传变异,所采用的病例-对照研究样本量较大(1000对以上),并要求辅以多个独立的研究进行后期的验证和筛选,最终得到与该疾病关联最为密切的易感性位点 [42]。该方法能够实现低成本、高效益地找到遗传标记与疾病间的关联,同时解决GWAS分析过程中出现的假阳性问题。具体内容详见第四章。
(五)通路为基础的分析
目前已发表的GWAS研究大多只报道统计显著性最强的一些SNPs,而缺少代表生物机制的通路信息的支持。因此,在全基因组关联研究的基础上,近年来还有研究者将基因表达分析中的通路分析方法应用于GWAS,目的在于将GWAS检测的所有SNP按照不同的生物学通路进行整合,比较不同通路在病例组和对照组中的差异,以此作为单位点分析的补充,进而弥补GWAS研究的不足 [43]。当前常用的GWAS通路分析软件包括基因集富集分析(gene set enrichment analysis)、生物通路分析(ingenuity pathway analysis,GSEA)和SNP集富集分析(SNP set enrichment analysis,SSEA)等。常见的KEGG、BioCarta等生物学数据库已详细绘制了与生物学过程和功能相关的通路。基于通路的GWAS分析方法将全基因组关联研究数据中的微效信号富集到生物学通路和网络,并评估功能相关或处于同一生物学通路中的多个基因的共同作用,有助于发现富集多个微效基因的疾病易感生物学通路,有效弥补了单位点分析仅能发现最明显关联的缺陷。然而,通路分析依然没有考虑基因-基因、基因-环境交互作用,因此也无法全面估计常见变异在复杂性疾病发病中的作用。并且,通路的组成和构建也有待分子生物学等相关研究进一步充实。
(六)eQTL关联定位分析
芯片及测序等新一代检测技术的发展使得在全基因组范围内同时分析上千万个基因的表达谱成为可能。2001年,有研究者 [44]提出表达数量性状定位分析技术(expression quantitative trait loci,eQTL),即将传统的全基因组表达分析数据和GWAS数据进行整合,(http:// www. ncbi. nlm. nih. gov/gtex/GTEX2/gtex. cgi),以mRNA或miRNA表达水平为数量性状,定位与基因表达变异相关联的遗传变异位点,进而建立相关的基因调控网络。eQTL的本质是定位控制mRNA表达变异的遗传因子,可根据eQTL定位到的区间与转录子在染色体上的相对位置,将eQTL分为顺式作用eQTL(cis-eQTL)和反式作用eQTL(trans-eQTL);若eQTL被定位到基因自身所在的区域,则为顺式作用;反之,若被定位到基因自身所在以外的其他区域,则为反式作用。然而,多种因素会影响eQTL检测的准确性,如样本量的大小、检测技术、统计方法的选择以及遗传异质性、等位基因频率等。因此,所检测的eQTL及构建的基因调控网络还需要进一步的分子生物学实验的验证。
(马红霞 沈洪兵)