第四节 研究展望——后全基因组关联研究
GWAS揭示出了一系列疾病/性状相关的遗传易感位点,为疾病预测模型的建立及早诊早治提供了大量研究基础。虽然全世界在GWAS领域取得了前所未有的成绩,但我们仍应清醒地认识到未来面临的一系列挑战。首先,尽管我们已经发现了一系列与疾病相关的遗传易感位点,但这些位点对于疾病发生的解释却非常有限,仍没有建立起十分有效的疾病预测模型,提示我们还有更多的遗传易感位点有待发掘。通过扩大验证的样本量、meta分析、基因环境交互作用分析等方法可能是发现潜在功能SNP的主要手段。其次,GWAS虽然发现了许多与疾病相关的遗传易感位点,但对于这些位点背后的分子机制还不甚明了,大部分位点并不处于基因的调控区,甚至许多SNP还位于基因荒漠区。如何去挖掘这些遗传易感位点背后的分子机制成为了下一步研究的重点,而针对这些已经发现区段进行深度测序(deep sequencing),并结合基因表达或基因表观遗传学研究可能是未来挖掘功能性SNP的主要方法。如何充分有效地利用现有GWAS数据,找到更多易感SNP、阐明已知易感SNP的功能、全面阐释遗传变异与疾病/性状的关系,已成为现代遗传学面临的新挑战。本节就对未来GWAS的发展趋势作一简要介绍。
一、GWAS数据挖掘与验证
目前GWAS通常选用较为严谨的标准(如 P≤10 -7)筛选出具有明显统计学差异的SNP进行第二阶段的验证。这样设计的优点是降低了第一阶段筛选的假阳性,减少了验证阶段的工作量和费用。然而,由于发现阶段的样本量相对较小,采用如此严格的验证界限,并没有足够的检验效能可以发现所有与疾病/性状相关的SNP,往往会丢失掉一些可能有意义的遗传易感位点。许多课题组为了发现更多的易感位点,适当放宽了发现阶段筛选SNP的标准,扩大了验证范围。比如,在类风湿关节炎的GWAS中,Thomson等对5×10 -7< P<10 -5的SNP进行验证又发现了一个新的易感位点 [56],Barton等对10 -5< P<10 -4的SNP进一步验证,又发现了3个新的易感位点 [57]。林东昕教授课题组将食管癌GWAS中10 -7< P≤10 -4的SNP做进一步验证,又新发现了多个与食管癌易感性相关的SNP [21]。因此,在经费充足的情况下,放宽验证的标准,扩大验证的样本量是发现更多易感SNP的有效手段。
二、GWAS数据的Meta分析
Meta-Analysis是循证医学及GWAS的重要研究工具 [58]。由于统计学效力的原因,GWAS结果很难检出低频率(MAF<0. 05)或效力弱(OR接近1)的SNP [59]。因此,增加发现阶段的统计学效力对发现易感SNP异常重要。在GWAS中,Meta-Analysis是基于相同的表型、权重等因素对不同研究结果进行收集、合并及统计分析,可以增加样本量、提高统计效力,不仅可以检出常见变异,同样也可发现一些强效的罕见变异 [60]。第一个GWAS的Meta分析由DIAGRAM协会完成,他们分析了3个GWAS数据共计10 000个欧洲人样本,新发现了6个与2型糖尿病相关的易感位点 [61]。GWAS的Meta分析与普通Meta分析一样,需要确定统一的入组标准,然后对多个研究的检验统计量、标准误、 P值进行合并。因此,怎样消除不同研究的人群、数据、检测方法、结果的异质性和偏倚是影响分析结果的最大因素。若不考虑不同研究中的人群异质性和遗传膨胀系数则可导致得出错误的 P值 [59]。最常用的异质性检验统计量为I 2和Cochran’Q [62]。另外,通常采用倒方差法对不同研究得出的OR值进行合并。若异质性来自随机误差,采用固定效应模型来平衡权重;若异质性来自人群分层、实验设计或表型的差异,则采用随机效应模型 [63]。目前,GWAS的Meta分析更多地采用固定效应模型,原因可能是由于GWAS采用的样本遗传背景较为统一、GWAS中异质性可能的因素较为清晰、数据处理方法及软件都较为成熟 [64]。总之,Meta分析是挖掘现有GWAS数据、鉴定更多疾病/性状易感SNP的经济高效的方法,但须更加完善的异质性检验和数据质控的方法以提升Meta分析结果的可靠性。
三、交互作用分析
复杂疾病/性状大都不是纯粹由遗传或者环境因素决定的,基因-环境交互作用(geneenvironment interaction,G×E interaction)在许多疾病,特别是常见的慢性疾病或者是所谓的“复杂性状疾病”的发病中,具有非常重要的意义。GWAS数据通过分析单个位点的边际效应(marginal effect),发现了大量与复杂疾病/性状相关的SNP,但这些遗传变异仅能解释极小部分遗传机制,提示存在其他因素影响疾病/性状的产生。其中,SNP以基因-环境交互作用的方式在复杂疾病/性状产生过程中的作用就不可忽视。研究交互作用有助于认识对复杂疾病/性状的遗传机制,可以发现潜在的生化机制,确定环境因素在疾病/性状中的作用机制,建立风险模型,实现对全基因组数据的深度分析,弥补传统GWAS的不足。林东昕教授课题组就通过全基因组基因-环境交互作用的分析方法,系统研究了基因-饮酒交互作用在食管癌发生中的影响,发现了2个单纯以交互作用方式影响食管癌患病的SNP位点 [21]。基因-环境交互作用研究的具体实施过程中,也存在不少困难。主要包括:环境暴露率、样本大小统计学效力的确定和异质性问题的处理。环境暴露可分为多层次多角度、暴露的剂量和暴露的时间长短都是极难确定的因素。样本的暴露范围及等位基因的频率也是决定结果的统计学处理准确性的重要因素。发现阶段的样本及验证阶段的样本所接受的暴露及剂量很难做到统一,由此所产生的异质性也会影响结果的准确性。
四、通路分析
基因不是孤立存在的,众多基因的产物构成的分子网络涉及细胞的功能、代谢、生物合成等方面共同影响/参与疾病的易感性/进展。在一项克罗恩病(Crohn’s disease)的GWAS中,研究人员发现只有与3个基因相关的2个位点达到了GWAS显著性水平( P≤10 -7),但在验证组中发现,IL-12/IL-23通路中又有3个基因可被确定为克罗恩病患病的易感基因 [65]。这些均提示处于同一信号通路功能相关的基因共同影响疾病的易感性,但由于统计学效力的原因,GWAS可能不会将其单独检出。因此,基于通路的GWAS与单个位点的GWAS是两种互补的分析方法,整合基因及信号通路所发挥的作用,可以为系统的研究疾病/性状的形成机制提供新思路。与疾病相关的通路能更准确地反映疾病的发生机制,对新药的研发和诊疗技术的提高也具有更大的应用价值。通路分析首先要确定所研究的通路的基因。可以利用Pathguide、KyotoEncyclopedia of Genes and Genomes(KEGG)、BioCarta、Gene Ontology、Database forAnnotation,Visualization and Integrated Discovery(DAVID)and Protein ANalysis ThroughEvolutionary Relationships(PANTHER)等网站确定。对与挑选基因中的SNP,目前还没有统一的挑选标准。一般来说,距离基因500kb以上的SNP已经没有通路分析的意义 [64]。有人建议挑选SNP的优先顺序为:编码区、内含子、5’UTR、3’UTR、5’upstream、3’upstream [66]。此外,在通路分析中,很多基因被检出是由于已经被报道的强效SNP,对研究人员来说意义不大。因此,在数据处理时,将这些已知的强效基因的SNP剔除则是发现新的易感基因的好方法。例如,已有文献报道2型糖尿病通路分析的Wnt pathway研究中除去TCF7L2(已知与2型糖尿病易感相关)也得到了较好的效果 [67]。另外,在相同样本量的研究中,如果基因中的SNP过多,或者pathway中涉及的基因过多都会影响通路分析的统计学效力。
五、SNP的功能研究
GWAS发现了大量与疾病/性状相关的SNP,它们遍布整个基因组,但目前为止,鲜有文章报道这些SNP的功能。诠释这些SNP的功能,有助于明确遗传变异在疾病/性状产生过程中的作用,有利于进行遗传标志物的研发、疾病的预防和治疗等转化医学研究。有文章总结了2010年12月9日前发表的210个性状的1212篇GWAS发现的SNP的基因组分布状况,共报道了2619个SNP的 P值小于5×10 -8。其中约72%的SNP位于基因荒漠区和基因内含子区(1885个SNP),约12%的SNP位于基因的上下游(315个SNP),不到1%的SNP位于基因的调控区。编码区非同义突变约占3%(79个SNP),同义突变和3'UTR区域的SNP各占1%(各26个SNP) [68]。
一般认为,位于基因上游的SNP可能结合相关蛋白而影响基因的转录,可以运用一系列分子生物学实验进行确定。位于基因3’UTR区域的SNP可能与microRNA结合从而影响基因的转录或引导mRNA降解。另外,位于基因编码区的非同义突变改变了蛋白质的氨基酸,可能会改变蛋白质的pH、等电点等进而影响蛋白质的活性,但也不排除会影响包含变异SNP的区域与miRNA结合,影响mRNA的翻译或者降解。对于同义突变,一般认为与翻译过程中的密码子偏好有关,可能会影响mRNA的翻译效率。近年来还发现同义突变可能影响miRNA与mRNA的结合,进而影响了mRNA的翻译或者影响mRNA的降解 [69]。有研究认为,位于基因编码区的非同义突变和同义突变可能对疾病或性状具有相同的影响效力 [70]。基因内含子序列可能做为顺式作用原件,参与基因转录剪接动态过程,最终影响基因的表达 [71]。位于基因荒漠区的SNP可能通过影响调控基因的潜在功能原件从而影响疾病或性状的易感性。例如,GWAS发现位于人染色体8q24基因荒漠区的rs6983267与结直肠癌的易感性相关。进一步的研究发现,该SNP位于基因增强子区域,其G等位基因显著增强基因启动子的活性,此区域可影响其下游约330kb的MYC基因的表达 [72]。当然,SNP的变异还可能与基因组的结构变异有关,这里不再赘述。
六、精确定位和深度测序研究
经典遗传学已知,位于同一染色体区域的多个SNP倾向于整体遗传。GWAS芯片并不是检测全部SNP,而是根据区域的连锁情况检测可代表区域变异情况的标签SNP,检出的具有统计学意义的SNP可能本身并不具有生物学功能,它仅仅代表了功能SNP的变异情况。此外,GWAS芯片设计的SNP通常来自于HapMap计划数据库,只包含全基因组30%的常见SNP [11]。因此,对特定易感区段的精确定位和深度测序可以帮助我们找到更多易感SNP,特别是一些罕见SNP。在1型糖尿病的研究中,通过对GWAS发现的易感基因IFIH1周围进行深度测序又发现了4个低频及罕见变异的功能位点与疾病相关 [73]。在对利巴韦林联合干扰素治疗丙型肝炎致血尿的GWAS中,发现位于C20orf194的一个常见变异与其相关 [74],接下来的深度测序工作发现在C20orf194周围的ITPA基因的2个低频SNP也与该疾病相关。据估计,约8%的人群携带有极罕见的(<0. 05%)大于500Kb的DNA缺失或重复 [75]。深度测序还可发现一些新的拷贝数变异(Copynumber variations,CNVs)和一些小的插入缺失的结构变异 [75]。例如,GWAS发现一个与克罗恩病患病相关的非编码SNP与IRGH上游一个20kb DNA片段缺失有关,这个缺失可能是真正与克罗恩病易感相关的变异 [76]。因此,增加易感区域内遗传标记的检测密度,对易感区域进行精确定位和深度测序,找出与疾病/性状关联程度最强的变异,就成为了阐明GWAS数据结果生物学功能的重要途径之一。
七、表达数量性状位点研究
表达数量性状位点(expression quantitative trait loci,eQTL)是指一些基因组中能够调控与性状相关的mRNA、miRNA和非编码RNA(non-coding RNA,ncRNA)等转录水平的遗传变异位点 [77]。系统地研究遗传变异与基因转录之间的关系,使我们可以更好地了解疾病/性状的产生机制。GWAS芯片提供了基因组近百万个SNP数据,而各种各样的mRNA或miRNA表达谱芯片或测序(RNA-seq)也可以同时检测几乎全部基因的表达,将这两者的数据进行整合,我们就可以研究全基因组的eQTL。eQTL可以距离目的基因很近的local型或距离较远的distant型两种方式调节基因的转录。通常将同一染色体上距离基因小于1Mb 的eQTL定义为local;将同一染色体上距离基因大于1Mb或与基因位于不同染色体上的eQTL定义为distant。从遗传学概念上分为顺式(cis)或反式(trans),顺式概念对应于local型,反式概念对应于distant型 [77,78]。尽管大样本量可以增加数据处理的统计学效力,但eQTL研究不需要GWAS那样的大样本量即可进行,它可以解释很多风险基因变异和疾病/性状直接的关系。根据现有研究结果发现,distant eQTLS的数量远大于local eQTLs的数量,但local eQTLs影响基因的效果远大于distant eQTL [79]。限于研究条件,早期的eQTL多使用淋巴细胞的研究数据 [80,81],但由于基因表达存在细胞特异性和组织特异性的问题,采用特定组织样本来研究eQTL更具说服力。
八、GWAS和表遗传研究相结合
表遗传学是研究基因的核苷酸序列不发生改变的情况下,基因的表达发生可遗传的变化的遗传学分支学科。表遗传修饰主要包括以下几种方式:DNA甲基化、转录后的组蛋白修饰、非编码RNA(miRNAs、piRNAs、lincRNAs等) [82]。目前,基因启动子的甲基化、组蛋白修饰、非编码RNA表达的改变、染色体修饰复合物的改变等异常表遗传修饰被认为是肿瘤发生发展过程中的重要机制 [83]。有研究表明,遗传变异可通过顺式或反式的方式影响表遗传结果最终导致癌症 [84,85]。Kerkel等人发现顺式调控元件的遗传变异可以导致序列特异性的等位基因甲基化,进而影响基因表达和染色质状态 [86]。甲基化数量性状位点(methylation quantitative trait loci,methQTLs)的概念也应运而生,其是指基因组中可影响DNA甲基化状态的遗传变异 [87]。之后,又有人首次提出研究影响表型的变异与疾病/性状的关系,即eWAS (epigenome-wide association studies)的概念,其核心思想是运用芯片或测序的方法,研究表遗传差异对疾病/性状的所产生的影响 [88]。GWAS可以找出与疾病/性状相关的DNA水平上的单核苷酸变异,eWAS可以找出与疾病/性状相关的表遗传变异。整合GWAS和eWAS的数据,不但可研究哪些遗传变异能够影响由表遗传修饰引起的基因表达差异;而且可以找出影响疾病/性状单倍型特异甲基化(haplotype-specific DNAm,HSM)的SNP位点 [88]。
结语
随着人类基因组计划和HAPMAP计划的相继完成,GWAS被科学家们寄予厚望,科学家们期望这一技术能找到与疾病发生发展密切相关的基因或遗传变异。不可否认,GWAS已取得了很大成绩,确实找到了一系列与疾病/性状相关的基因、易感区域和SNP。但这些结果对疾病或性状的解释却远远不够,并且其中大多数遗传变异的潜在生物学功能也并不清楚。遗传学的发展已处于关键的十字路口,且面临诸多机遇和挑战。疾病/性状与遗传、表观遗传、环境交互等众多因素有关,GWAS已经提供了良好的研究平台,充分有效地利用现有GWAS数据,进行数据深度挖掘,对全面阐明疾病/性状的形成机制非常重要。此外,如何将研究成果进行转化,为疾病预警、临床诊断以及个体化治疗作出更大贡献也是科学家们未来的研究重点。
(吴晨 林东昕)