第二节 肿瘤核酸分子标志物的检测技术

核酸标志物主要是指基于核酸来源的,可用于鉴定生物有机体的某种生理状态、疾病病理特征以及药物疗效反应与预后的生物分子物质。肿瘤核酸分子标志物主要由DNA分子和RNA分子两大类型组成。DNA遗传物质的改变与肿瘤的发生发展有着密切的诱因关系,相应地,DNA分子用作标志物在各种肿瘤中已被广泛的研究与开发利用。概括来说,基于DNA来源的肿瘤分子标志物主要有核苷酸序列多态性(SNP)、原癌基因或抑癌基因的位点突变,基因拷贝数,包括线粒体拷贝数的异常变化(Copy Number Variation,CNV),微卫星不稳定性(Microsatellite Instability,MSI)和杂合子的丢失(Loss of Heterozygosity,LOH),以及表观遗传学水平的DNA甲基化等。基于RNA来源的肿瘤分子标志物主要有具有蛋白编码功能的各种肿瘤相关基因的mRNA和不具有蛋白编码功能但行使重要调节功能的microRNA及non-coding RNA(ncRNA)分子。
目前,在临床上较为广泛地应用的核酸分子标志物主要为DNA来源的肿瘤相关基因的位点突变。尤其是近年来在肿瘤靶向药物的个体化治疗方面,通过肿瘤相关基因标志物的筛查不仅优化肿瘤患者的治疗措施,同时也节约了大量的社会资源与经济成本。比如目前在发达国家广泛使用的基因突变分子标志物有BRCA1/2突变检测在转移性卵巢癌和乳腺癌中的应用,EGFR在晚期非小细胞肺癌中的应用,以及KRAS在转移性结肠癌中的应用。具体更多的肿瘤基因相关的分子标志物及其应用请参考表3-1。
表3-1 常见的基因检测标志物及其在肿瘤临床治疗中的应用
摘自Edancey JE et al.,Cell 148,2012

一、实时定量PCR检测技术

20世纪90年代发展起来的由美国Applied biosysems公司推出的实时定量PCR(Realtime Quantitative Polymerase chain Reaction,RQ-PCR)技术,除了具有PCR的高灵敏性外,其精确性也大大提高。这种技术使定量和扩增同步进行,克服了PCR的平台效应;特异性和可靠性更强;能实现多重反应;无污染性;具有实时性和可靠性等特点。

1.实时定量PCR检测技术原理

实时定量PCR是指在普通PCR反应体系中加入荧光试剂。以参照物为标准,PCR指数扩增期间通过连续监测荧光信号强弱的变化来即时测定特异性产物的量,并据此推断目的基因的初始量,不需要取出PCR产物进行分离。

2.实时定量PCR分类及检测方法

常见实时定量PCR检测方法可分为以下几类:

(1)SYBR Green I检测模式:

SYBR Green I是一种能与双链DNA结合发光的荧光染料。其与双链DNA结合后,荧光大大增强。因此,SYBR Green I的荧光信号强度与双链DNA的数量相关,可以根据荧光信号检测出PCR体系存在的双链DNA数量。由于SYBR Green I对PCR反应中的非特异性扩增或引物二聚体也会产生荧光,通常本底较高,所以在临床上使用可能会有假阳性发生。SYBR Green I的优点是通用性较好。它能与所有的双链DNA相结合,所以对不同模板不需特别定制不同的特异性探针,并且价格相对较低。

(2)水解探针模式(Taqman探针):

Taqman探针是一种寡核苷酸探针,荧光基团连接在探针的5’末端,而淬灭剂则在3’末端。当探针与靶序列配对时,荧光基团发射的荧光因与3’端的淬灭剂接近而被淬灭。在进行延伸反应时,聚合酶的5’外切酶活性将探针切断,使得荧光基团与淬灭剂分离,发射荧光。一分子的产物生成就伴随着一分子的荧光信号的产生。随着扩增循环数的增加,释放出来的荧光基团不断积累。因此Taqman探针检测的是累积荧光。

(3)杂交探针模式(Beacon,FRET):

分子信标是一种呈发夹结构的茎环双标记寡核苷酸探针。茎环结构的环一般为15~30个核苷酸长,并与目标序列互补;茎一般5~7个核苷酸长,形成相互配对的结构,因此标记在一端的荧光基团与标记在另一端的淬灭基团紧紧靠近。荧光基团被激发后产生的光子被淬灭剂淬灭。在复性温度下,因为模板不存在时形成茎环结构。当加热变性会互补配对的茎环双链解开,如果有模板存在环序列将与模板配对。此时,分子信标将成链状,使得荧光基团与淬灭剂分开。当荧光基团被激发时,因淬灭作用被解除,发出激发光子。分子信标也是积累荧光。FRET探针又称双杂交探针,FRET探针由两条相邻探针组成,在一条探针的5’端标记FAM荧光基团,另一探针的3’端标记Red 640荧光基团。当复性时,探针结合在模板上,FAM基团和Red640基团相邻,激发FAM产生的荧光,作为Red640基团的激发光被吸收,使Red640发出波长为640的荧光。当变性时,探针游离,两基团距离远,不能产生640波长的荧光。由于FRET探针是靠近发光,所以检测信号是实时信号,非累积信号。常用的荧光基团是:LC-Red640,LC-Red705。

二、DNA甲基化检测技术

以往研究认为肿瘤的主要机制是由于致癌因素造成DNA序列变异而导致细胞生长、分化失控。近年来,随着研究的深入,人们发现DNA序列以外的调控机制异常在肿瘤的发生、发展过程中更为普遍。这种不依赖于DNA序列变化的可遗传的调控机制称为表观遗传学机制。DNA甲基化是真核细胞基因组最常见的一种表观遗传学修饰,也是脊椎动物DNA唯一的自然化学修饰方式,在细胞增殖、分化、发育、基因印迹等方面起重要作用,与肿瘤的发生、发展关系密切 [9]。DNA甲基化修饰有多种方式,被修饰位点的碱基可以是腺嘌呤的N2、6位、胞嘧啶的N2、4位、鸟嘌呤的N2、7位或胞嘧啶的C2、5位。在哺乳动物中,DNA甲基化主要发生在二核苷酸胞嘧啶(CpG)第5位碳原子上,即5-甲基胞嘧啶(5-mC)。人类基因组中的CpG约85%散在分布于基因组的重复序列中,其余15%主要分布于一些称之为CpG岛的区域,即CpG相对集中的特定区域。CpG岛通常位于基因的5’端启动子区,也可延伸至基因的外显子区。基因启动子区的CpG被甲基化后转录受到抑制,其甲基化的密度与转录抑制程度有关。

1.DNA甲基化检测技术原理及分类

据检测样本不同,甲基化可以分为DNA和mRNA检测。现有方法,绝大部分都是取样于细胞的DNA,根据研究水平,又将这些方法归为3大类,即:基因组甲基化水平(Methylation Content)的分析,候选基因(Candidate Gene)甲基化的分析以及基因组层次的DNA甲基化模式(Methylation pattern)与甲基化谱(Methylation Profiling)的分析。主要方法及原理分述如下:

(1)基因组甲基化水平的分析

1)高效液相色谱(High-performance LiquidChromatography,HPLC):HPLC是一种比较传统的方法,是根据DNA或蛋白分子量和构象的不同而使其加以分离。由于在动态相和静态相下分子的光吸收度并不相同而加以定量。随着系统的压强的增加,其分辨率增高。故而能够定量测定基因组整体水平DNA甲基化水平。这是一种检测DNA甲基化水平的标准方法。
2)高效毛细管电泳法(High-performanceCapillary Electrophoresis,HPCE):这是一种利用窄孔熔融石英毛细管来从复合物中分离不同化学组分的技术。其基础是在强电场下不同分子的由于其所带电荷,大小,结构以及疏水性等不同而相互分开。用HPCE方法处理DNA水解产物来确定5-mC水平,简便,经济且敏感性高。在这两种方法的基础上,不断有新方法改进,包括,变性高效液相色谱(DHPLC),逆向高效液相色谱(Reversed phase HPLC)以及HPLC与薄层色谱(Thin-layer Chromatography,TLC)相结合的HPLC-TLC方法。以上各种方法虽然能够明确检测出目的序列中所有CpG位点的甲基化状况,但并不能对甲基化位点进行定位。

(2)候选基因甲基化分析

1)甲基化敏感性限制性内切酶-PCR/Southern法(methylation-sensitive restriction Endonuclease-PCR/Southern MSRE-PCR/Southern):这种方法利用甲基化敏感性限制性内切酶对甲基化区的不切割的特性,将DNA消化为不同大小的片段后,进行Southern或PCR扩增分离产物,明确甲基化状态再进行分析。
2)重亚硫酸盐测序法(Bisulphite Sequencing):该方法首先用重亚硫酸盐使DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变,行PCR扩增所需片段,则尿嘧啶全部转化成胸腺嘧啶,最后,对PCR产物进行测序并且与未经处理的序列比较,判断是否CpG位点发生甲基化。此方法是精确度很高,能明确目的片段中每一个CpG位点的甲基化状态,但需要大量的克隆测序,过程较为烦琐、昂贵。
3)甲基化特异性的PCR(Methylation-specific PCR,MS-PCR):该方法中,DNA先用重亚硫酸盐处理,随后行引物特异性的PCR。其设计两对引物,分别与重亚硫酸盐处理后的序列互补配对,即一对结合处理后的甲基化DNA链,另一对结合处理后的非甲基化DNA链。检测MS-PCR扩增产物,如果用针对处理后甲基化DNA链的引物能扩增出片段,则说明该被检测的位点存在甲基化;反之亦然。

(3)基因组范围的DNA甲基化模式(Methylation Pattern)与甲基(Methylation Profiling)分析

1)限制性标记基因组扫描(Restriction Landmark Genomic Scanning,RLGS):RLGS是最早适用于基因组范围DNA甲基化分析的方法之一。该方法先用甲基化敏感的稀频限制性内切酶NotⅠ消化基因组DNA,甲基化位点保留,标记末端、切割、行一维电泳,随后再用更高频的甲基化不敏感的内切酶切割,行二维电泳,这样甲基化的部分被切割开并在电泳时显带,得到RLGS图谱与正常对照得出缺失条带即为甲基化的可能部位。
2)甲基化间区位点扩增(amplification of inter-methylated sites,AIMS):AIMS是基于任意引物PCR(Arbitrary Primed PCR)的一种方法,由于任意引物PCR使用寡核苷酸连接子(linker)进行连接,不需要依赖任何序列的先验信息。在该方法中,用来进行扩增的模板序列首先通过甲基化敏感的限制性内切酶进行消化而富集,其特异性由该酶酶切片段一端的特定序列结合连接子来保证。随后,由内切酶进行第二次消化,再次连接,提纯进行PCR扩增,最后电泳,提取目的序列进行测序。
3)甲基化CpG岛扩增(Methylated CpG-islandamplification,MCA)。MCA也是基于任意引物PCR的方法,该方法使用两种对甲基化具有不同敏感度的限制性内切酶(如SmaI和XmaI)先后进行消化,然后对甲基化敏感的限制性酶切片段进行接头(Adaptor)连接,行PCR,那些富含CpG的序列就会被选择性的扩增。该方法对甲基化分析和克隆甲基化差异性基因都非常有帮助。

2.DNA甲基化检测技术在肿瘤研究中的应用

大量报道显示,抑癌基因启动子高甲基化是目前各种临床肿瘤早期基因改变事件。因此,抑癌基因启动子高甲基化是肿瘤的生物学标志。在绝大多数的临床肿瘤患者的肿瘤细胞中,可以检测到一个以上的抑癌基因启动子甲基化,而在健康的细胞中没有。因此,可以通过检测特定抑癌基因启动子甲基化对临床肿瘤进行分子诊断,也可以通过监测这一肿瘤标志物,跟踪观察临床化学治疗的疗效,这对肿瘤患者的预后评估具有重要的价值。抑癌基因TSG启动子甲基化,不仅是肿瘤分子诊断的生物标志,同样也是肿瘤分子治疗的重要靶标。Sorm [10]等的研究已证明通过使用去甲基化的药物可以使抑癌基因启动子去甲基化,从而恢复该抑癌基因的表达。Kantarjian [11]等,对临床肿瘤患者也进行了相应的研究,结果证明去甲基化药物可以在人体产生作用使抑癌基因恢复正常表达。

三、基因芯片检测技术

基因芯片技术于1991年的Science杂志上被首次提出,其高通量、并行检测的特点适应了分析人类基因组计划所提供的海量的基因序列信息的需要 [12]。它具有高速度、高通量、集约化和低成本的特点,实现了一次性分析大量基因和核酸装置的微型化。该技术在基因表达分析、新基因发现、基因突变及多态性分析、疾病诊断、药物筛选、序列分析等研究领域具有广泛的用途,已显示出重要的理论和实际应用价值。

1.基因芯片技术原理及检测方法

基因芯片(Gene Chip,DNA Chip)又称DNA微阵列(DNA Microarray),是指按照预定位置固定在固相载体上很小面积内的千万个核酸分子所组成的微点阵阵列。在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交。如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。目前,基因芯片主要由寡核苷酸芯片和cDNA芯片两大类组成。
基因芯片技术主要包括四个主要步骤:芯片制备、样品制备、杂交反应和信号检测和结果分析。

2.基因芯片技术的应用 (1)基因芯片技术应用于基因测序和突变检测:

将基因芯片应用于检测基因突变,不仅可以准确确定突变位点和突变类型,而且更主要的是它的快速高效是当前其他方法所无法比拟的。

(2)基因芯片技术应用于基因表达及调控的研究:

生物体(组织)在不同的时间条件下有不同功能基因表达,通过从该样品中提出mRNA与含有代表该生物体(或组织)所有功能基因的芯片进行杂交,就可研究该样品中功能基因的表达情况。

四、变性高效液相色谱检测技术

变性高效液相色谱(denaturing high performance liquid chromatography,DHPLC)是一项在单链构象多态性(SSCP)和变性梯度凝胶电泳(DGGE)基础上发展起来的新的杂合双链突变检测技术,可自动检测单碱基替代及小片段核苷酸的插入或缺失。

1.DHPLC技术的基本原理

DHPLC技术的原理是基于未解链的和部分解链的双链DNA在部分失活条件下具有不同保留的性质。这种部分失活条件可以采取升高温度的手段获得。所有基因组DNA的单拷贝均可通过PCR反应大量扩增,杂合子个体的DNA经扩增产生异源双链,由于错配位点的氢键被破坏,因此在异源双链上形成“鼓泡”,导致它与纯合子个体的DNA扩增产物——完全匹配的同源双链的解链特征不同。在部分加热变性的条件下,异源双链DNA分子更易于解链形成Y形结构,与固定相的结合能力降低。当流动相中乙腈浓度梯度增大时,异源双链将先于同源双链被洗脱出来,带有突变序列的样品呈现出异源双链和同源双链混合物的峰形特点,而不含突变序列的样品则只有同源双链的峰形。据此可检测出含有单个碱基的置换、插入或缺失的异源双链片段,从而提供有无突变的信息 [13]

2.DHPLC技术的应用

在分子生物学研究和临床基因诊断领域中,DHPLC技术可应用于DNA的绝大部分检测,在很多领域已建立了快速、自动化核酸分析新方法和新标准。利用该技术可以对单链和双链核酸进行快速、准确、自动化的分离、分析和定量;可用于单碱基替换(或单核苷酸多态性),小片段缺失或插入等多种已知和未知基因突变的检测;DNA/ RNA片段大小判定;寡核苷酸分析及纯化;基因表达定量(Q-RT-PCR)和基因型分析(Genotyping);基因表达差异分析;微卫星(MSI、STR)和杂合性丢失(LOH)分析;基因或染色体的部分缺失和多倍体的半定量分析等;该技术可在生殖细胞系和体细胞系中筛查基因变异 [14]
DHPLC的缺点在于对PCR要求很高;不能直接检测出纯合突变,只能提供个体样本有无突变的信息,但无法得出具体的突变类型;当有多个片段需要检测时,由于有多个解链温度,需要多步检测,增加了工作量等。尽管如此,在目前的检测手段中,DHPLC仍是一种快速、高效、准确、经济及半自动化筛查基因杂合突变的工具。

五、原位杂交技术

原位核酸分子杂交技术简称原位杂交(in situ hybridization,ISH),是分子生物学、组织化学及细胞学相结合而产生的一门新兴技术,始于20世纪60年代。1969年美国耶鲁大学的Gall等首先用爪蟾核糖体基因探针与其卵母细胞杂交,将该基因进行定位,与此同时Buongiorno-Nardelli和Amaldi等相继利用核素标记核酸探针进行了细胞或组织的基因定位,从而创造了原位杂交技术。

1.原位杂交的基本原理

原位杂交是在研究DNA分子复制原理的基础上发展起来的一种技术。其基本原理是两条核苷酸单链片段,在适宜的条件下,通过氢键结合,形成DNADNA、DNA-RNA或RNA-RNA双键分子的特点,应用带有标记的(有放射性核素,如3H、35S、32P、荧光素生物素、地高辛等非放射性物质)DNA或RNA片段作为核酸探针,与组织切片或细胞内待测核酸(RNA或DNA)片段进行杂交,然后可用放射自显影等方法予以显示,在光镜或电镜下观察目的mRNA或DNA的存在并定位;用原位杂交技术,可在原位研究细胞合成某种多肽或蛋白质的基因表达。此方法有很高的敏感性和特异性,可进一步从分子水平来探讨细胞的功能表达及其调节机制。

2.原位杂交技术方法及其应用 (1)RNA原位核酸杂交:

RNA原位核酸杂交又称RNA原位杂交组织化学或RNA原位杂交。其基本原理是:在细胞或组织结构保持不变的条件下,用标记的已知的RNA核苷酸片段,按核酸杂交中碱基配对原则,与待测细胞或组织中相应的基因片段相结合(杂交),所形成的杂交体(Hybrids)经显色反应后在光学显微镜或电子显微镜下观察其细胞内相应的mRNA、rRNA和tRNA分子。RNA原位杂交技术经不断改进,其应用的领域已远超出DNA原位杂交技术。

(2)基因组原位杂交:

基因组原位杂交(Genome in situ hybridization,GISH)技术是20世纪80年代末发展起来的一种原位杂交技术。它主要是利用物种之间DNA同源性的差异,用另一物种的基因组DNA以适当的浓度作封阻,在靶染色体上进行原位杂交。

(3)荧光原位杂交:

荧光原位杂交(Fluorescence in situ hybridization,FISH)技术是在已有的放射性原位杂交技术的基础上发展起来的一种非放射性DNA分子原位杂交技术,可以用来对核酸进行检测和定位。荧光标记的核酸探针只和具有高度相似性的核酸杂交,可用于染色体上基因的定位,或在分子生态学中用来标记不同分类细菌或古菌中的核糖体RNA。

六、SNP检测技术

SNP分型检测包含对未知SNP的检测和对已知SNP的检测。其中,对于未知SNP的分型检测,目前最容易实施的技术是直接测序法,通过比较不同个体同一基因或区段序列差异,确定SNP位置及分型,但受限于新一代测序技术成本,不利于开展大范围、高通量的未知SNP的探查检测。近几年,一种名为高分辨率溶解(High Resolution Melt,HRM)曲线技术逐渐兴起,该方法不受突变碱基位点与类型的局限,无需序列特异性探针,在PCR反应结束后通过对高分辨率的熔解曲线分析,即可完成对样本中已知或未知SNP的分型检测。与直接测序法比较,这种方法操作更加简便、快速,使用成本低,结果准确,同时实现了闭管操作避免污染造成的假阳性。另外还有些方法只能确定目标序列是否有SNP,但无法确定SNP类型及位置,例如单链构象多态法(single-strand conformational polymorphism,SSCP)、限制性片段长度多态性法(RFLP)、温度梯度凝胶电泳法(TGGE)、变性梯度凝胶电泳法(DGGE)等。
SNP肿瘤标志物的分型检测通常是针对已知的SNP位点进行设计、检测。近年来用于已知SNP位点分型检测的技术及衍生的方法很多,常用的包含TaqMan探针法、基于订制的SNP芯片技术(SNP array)、HRM法、单碱基延伸技术结合质谱仪或电泳等方法,接下来将具体阐述每种方法的原理及应用。

1.TaqMan探针法

针对要检测的SNP位点所在区段分别设计一对PCR引物和一对标记不同荧光信号的探针。探针设计位置覆盖目标SNP位点,探针序列除SNP位点处碱基不同,其他序列一致,两条探针在其5’端和3’端分别标记一个报告荧光基团和一个淬灭荧光基团。探针完整时,报告基团发射的荧光信号被淬灭基团吸收,在进行实时定量PCR扩增时,该探针与模板退火,即产生了适合于核酸外切酶活性的底物,反应体系中的Taq酶具有核酸外切酶活性,从而将探针5’端连接的荧光分子从探针上切割下来,游离的荧光基团摆脱淬灭荧光基团的限制,从而荧光监测系统可接收到荧光信号,即每扩增一条DNA链,就有一个荧光分子形成,荧光信号的累积与PCR产物形成同步(图3-2)。系统根据荧光颜色判断该SNP位点的基因型是纯合野生型、杂合型还是纯合突变型。TaqMan探针法特异性好、准确性高,操作简单,通常用于少量SNP位点分析,相对于高通量技术来讲,这种方法成本较高,不利于大样本量多位点的检测,另外SNP序列附近如果有特殊结构,将无法设计探针。
图3-2 TaqMan探针法原理

2.HRM法

在实时定量PCR反应过程中,一定温度范围内将PCR扩增产物进行变性并实时检测荧光信号,荧光值随温度变化的曲线即熔解曲线。每一段DNA都有其独特的序列,包括长度、GC含量及碱基的互补性差异,这决定了不同DNA片段都有其独特的熔解曲线形状。因此,同一序列由于SNP位点存在,产生的熔解曲线不同,根据曲线可以准确区分野生型纯合子、杂合子和突变性纯合子。HRM法具有高通量、高灵敏性、特异性强、稳定性和重复性好、低成本等特点,可同时检测已知SNP突变和未知SNP突变。该方法是近几年出现的一种新型SNP分型技术,HRM技术特别适用于样本量多、检测位点较少的SNP分型实验。

3.SNP芯片技术(SNP array)

将具有特定碱基序列的探针固定在特殊的载体上,待测基因经提取、荧光标记后,与固定好的探针进行杂交,最后根据荧光的强度和种类测出待测序列的碱基类别。基因芯片可在一个微小载体表面集成大量的SNP识别探针,能够在同一时间内平行检测大量已知SNP基因型,进行大信息量的检测分析。目前,有的芯片公司可以以应用为导向,提供自定义型SNP分型技术。科研人员可以完全根据研究需要挑选兴趣SNP位点,制作探针组,来进行高通量分型研究。芯片技术由于可以实现一次实验检测大量SNP位点,虽然平均每个位点的成本较低,但整体来讲,随着位点数增多每个样本成本较其他方法高,该技术适合样本量少、检测位点多的SNP分型实验。
图3-3 基于单碱基延伸的分型技术原理图

4.单碱基延伸原理的分型技术

该技术是近几年一种适合于大样本量,检测SNP位点数在几十到几百个之间的分型技术。实验首先通过PCR扩增出含有目标SNP位点的一段DNA序列,然后用特殊的酶去除掉PCR体系中剩余的脱氧核糖核苷三磷酸(dNTP)和引物,然后加入一单碱基延伸引物,其3’末端碱基紧挨SNP位点,采用四种ddNTP替代dNTP,这样单碱基延伸引物在SNP位点处仅延伸一个碱基,连接上的ddNTP与SNP位点的等位基因对应。得到的单碱基延伸产物可用多种方法进行SNP分型检测,例如利用标记四种荧光的ddNTP,单碱基延伸产物可通过测序仪及电泳检测,根据峰的颜色可知掺入的碱基种类,从而确定该样本的基因型,根据峰移动的胶位置确定该延伸产物对应的SNP位点(图3-3)。另外,利用芯片技术和飞行质谱技术结合,可将单碱基延伸产物通过点样仪点在芯片上,再利用飞行质谱检测芯片上单碱基延伸产物,同一个SNP位点不同基因型的单碱基延伸产物分子量存在差异,因此利用质谱可以准确区分SNP不同基因型。

七、DNA测序技术

真正实用的DNA测序技术始于20世纪70年代。Sanger领导的课题组发明的双脱氧核苷酸末端终止法和Gilbert领导的课题组发明的化学降解法,标志着第一代测序技术的诞生 [15,16]。由于双脱氧核苷酸末端终止法具有不需要放射性元素等优点,逐渐成为一代测序的主流。自2005年起,在微芯片制作技术、显微成像技术及计算机技术高度发展的基础上,边合成边测序的DNA测序方法逐渐发展成熟,其原理迥异于sanger法,被称为“第二代测序技术(Next Generation Sequencing)”。目前二代测序市场主要被三家公司占据:Roche公司的454技术、Illumina公司的Solexa技术和ABI公司的Ion torrent技术。二代测序诞生时间很短,但应用日渐广泛,威力逐渐显露。下面略述两代测序技术的原理、方法及应用。

1.桑格(sanger)测序法

系英国人桑格于1975年所创,故名。根据其原理,又名末端终止法。众所周知,DNA是以脱氧核糖核苷酸为单体构成的大分子聚合物。依靠核苷酸5’C上的磷酸基团与3’C上的羟基脱水形成磷酸二酯键,将一个一个的核苷酸连接形成DNA单链。如果一个碱基的3’C没有羟基(双脱氧核苷酸,ddNTP),那么下一个核苷酸的磷酸基团将无处连接,DNA链的合成便终止于此处,是谓“末端终止”。如果将四种不同的ddNTP标记上四种不同的荧光,便可以知道链被终止于何处。于是在PCR反应体系中掺入一定量荧光标记的ddNTP,对模板进行扩增。模板的数量是非常非常多的,而且随着扩增的进行会进一步增多,多到随机事件出现的频率已经接近于理论概率,多到每延伸一个碱基,都会有大量的终止链出现,于是会出现图3-4所示的情况。
图3-4 末端终止示意图
当体系内DNA量足够多时,被终止的片段的长度会是连续的,长度相邻的两个片段之间仅相差一个碱基
不同长度的终止链根据分子量的不同分离,发出不同的荧光,就能从短到长依次读出每一个碱基(图3-5)。
图3-5 末端终止链的检测
不同荧光标记的DNA片段通过毛细管电泳分离检测(上),荧光信号以峰图形式展示(下)
从上述原理可以看出,sanger测序法首先需要一定量的待测片段,并且一个反应池中只能有一种待测片段参与反应,这一方面提高了对样本的要求,另一方面也降低了通量,而通量的降低,必然导致成本的升高;同时,由于必须有测序引物,因此只能对有一定了解的DNA片段进行测序,对完全陌生的样品则难以展开测序;另外,由于荧光分辨率的限制,sanger法只能发现高于15%~20%的异质性点突变,对于低于此频率的点突变,sanger测序法无法有效检出。
尽管有上述种种缺点,sanger测序法从原理上讲却是一种几乎不会出现测序错误的方法,因此sanger测序法至今仍被视为DNA测序的“金标准”。对于二代测序检测出的新的突变,人们一般都会用桑格法进行验证。

2.第二代测序(next generation sequencing)技术

二代测序几乎完全克服了一代测序——sanger法的缺点:首先,二代测序通量高。通过随机打断后连接已知DNA序列的方式,二代测序不要求序列的已知信息,不要求体系中为同样的DNA分子,因此能够同时对几十万条甚至上百万DNA分子同时进行测序;其次,随着通量升高,测序成本大大降低;第三,随着通量升高,序深度也随之加深,意味着测序数据可以同时覆盖多套基因组,对低频突变的检测更加敏感。
目前市场上主流的二代测序仪以Illumina公司的Hiseq系统市场占有最大,使用最多。其主要过程如下:①测序文库制备。Illumina公司的Illumia系统的样品制备涉及添加特定序列的DNA接头 [17,18]。测序文库的制备始于随机打断DNA样品。然后,用酶补平打断时产生的单链突出末端,在这之后,腺嘌呤(A)是添加到该DNA片段的3’端。A-尾的DNA作为模板用于结合含有一个突出的T的双链接头。加完接头的DNA文库经片段选择和扩增,以提高文库总量。扩增引入末端特异性PCR引物中的barcode。②固体支持放大。Illumina公司的flowcell可以使测序试剂在其上孵育并被冲洗掉。流动池的内表面有两种寡核苷酸,寡核苷酸与测序文库末端的接头序列对应。测序文库单个测序文库分子在flowcell表明扩增形成一簇相同的DNA克隆,用显微镜检测的分子簇拷贝。该过程通过所谓“桥式扩张”完成。通常,PCR反应在溶液中进行,并且依赖于反复的热循环变性,退火和延伸,以指数扩增的DNA分子。而Hiseq系统的桥式PCR反应体系,等温条件下在固相载体上变性,退火,延伸,对测序文库分子进行放大。桥式PCR采用拱形分子模板的DNA聚合酶为基础的延伸反应。由此产生的桥接双链DNA是使用变性试剂释放。反复冲洗试剂周期产生的数千个DNA分子的基团,也被称为“簇”。DNA簇经变形释放互补链,保留固定在flowcell上的链,形成所谓的线性DNA,3’端与测序引物结合后开始测序。③测序。上步制备的flowcell被连接到一个高通量摄像系统,它由微观成像,激发激光器和荧光过滤器构成。Illumina公司的测序的合成方法使用四个不同的荧光团和可逆终止核苷酸。测序反应开始由DNA聚合酶从测序引物开始掺入荧光可逆终止核苷酸。每个核苷酸包含一个可逆的终止部分,这抑制了额外的核苷酸的掺入。每个结合反应后,将固定化的核苷酸的荧光基团,对应于每一个集群,进行并行摄像。第一次成像的核苷酸荧光团的XY位置被定义为一个序列读取位置。在继续下一个周期中,可逆终止子部分和荧光基团是使用裂解试剂分离,从而使随后加入的核苷酸能够掺入。同时通过每个周期一个核苷酸延伸测序链保证了连续相同碱基的序列可以准确地进行测序。然而,测序过程中每一步核苷酸的掺入都可能有部分簇中分子未被延伸,滞后的链会产生杂色荧光,使测序质量不断下降。因此,Illumina公司测序精度随测序长度的增加而下降,使得该技术只能读取较短片段。
由前述原理知:二代测序需要实时“看到”合成过程中荧光的发生,因此需要DNA分子固定住,才能对一段DNA分子进行连续的观测,从而确定荧光产生的顺序。不同平台固定DNA分子的方式略有不同,但结果是相同的:DNA分子固定在固相载体上,接受荧光采集信号的观察。在容纳DNA分子的固相载体上加入四种荧光标记的dNTP、DNA聚合酶以及接头引物进行扩增,在每一个测序簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相对应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为碱基序列,从而获得待测片段的序列信息。
个体化医疗将为未来临床医学发展的大势所趋,而二代测序低成本、高通量、高速度的特点正满足了个体化医疗对了解每一个患者组学信息的要求。因此,自诞生之日起,人们一直在努力将二代测序技术应用到临床医学中,目前已开展了大量研究。由于肿瘤高度的复杂性、异质性,因此这些研究主要集中在肿瘤研究领域。