第三节 基因检测数据分析与解读

一、数据分析流程
肿瘤样本的测序流程主要分为三个大步骤,包括样本的准备、测序数据的生成、测序数据的分析(图2-14)。基因检测数据的分析工作从数据下机的原始数据文件开始,经过数据的质量过滤、序列比对、变异检测、突变注释等步骤,得到样本中突变的生物学信息,然后与相关药物数据库等临床有关信息进行关联,形成指导或辅助诊断、治疗的临床报告。
图2-14 肿瘤数据分析流程图
(一)文件格式
肿瘤基因检测数据分析流程步骤很多,但是从数据流的角度理解起来并不复杂。数据流即从输入数据到输出数据的变化。就基因检测的数据分析流程而言,即从下机的Fastq文件,到最后的包含突变解释的文本文件的变化,其中经历了Bam和Vcf两种格式的文件。基因数据分析基本都是线性的输入和输出逻辑,因此流程并不难理解。通过理解数据在数据分析流程中发生了哪些变化,亦可以了解流程中涉及的软件和数据库的功能,从而对软件选型、数据库升级和质控有基础性的把握。
1.Fastq文件
提供DNA的序列信息,包含A、T、C、G四种碱基的排列信息和对应的检测质量值。每条Fastq记录信息称为一个序列(read)的信息。序列的ID信息包含了样本建库和上机的唯一信息,有助于多样本混合,在后续数据分析时,也经常利用序列ID间的关系提高比对正确率。
目前的肿瘤二代测序是基于从光信号到数字信息的转换,检测错误率大多在1‰~1%之间,由于人类样本间正常基因组的差异在5‰左右,这个级别的测序错误率很容易引起对真实突变的误判,因此需要记录光信号转换时的质量值(可以转换为碱基检测错误的概率),便于后续分析过程中进行校正。
2.Bam格式(binary alignment map format)文件
是Sam格式(sequence alignment map format)文件的二进制形式,二进制形式相对于纯文本文件既可以节约存储空间,又可以提高分析速度。
Bam和Sam文件可以通过Samtools [1]软件进行互相转换,信息内容不变。存在于Fastq文件里的序列,在进行比对分析前,并不能知道属于什么物种,当然更不能确认是染色体上的哪一段位置,而Bam文件存储的则是序列对应染色体上的位置信息(指定了物种,如智人),因此从Fastq到Bam文件的这一步包括了比对软件、参考基因组数据的使用。
3.Vcf格式(variant call format)文件
存储的是序列上的突变信息,本质上是纯文本文件,在Windows系统下可以用记事本、Ultraedit或Winedt软件打开。突变是样本相对于参考基因组上序列不一样的地方。
对于肿瘤样本而言,需要考虑胚系突变(germline mutation)和体细胞突变(somatic mutation),胚系突变即生殖细胞突变,是来源于精子或卵子生殖细胞的突变,这种突变存在于生殖细胞,代代相传;体细胞突变即获得性突变,是在生长发育过程中或者环境因素影响下后天获得的突变,通常个体只有部分细胞存在体细胞突变。
Bam文件中记录序列是否比对到参考基因组上,同时也记录碱基错配的信息,Vcf文件是从Bam文件的错配信息中进一步统计提炼的错配信息,同时也记录下各种基因型(genotype)的支持的序列数和突变在突变数据库(dbSNP数据库)中的突变ID(reference SNP cluster ID,rsID)。这一步是整个肿瘤基因检测分析的核心部分,直接影响到突变检测的准确度。从Bam到Vcf文件,每一步分析流程相关可用的软件非常多,详见变异检测软件部分。相关数据库是dbSNP数据库和千人基因组的插入缺失(insertion/deletion,indel),包括短的插入和缺失信息,用于再次校正检测到的插入缺失突变信息。
4.变异注释文件
使用不同的软件习惯上会定义不同的文件后缀,但本质上同Vcf一样是纯文本文件,格式上一般也与Vcf文件很类似。基因序列上的突变检测确认后,需要确定突变发生在哪个基因上,是基因上的何种功能单元,对基因表达的蛋白的功能影响等,这就是基因注释软件的作用。这里面既涉及对突变在基因上功能位置的确认,又涉及对突变的命名,虽然突变命名的规则都是按照人类基因组变异协会(Human Genome Variation Society,HGVS)的命名规则,但是在突变可同时归于不同的类型的情况下,各个注释软件往往有独立的选择,因此注释结果并非完全一致。这一步往往是肿瘤数据分析中的信息集大成的一步,相关的数据库包括 refGene、Cytoband、千人基因组、ESP6500、ExAC、Cosmic、Cinvar等,基本上除了结果解读中用到的几个数据库,都会在这一步尽可能多地注释到突变信息中。
5.结果解读文件
在第4步得到类似于Vcf文件到变异注释文件后,将命名后的突变信息和数据库注释信息提取出来,与临床相关的几个数据库进行关联,得到纯文本文件。在某些特殊情况下,也可以跳过第4步,直接针对特定位置的突变与临床数据库进行关联。这一步涉及的软件都是自编的代码,相关数据库包括突变与药物相关的数据库和Clinical Trials(临床试验)数据库。
(二)相关软件
生物信息分析流程中可用的软件在快速迭代中,本章节中提到的软件是当前行业中用到较多的软件,并不代表是最好的软件,很多软件在整个流程中是否是最好的软件,往往难以有金标准的评价。
1.序列质量过滤软件:Trimmomatic
测序得到的Fastq格式的原始数据,为保证后续分析的正确性,需要去除原始测序序列(raw read)中存在的建库接头信息、低质量碱基或无法确定的碱基,过滤得到无污染序列(clean reads),后续分析全部基于无污染序列进行。这一步质控是针对二代测序的特点和样本处理步骤进行的。
2.比对软件:BWA
BWA [2]是Burrows-Wheeler Aligner的缩写,主要是将DNA测序短片段比对到大型基因组上。首先通过BWT(Burrows-Wheeler transformation,BWT压缩算法)将大型参考基因组建立索引,然后将无污染序列比对到参考基因组。BWA软件的特点是快速、准确、节省内存。常用的备选软件是Bowtie2。
3.变异检测软件:GATK
GATK是Genome Analysis Toolkit [3]的缩写,是由世界顶级的博德研究所(Broad Institute)开发的变异检测软件。现在,GATK已经成为了基因组分析中变异检测的行业标准。肿瘤的变异检测分为胚系突变检测(germline mutation detection)和体细胞突变检测(somatic mutation detection)。
(1)胚系突变检测:
使用的是GATK的HaplotypeCaller模块,备选软件是Freebayes。GATK HaplotypeCaller能通过对活跃区域(也就是与参考基因组不同处较多的区域)局部组装,同时检测SNP和indel。
(2)体细胞突变检测:
使用的是GATK 的 Mutect2模块,备选软件有 Strelka、 Vardict、Varscan。GATK的Mutect2模块主要是根据对正常样本与肿瘤样本进行位点比较寻找突变。
4.变异注释软件:VEP
备选软件是 Annovar、SnpEff和 Oncotator。VEP(variant effect predictor)是功能强大的注释、分析工具。它可以对二代测试产生的不同类型变异进行注释,包含单核苷酸多态性(SNP)、插入(insertion)、缺失(deletion)、基因拷贝数变异(copy number variation,CNV)和结构变异(structural variant,SV)。也可以依据各种数据库的内容,根据需要,对变异进行过滤和排序。
Annovar相对易用,但在临床中使用需要特别许可。SnpEff有专业版ClinEff,主要面向临床和精准医疗,需要特别许可。Oncotator由博德研究所研发,注释结果为maf格式(也是TCGA使用的突变注释格式)。
5.结果解读
结果解读是将变异注释结果与数据库进行关联,自编代码,注意数据库条目的完整性即可。
6.其他软件
(1)融合基因(fusion gene)检测:
Genefuse软件,备选软件为 GFusion。融合基因,是指两个或多个基因的全部或部分序列置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。基因融合一般由染色体易位、缺失等原因所导致,其表达产物为融合蛋白。融合基因检测主要在转录组测序技术(RNA-seq)流程中,在DNA中检测可以发现部分融合基因。
(2)基因拷贝数变异(copy number variation,CNV)检测:
CNVkit软件。在肿瘤的基因panel中进行拷贝数变异检测不准确,一般推荐全外显子或全基因组测序。在检测 BRCA基因的遗传性大片段缺失中一般使用多重连接探针扩增技术(multiplex ligation-dependent probe amplification,MLPA),不是NGS的数据分析方法,仪器会自动出图显示基因的扩增或缺失区域。
(3)微卫星不稳定(microsatellite instability,MSI)检测:
MSIsensor软件。微卫星不稳定指由于错配修复基因功能丧失,导致DNA错误插入和缺失不能修复,表现为部分肿瘤细胞的微卫星区域碱基序列增加或截短,是DNA修复缺陷型肿瘤细胞的特征之一。备选软件为MSIseq。
(4)同源重组修复缺陷(homologous recombination deficiency,HRD)检测:
ScarHR 软件,备选SigMA。HRD检测包括HRD相关的基因突变检测和基因组层面的CNV变异检测,一般对卵巢癌和乳腺癌案例进行检测,通过整合SNV/indel检测软件和CNV检测软件结果进行判断。
ScarHRD是一个小型的R语言安装包,所进行的分析相当简单,是从已经进行完CNV分析的数据中计算杂合缺失(HRD-LOH)、大范围跃迁(LST)和等位基因失衡(AI)的个数。当然,值得注意的是,由于它考虑的是基因组整体的情况,只有全外显子和全基因组的数据才能满足这样的条件。
(5)肿瘤突变负荷(tumor mutation burden,TMB)检测:
TMB是用来反映肿瘤细胞中总的基因突变程度的一个指标,通常以每Mb肿瘤基因组区域中包含的肿瘤体细胞突变总数来表示。TMB水平高的肿瘤,代表着肿瘤细胞中能被免疫系统识别的肿瘤新抗原数量可能越多。一般在肺癌、膀胱癌、黑色素瘤的免疫治疗预测中使用。基于文献中的定义和筛选过滤条件进行自编代码,需要通过样本数值分布进行质控调整。
(三)数据库 [4]
在数据分析流程中软件使用的数据库,主要供了解流程内容用,其中第8、9、10项数据库的结果可能会在遗传性肿瘤检测结果中用到;第9、10、11项数据库在数据解读流程中使用,其结果会直接体现在临床报告中,与临床医师的决策直接相关:
1.hg19
人类基因组参考基因组,最新版为hg38。因hg19版本配套的数据库和软件支持较全,所以临床上较多使用hg19版本。
2.refGene
NCBI的基因参考序列数据库,提供基因的位置信息和基本的功能单元如外显子(exon)、内含子(intron)、非编码区(UTR)等的位置信息。cytoBand是 cytogenetic band的简称,是每个细胞间细胞发生带(cytogenetic band )的染色体坐标信息。
3.千人基因组计划
千人基因组计划(1 000g)包含世界几个族群的等位基因频率,包含汉族和东亚族群的等位基因频率。
4.ESP6500
ESP 全 称 是 NHLBI GO(National Heart,Lung,and Blood Institute Grand Opportunity) Exome Sequencing Project(美国国家心肺和血液研究所外显子组测序计划),包含了SNP和indel变异。目前有6 503个样本,分别来源于非裔美国人2 203人,欧裔美国人4 300人。
5.ExAC
ExAC全称是The Exome Aggregation Consortium(外显子组整合数据库),整合了6万多个无亲缘关系个体的数据,这些个体来源于大量疾病研究和群体遗传学研究,能够用做严重疾病研究的参考数据库,目前ExAC数据库中包括ALL、AFR(African)、AMR(admixed American)、 EAS(east Asian)、FIN(Finnish)、NFE(non-Finnish European)、OTH(other)、SAS(south Asian)。该数据库旨在汇总和协调各种大规模测序项目的外显子组测序数据,通过ExAC的注释,可以了解该变异位点上突变碱基的等位基因的频率,并可采用0.01的标准进行过滤,与千人基因组项目一样,有的公司会根据不同目标研究人种单独对某个子数据库进行分析,例如研究中国人,会另外在东亚EAS数据库中注释突变频率。
6.COSMIC
全称是Catalogue of Somatic Mutations in Cancer,是世界上研究人体肿瘤体细胞突变最大和最全面的数据库。本数据库的版本号为70,结果分为id和疾病,用逗号分隔。在肿瘤分析中是重要的数据库。
7.Clinvar
注释变异与人类疾病之间的关系,临床意义的数据来源于NCBI,Clinvar数据库整合了dbSNP、dbVar、PubMed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。
Intervar,评价错义突变有害性的数据库,评价结果可分为pathogenic(有害)、 likely pathogenic(可能有害)、benign(无害)、likely benign(可能无害)、uncertain significance(有害性不明确)几种。
8.Dbnsfp35a
用于基因突变的致病性预测。
9.PharmGKB
用于揭示突变与化疗药的关系。PharmGKB全称是Pharmacogenetics and Pharmacogenomics Knowledge Base,即遗传药理学与药物基因组学数据库,网站把基因和药物的关系分为两个大的范畴:表型[包括临床结果(CO)、药效学和药物反应(PD)、药物动力学(PK)以及分子和细胞功能化验(FA)]、基因型(GN)。目前,该数据库中包含有27 007个基因与4 654种药物和4 067种疾病的相互作用资料。该数据库由美国国立卫生研究院(NIH)于2014年创建,主要任务是创建一个原始数据仓库,开发追踪基因和药物间关联的工具,及编目已知影响药物反应的遗传变异的位置和频率,以基因、变异、药物、疾病和通路间更加复杂的关系。
10.OncoKB
用于揭示突变与靶向药的关系。OncoKB,是由纪念斯隆·凯特琳癌症中心(Memorial Sloan Kettering Cancer Center,MSK)开发并维护的全面的精准肿瘤学知识库,该知识库以体细胞突变为核心,收录突变对应靶向药的精准使用、突变在生物学与肿瘤学方面的影响以及突变在人群中的分布频率特征等信息。OncoKB知识库收录信息的来源非常多样化,包括包含来自FDA、NCCN、ASCO或ESMO会议论文的不同癌种专家共识,以及ClinicalTrials网站和科学文献等的专业指导方针和建议、治疗策略、肿瘤专家或肿瘤协会共识、参考文献等信息。虽然知识库的信息来源多样化,但是每条信息都会经过临床基因组学注释委员会的定期审阅与修订,保证信息的准确性与严谨性。与其他收录体细胞突变的数据库(如COSMIC)相比,OncoKB的主要内容是与肿瘤精准用药相关的,因此该知识库可以作为癌症诊治的导航仪。OncoKB目前共收录与癌症包含有关的4 381个体细胞突变、554种癌症基因特定改变的详细信息,其中包含有不同级别靶向药使用建议的“可行动突变”(actionable mutation)、明确与癌症发生或发展相关的“致癌突变”(oncogenic mutation)以及虽与癌症相关但尚未研究清楚的“意义未明突变”(VUS mutation)。还有1级(FDA批准)、2级(标准护理)的治疗信息,3级临床证据和生物学证据。
11.ClinicalTrials
在未发现突变有效相关药物情况下,用于推荐的临床试验信息。ClinicalTrials 是美国国家医学图书馆(The United States National Library of Medicine,NLM)与美国食品药品监督管理局(Food and Drug Administration,FDA)1997年开发,2002年2月正式运行的临床试验资料库,其有两个主要目的:① 向患者、医疗卫生人员和社会大众提供临床试验信息的查询服务;② 向医学科研人员和机构提供临床试验注册服务。ClinicalTrials.gov是目前国际上最重要的临床试验注册机构之一,其注册和查询临床试验均为免费,被誉为公开化、国际化临床试验注册的典范。
二、质控流程
质控流程在二代测序数据分析的临床应用中非常重要。质控应该体现在整个数据生产和分析的全流程中,任何一个样本的分析结果异常发生后都可以回溯到最开始出现异常的质控点,从而准确判断是由于样本管理、样本操作、数据分析出现问题,还是样本本身的异常。建立全套质控流程的另一个好处是同时建立起数据管理的框架,将数据分析的关键中间结果与最终结果连接,将个体的结果与群体样本的背景结果进行对照,有利于总结不同样本类型的突变规律以及产生新的临床发现。
质控流程包括对样本处理的质控、对数据分析的质控和业务流程质控三部分(图2-15)。
图2-15 肿瘤数据质控流程
1.对样本处理的质控
包括检查样本形态和纯度是否合格,样本建库时的DNA起始量、文库浓度、文库片段大小等,以及上机测序时机器运行是否正常。对样本处理的质控发生在实验室中,但是由于二代测序数据分析技术的发展,可以从数据层面反馈实验中质控的效果,甚至辅助优化实验室中所设定的质控参数,如在样本建库的实践中,较低的DNA起始量或文库浓度,并不一定意味着较低的数据产出量,通过群体样本的回顾性统计,可以找出不同条件、不同样本类型下更合适的阈值。对于样本建库和测序的结果的质量评估,往往也只有等到测序完成后,对序列进行比对和统计才能获取,比如常见的质控评价指标测序深度、覆盖度、捕获效率、捕获均一性等。一般的临床项目中,这些指标必须在一定参数以上才能确认分析结果的准确性。
2.对数据分析的质控
主要体现在通过数据的分析结果反映软件选型是否正确,自定义的过滤筛选条件是否准确。由于肿瘤数据分析的发展较快,尤其在研发新的分析项目时,需要监控分析结果是否符合行业预期,从而决定是否改换软件或者调整过滤参数。另外,由于肿瘤体细胞突变中经常需要检测很低频率的突变,而此时突变的背景噪音往往更强,从这样的数据中找到可信的突变,往往也需要清楚每一步数据分析对数据产生的影响。比如在体细胞突变检测中,需要尽可能多而准确地去除胚系突变的影响,在上文中提到的各种胚系突变数据库如1 000g、ExAC等的引入规则对突变的过滤影响较大,需要详细记录数据变化的趋势。
3.业务流程质控
主要针对业务进行过程中的样本错乱、重复检测等事件,其原理就是肿瘤不可能有同样的DNA和原始数据出现,即使是同一患者的不同样本,其原始测序数据也必定不一样,通过在质控点进行重复性排查,可以预知业务流程中潜在的不合格事件的发生。
三、在临床应用中的注意事项
(一)名词解释
1.测序深度与突变丰度
在图2-16中选取基因组上3个点(a,b,c)做示例,可同时说明测序深度与突变丰度的概念。测序深度的量化在行业中经常表述为500×(500乘),相当于目标碱基被平均测了500次,如a位点点测序深度为8×,b位点的测序深度为5×,c位点的测序深度为5×。测序的结果不可能做到每一个碱基位点都是一样的测序深度,当我们说到样本的测序深度时,指的是所有位点的平均深度。因此在质控中往往有些特定指标,比如最低深度为500×的位点在所有位点中的占比,是用来衡量测序深度的异常分布程度的,避免由于局部的高深度掩盖了低深度。测序深度的异常分布与样本建库时的捕获均一性、基因组特性均有关系。
图2-16 肿瘤基因检测中的突变丰度概念
作为胚系突变的检测而言,300×的平均测序深度足够用于胚系突变的变异检测,而在体细胞检测中,对于组织样本,平均测序深度一般要求在3 000×以上,对于血液样本,平均测序深度一般要求在6 000×以上,部分用于与ARMS-PCR进行对比的项目中,甚至要求平均测序深度在20 000×以上。较低深度的位点,其突变的可信度也较低。这与基因测序的数据质量特点和体细胞突变的丰度有关。突变丰度的计算非常简单,比如a位点的丰度就是该位点发生突变的碱基数(1个)除以该位点所有被测到的碱基数(8个)。由于肿瘤的发生是突变经长时间累积的结果,很多突变的检测丰度非常低,如0.5%,这就意味着该位点在被测序200次的情况下才能得到1个突变的序列,由于测序数据本身并非100%可信,因此临床上通过质量过滤后的序列数越多越好,如果在流程中规定至少需要5个有效的突变序列支持该位点有突变,那么该位点测序深度至少在1 000×,考虑到平均测序深度并不代表某个位点的测序深度,整个样本的平均测序深度要求在3 000×也就不足为奇了。较高的测序深度,意味着试剂的成本也越高,它检测的数据量也就越大,后续的分析的价格可能也就越高。因此目前肿瘤体细胞检测中往往以panel代替全外显子和全基因组测序。
组织样本和血液样本中的突变丰度的分布是不一样的,其来源意义也不同。在组织样本中,突变丰度是体现肿瘤异质性的一个重要指标。肿瘤组织里有各种不同的肿瘤细胞。不同的肿瘤细胞携带不同的突变基因,而穿刺是不可能取到同样的若干个相同的肿瘤细胞,所以不可能有100%突变的基因(胚系突变除外)。基因突变丰度越高就说明肿瘤组织中含有这种突变基因的细胞数越多,组织中突变丰度的上限可以到100%。在质控流程中,可以通过组织样本中的突变丰度的分布推断组织样本的纯度。在血液样本中,突变丰度在一定程度上反映了ctDNA(circulating tumor DNA,循环肿瘤DNA)在cfDNA(circulating free DNA或cell free DNA,循环游离DNA或细胞游离DNA)中的占比,即肿瘤细胞释放到血液中的DNA占所有细胞释放到血液中的DNA的占比,因此其丰度永远不可能达到100%。突变丰度的检测下限,在组织样本中一般设为0.5%,在血液样本中设为0.1%,本质上与不同类型样本的测序深度有一定关系,而血液样本中希望更灵敏地检测到突变。
突变丰度与靶向效果有关系,因此在临床报告中需要着重看突变位点的丰度信息。对于突变丰度高依旧靶向无效的患者,有可能是存在其他的耐药突变位点。
2.突变的命名方法
基因突变的类型非常多,并且有多种定义方法,如点突变、移码突变、染色体变异、SNV、indel、CNV、SNP、CAN、LOH、MSI、SV 等,HGVS(Human Genome Variation Society,人类基因组变异协会)指定了一套完整的变异位点命名规则,统一的命名方便了学术沟通与交流,了解变异的命名规则有利于读懂临床报告。如果在实践中遇到不能理解的命名,可以在Mutalyzer的网站上查看解释。
另外,以“*”表示的基因多态性是对HGVS规则的有益补充,在命名那些具有多个SNP的单体型(haplotype)的基因变异组合时具有无可比拟的重要优势,主要用于各种代谢酶的变异(其中所有的“*1”都用于命名没有任何突变的野生型,除此之外的各种“*x”基因变异都可以理解为这个酶的异构体)。
(二)样本类型与数据分析
组织样本与血液样本的整体分析流程基本一致,主要区别在于测序深度和下游的过滤参数。另外,肿瘤分析流程在确认体细胞突变时,非常重要的一步是去除胚系突变的位点,因此标准分析流程推荐正常样本和肿瘤样本对照分析,肿瘤样本里的突变位点减去正常样本的突变位点,就是潜在的体细胞突变位点。在组织样本送样时,会要求配送血液样本,以血液样本中白细胞中的DNA作为对照。在血液样本独立送样时,可以将血浆中与白细胞中分离,从而分别得到cfDNA和对照DNA,因此没有配对样本要求。
在实际临床应用中,如果只能独立送组织样本而无血液对照,在分析流程中一般通过构建40个正常样本以上的集合,即PoN(polling of normal)的形式辅助筛选。
(三)如何看待数据分析结果的不一致性
二代测序在临床上的应用发展到今天已经相对成熟,但是在临床应用中也有各厂商提供的报告位点不一致,或者各厂商都未能报出致病位点的情况,这涉及多种原因。
1.厂商的质控流程不完备
大部分厂商会着重控制样本处理级别的质控,仅以测序质量、测序均一性等作为质控指标,在数据处理质控和业务流程质控上没有严格地执行流程,容易引发漏报、错报而且不能据此优化流程。
2.生物信息软件本身的缺陷
导致不能完全反映真实的数据形态。在生物信息流程中用到的软件,大多都有替代软件,各软件间并非仅仅在性能上有差异,往往结果也不是100%一致,每一步的处理都是通过软件干涉数据,不同的软件可能遗漏的数据不同,因此临床应用上一般强调最适用性,尤其是与行业大多数使用软件保持一致是稳妥的做法。但是在体细胞变异检测步骤和变异注释步骤,可选的软件间目前还未能形成垄断,这是一部分数据分析结果不一致的来源。而在突变过滤步骤中,往往是厂商依据文献或经验设置筛选参数,这也导致了各厂商的最终结果不一定一致。因此数据分析的回溯性质控和原始突变的丰度信息等在临床应用中尤为重要。
3.测序技术本身并不完美
而且在样本的处理过程中,序列扩增、捕获和基因组比对上当前都有无可避免的遗漏。
4.样本纯度问题
来自正常细胞的DNA信号稀释了突变的检测信号。技术客观的局限性会随着技术的发展逐渐消除,临床应用中应做到尽量降低主观误差的影响,做好数据质控,按最佳实践部署流程,根据文献和分析经验建立突变的白名单、黑名单,可比较有效地减少主观误差带来的影响。
(严志祥)
参考文献
[1]Heng L,Bob H,Alec W,et al.The sequence alignment/map format and SAMtools.Bioinformatics,2009,25(16):2078-2079.
[2]Mckenna A,Hanna M,Banks E,et al.The genome analysis toolkit:a mapreduce framework for analyzing nextgeneration DNA sequencing data.Genome Res,2010,20(9):1297-1303.
[3]Li H,Durbin R.Fast and accurate short read alignment with burrows-wheeler transform.Bioinformatics,2009,25(14):1754-1760.
[4]Nishio S,Usami S.The clinical next-generation sequencing database:a tool for the unified management of clinical information and genetic variants to accelerate variant pathogenicity classification.Hum Mutat,2017,38(3):252-259.