第四节 宏基因组检测技术

人类基因组计划(human genome project,HGP)的完成促使了基因组功能性研究计划的开展,并推动从结构基因组学研究时代进入功能性基因组研究为主的后基因组时代,人体基因的功能研究成为生命科学领域的研究热点。但是越来越多的研究表明,人体的生理代谢和生长发育不仅受自身基因控制,还与其他生物基因组相关;对疾病的易感性、药物反应等许多现象,也无法全部用人体基因差异来解释。人体内共生着大量的(10 14个)微生物,达一千多种,虽然其重量仅占体重的1%~2%,但其细胞数量是人体自身细胞的10倍,参与人体发育、生理调节、免疫、营养吸收等各种生命活动中,与人类建立了稳定和谐的共生关系。人的健康状况发生变化,体内的共生微生物的组成就会发生变化;体内共生微生物的组成的变化也会导致人体的健康状况的改变。因此在研究人体基因与健康的关系时,必须考虑与人类长期共生的微生物群体的基因对人类的影响。最新的研究证实,人体内微生物编码的基因是人体自身基因数目的50~100倍,这些微生物的基因总和相当于人体的第二个基因组,称为微生物组或人体宏基因组。人体的基因组与人体内的微生物组共同作用影响人体的免疫、营养和代谢过程。

一、人体宏基因组学概念

(一) 宏基因组和宏基因组学
宏基因组(metagenome),又称微生物环境基因组、元基因组,是由Handelsman等1998年提出的,其定义为环境中全部微小生物遗传物质的总和,目前主要指环境样品中的细菌和真菌的基因组总和。宏基因组是一个巨大的基因资源库,但是仅有0.1%~1%的微生物在现有技术条件下是可培养的,因此致使未培养微生物基因资源的开发利用受到限制。宏基因组技术直接提取环境样品总DNA,避开了微生物分离培养的问题,极大扩展了微生物资源的利用空间。所谓宏基因组学(metagenomics)就是以生态环境中全部细菌和真菌基因组DNA作为研究对象,包含了可培养和还不能培养的微生物的基因,通过克隆、异源表达来筛选有用基因及其产物,研究其功能和彼此之间的关系和相互作用,并揭示其规律的学科。宏基因组学又称环境基因组学、生态基因组学等,是基因组学中的一个新兴的重要科学研究领域。宏基因组学为探索微生物世界的奥秘提供了新的方法,这是继发明显微镜以来研究微生物方法的最重要进展,将是对微生物世界认识的革命性突破。
(二) 人类宏基因组学
人体内部或体表有数以万亿的微生物个体存活,包括细菌、古细菌、真菌、寄生虫和病毒等。这些微生物存在于人体的肠道、口腔、呼吸道、生殖道和皮肤等,与机体处于共生状态,我们把这种多种微生物聚居在一起形成的系统叫做“微生物群落”,也称菌群。把人体内所有微生物基因组的总和称为人体宏基因组(human metagenome)或微生物组(microbiome)。人类宏基因组学(human metagenomics)则是研究人体宏基因组结构和功能、相互之间关系、作用规律和与疾病关系的学科。它不仅要把总体基因组序列信息都测定出来,而且还要研究与人体发育和健康有关的基因功能。人类宏基因组学近年已受到广泛关注,2010年,被《自然》杂志预测是未来十年科学的走向之一。
(三) 世界上主要的人类宏基因组学研究项目
1. 人体微生物组计划
2004年,美国国立卫生研究院(NIH )专门设立了“利用宏基因组学研究口腔微生物”的研究项目。为全面分析人体微生物群系,揭示微生物与人体健康和疾病状态之间的联系,NIH于2007年12月19日正式启动一项新的基因工程——人体微生物组计划(human microbiome project,HMP)。HMP是人类基因组计划(human genome project,HGP)的延伸,又称“人类第二基因组计划”,它相当10个HGP工作量,其规模和广度将远远超过HMP计划。将来,HMP与HGP相互结合,将为了解“遗传与环境”相互作用提供前所未有的机遇,一定会为理解人类健康与疾病揭示更多的秘密。科学家认为,HMP计划将对阐明人类许多疾病的发生机制、研究新药物、控制药物毒性等产生巨大作用。人类基因组和人类宏基因组这两本“天书”绘制完成后,将有助于更好地破解人类疾病。
HMP的目标:①利用新的高通量技术的优点,更为全面的对至少250名健康志愿者的多个部位进行人体微生物组研究;②通过对一些不同的医学状况进行研究,明确人体微生物组变化与健康/疾病的相关性;③为HMP的广泛研究和推广,提供标准化的数据库和新的技术;同时系统地研究HMP涉及的伦理、法律和社会问题。HMP的最终目的是通过监测和调节人体微生物组,实现增进人类的健康。
2. 人类肠道宏基因组计划
因为肠道菌群在人类健康方面起着重大的作用,欧盟第七框架协议在2008年1月资助了“人类肠道宏基因组计划”(european commission metagenomics of the human intestinal tract,MetaHIT)。MetaHIT项目的合作伙伴包括了来自中国、美国、丹麦、法国、日本、西班牙、英国、芬兰8个国家学术界和工业界的13个成员。MetaHIT项目的目的是研究人类肠道中的所有微生物群落,进而了解人肠道中细菌的物种分布,最终为后续研究肠道微生物与人的肥胖、肠炎、糖尿病等疾病的关系提供非常重要的理论依据,达到预防和监控的目的。MetaHIT项目相当于对人类肠道中的细菌进行了一次全面的“基因普查”。
(四) 国际人类微生物组联盟
在2008年10月16日德国海德堡会议上,来自全球各地的科学家共同宣布,成立国际人类微生物组联盟(International Human Microbiome Consortium,IHMC),以协调全球人类微生物组研究,避免不必要的重复工作;快速共享在人类微生物组研究方面取得比较一致(分子和临床)的数据、共识、方法和结果。IHMC 将通过国际性项目产生一个共享数据资源,方便全球科学研究共同体的免费使用。而与此同时,NIH也于近期与欧盟理事会(EC)正式签署协议,整合当前正在进行的来自NIH“人类微生物组”项目和EC“人类肠道宏基因组”项目的数据,作为IHMC微生物组的基石。

二、宏基因组检测技术

宏基因组检测技术是以测序为基础的非依赖于培养的,研究微生物所有基因(基因组)的方法。第一代测序技术包括Sanger等(1977年)发明的双脱氧链末端终止法与Maxam和Gilbert(1977年)发明的化学降解法。这两种方法在原理上差异很大,但都是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,产生A,T,C,G四组不同长度的一系列核苷酸,然后在尿素变性的PAGE胶上电泳进行检测,从而获得DNA序列,目前Sanger测序法得到了广泛的应用。第一代测序技术存在成本高、速度慢、通量低等不足,并不是后基因组时代最理想的测序方法。进入21世纪后,以Roche 454、Illumina Solexa和ABI SOLiD为代表的第二代测序技术诞生了,第二代(新一代)测序技术,以数据产出通量高为最大特点,故一般称为高通量测序。这一技术目前主要有两个平台。
(一) Roche 454测序技术
454公司可谓第二代测序技术的奠基者。2005年底,454公司推出了革命性的基于焦磷酸测序法的高通量基因组测序系统——Genome Sequencer 20 System。这一技术的建立开创了边合成边测序(sequencing by synthesis)的先河,被nature杂志以里程碑事件报道。之后,454公司被罗氏诊断公司以1.55亿美元收购。一年后,他们又推出了性能更优的第二代基因组测序系统——Genome Sequencer FLX System(GS FLX)。2008年10月,Roche 454在不改变机器的情况下,推出了全新的测序试剂——GS FLX Titanium,全面提升了测序的准确性、读长和测序通量。
目前,Roche 454 GS FLX Titanium每次运行能产生100万条序列,平均读长能达到400nt,且第400个碱基的准确率能达到99%。一次运行所需时间为10小时,能获得4亿~6亿个碱基的序列信息。
(二) Illumina Solexa测序技术
Illumina公司的第二代测序仪最早由Solexa公司研发,利用其专利核心技术"DNA簇"和"可逆性末端终结(reversible terminator)",实现自动化样本制备和大规模并行测序。Illumina公司于2007年初花巨资收购了Solexa。2010年初,Illumina将其第二代测序仪Genome AnalyzerⅡx升级到HiSeq 2000。HiSeq 2000含有两张Flow cell,可同时运行或者只运行其中一张。读长为100nt,同时支持Fragment、Pair-end和Mate-Paired文库。每次运行最多可产生200GB的数据量(读长为2×100nt)。

三、宏基因组研究结果分析

宏基因组测序是基于新一代测序仪对特定环境微生物种群全基因组DNA研究技术。该方法的特点是在提取微生物种群的DNA后,制备DNA文库进行高通量的测序,可以从整体上对样品群落进行分析,不受微生物是否能培养的限制,而且研究对象从单一基因组到一个基因组集合,摆脱了对于传统基因组研究的物种限制,开辟了微生物群体基因组学研究的新路径。
(一) 宏基因组测序分析流程
宏基因组测序分析流程见图4-1
图4-1 宏基因组测序分析流程
(二) 原始数据处理
1. 有效序列数据统计
在测序实验中,通常采用多个样品平行测序的方法,即多个样品混合测序。为了能区分样品,各样品中的序列均引入了一段标示其样本来源信息的barcode标签序列。若所测序列中不含有barcode标签序列,则无法确定其样本来源,进而导致后续生物信息错误或意义不明。因此,仅当原始序列中含有完整的barcode标签序列时,该条序列才被认可为有效序列。
2. 优化序列数据统计
通常情况下,有效序列可以直接用于后续生物信息学分析。但如果需要得到更高质量及更精准的生物信息分析结果,则应对有效序列进行去杂。在实验过程中,序列中可能含有模糊碱基(ambiguous)、单碱基同源区(homologous)以及长度过短的序列,将这些序列纳入分析范围会降低分析质量,因此修剪、去除(trim)此部分序列,可得到供精准分析的优化序列,该过程可能出现抛弃一定量数据的情况,但可以保证得到更高质量的信息分析。
(三) 生物信息学分析
1. OTU生成
OTU(operational taxonomic units)是数值分类最低等级的分类单位。在生物信息分析中,测序得到的每一条序列来自一个细菌。要了解一个样品微生物组成信息,就需要将序列按照彼此的相似性进行归类,每一类就是一个OTU。目前通常按照96%~98%进行OTU的划分,并对OTU进行生物信息统计分析,但是OTU划分和物种分类是不完全对应的(图4-2)。
图4-2 OUT划分过程中所用相似性的选择
2. 稀释曲线
Rarefaction即取样深度,是比较测序量不同的样本之间的物种丰富度,通过各样品的测序量及在不同测序深度的OTU数目构建稀释曲线(rarefaction curve),以此反映单个样本测序数量对应的物种丰度,也可以用来说明样本的取样大小是否合理。稀释性曲线图中(图4-3),当曲线趋向平坦时,说明取样的数量合理,更多的取样也可能只产生少量新的OUT,反之则表明继续取样还可能产生较多新的OTU。
图4-3 单一样本稀释曲线
图中3条曲线分别表示97%(0.03)、95%(0.05)和90%(0.10)相似性时的变化
3. 多样性评估
Shannon-Wiener 指数是反映样品的微生物多样性指数,在确定相似度划分OTU之后,以测序深度为横坐标,以不同测序深度的多样性指数为纵坐标制作曲线,以此反映各样本在不同的测序数量时对应的微生物多样性。当曲线趋向平坦时,说明测序量能反映样品中绝大多数微生物信息(图4-4)。
图4-4 全部样本Shannon-Wiener多样性指数曲线图
4. 分类学(Taxonomy)分析
在之前的分析步骤中,已经将序列按照其自身的碱基排列顺序的相似性,分归到各OTU中。在进行分类学分析时,首先,将每一条优质序列都与SILVA(最新版)数据库进行比对,找出其最相近且可信度达80%以上的种属信息。之后,将每一个OTU中的所有序列进行类比,找出同一OTU中的不同序列的最近祖先的种属信息。最后,将得到的结果记录在表格文件中。这样做,可以在保留最可能多的信息量的情况下,确保得出信息的准确性。
5. 群落结构(Community Structure)分析
根据分类学分析结果,可以得知一个或多个样品在各分类水平的分类学比对情况。在结果中,包含了两个信息:①该样品中含有何种微生物;②这些微生物各自所含有的序列数。因此可以使用统计学的分析方法,观测样品在不同分类水平上的群落结构。将多个样品的群落结构分析放在一起对比时,还可以观测其变化情况。群落结构的分析可在任一分类水平进行,结果可以柱状图、饼图等形式呈现(图4-5)。
图4-5 各样品群落分布柱状图
6. 分类学树状图
NCBI提供了已有的微生物物种的分类学信息数据库(数据库文件下载地址:ftp://ftp.ncbi.nih.gov/pub/taxonomy/)。根据这些信息,可以构建出微生物的分类学进化关系树。在前述分类学分析中,已经得到了每个OTU的分类学信息。在此基础上,可以得到每条序列的分类学信息情况。将这些信息回归至分类学进化关系树,便可以全面了解环境样品中的微生物进化关系。
分析结果是以树状图形式表示的。图中的支点表示该处在NCBI数据库中有相应的Taxonomy记录,支点附近有该英文名称拼写。与传统的系统发育树有所不同,树状图的枝长并不代表进化时间(图4-6)。
图4-6 单样品分类学树状图
7. 多样品相似度对比
比较多个样品的OTU差异及各OTU中含有序列的多少,可以得到这些样品的相似关系(图4-7)。
图4-7 多样品相似度树状图
8. 样品OTU分布比较——VENN图
统计多个样品中所共有的OTU数目可以反应环境样品的相似及重叠情况。统计结果以venn图形式表示。在图中,如果两个不同颜色圆圈重叠的区域标注有数字100,说明这两个样品均有序列被划分入相同的OTU中,且这样的OTU有100个。通常情况下,分析时选用相似水平为97%的OTU,此时OTU的数目也可以代表菌种的数目(图4-8)。
图4-8 文氏图比较各样品间OUT的差别
9. 显著性差异(differentially abundant features)分析
分析多个样品时,如果这些样品分属于两个不同的组,则可以进行Metastats分析。该分析通过对比两组条件下的多个样品,找出两者之间有明显差异性表达的微生物。主要分析指数:均值(mean);方差(variance);标准差(standard);P值(P value);q值(q value,指本次计算可信度)。
10. Heatmap
Heatmap可以用颜色变化来反映二维矩阵或表格中的数据信息,它可以直观地将数据值的大小以定义的颜色深浅表示出来。常根据需要将数据进行聚类,将聚类后的数据表示在heatmap图上,通过颜色的梯度及相似程度来反映数据的相似性和差异性。如在属水平上对样品和OTU类型(样品所含菌属)进行聚类(依据是不同样品中各OTU所含序列数越相近,即所含菌属数量越相近,样品间相似性越高),对聚类后各样品中不同OTU(不同菌属)所含序列的丰度作heatmap图,能够反映出在菌属水平上各样品菌落结构的相似性和差异性(图4-9)。
图4-9 各样品heatmap图
11. PCA分析(principal component analysis)
即主成分分析,是一种对数据进行简化分析的技术,这种方法可以有效地找出数据中最“主要”的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简单结构。可以用PCA来分析不同样品OTU组成的差异,通过方差分解,将多组数据的差异反映在二维坐标图上,坐标轴各取能够最大反映方差值的两个特征值。若样品组成越相似,反映在PCA图中的距离越近(图4-10)。PCA可以用来做以下分析:确定环境中的样品是否具有显著不同的微生物群落;将环境间的差异以图的形式表现出来等。
图4-10 PCA分析得到的基于PC1和PC2的赋值样本分布图
12. RDA/CCA分析
RDA或者CCA是基于对应分析发展而来的一种排序方法,将对应分析与多元回归分析相结合,每一步计算均与环境因子进行回归,又称多元直接梯度分析。此分析是主要用来反映菌群与环境因子之间关系。RDA是基于线性模型,CCA是基于单峰模型。图标注释:箭头表示环境因子,箭头所处的象限表示环境因子与排序轴之间的正负相关性,箭头连线的长度代表着某个环境因子与研究对象分布相关程度的大小,连线越长,代表这个环境因子对研究对象的分布影响越大。箭头连线与排序轴的夹角代表着某个环境因子与排序轴的相关性大小,夹角越小,相关性越高(图4-11)。
图4-11 RDA/CCA分析

四、正常菌群的分子进化分类

由于宏基因组学研究进展,对正常微生物群出现了根据其分子进化为基础的分类方法,即分子分类(molecular species),也称为进化型(phylotypes)。目前已知人类肠道微生物中有60%以上是目前技术无法成功培养的,其种类达1000~1150种,分属于7个菌门,其中厚壁菌门和拟杆菌门占95%以上,其他菌门所占的比例均比较少,肠道菌群的分子进化分类见图4-12。
1. 厚壁菌门
厚壁菌门( Firmicutes)(65.0%~79.4%)是一大类细菌,多数为革兰阳性,包括芽孢杆菌属( Bacillus),李斯特菌属( Listeria),葡萄球菌属( Staphylococcus),肠球菌属( Enterococcus),乳杆菌属( Lactobacillus),乳球菌属( Lactococcus),明串珠菌属( Leuconostoc),链球菌属( Streptococcus),梭菌属( Clostridium)和优杆菌属( Eubacterium)等。
2. 拟杆菌门
拟杆菌门( Bacteroidetes)(16.9%~ 32.0%)包括拟杆菌属( Bacteroides)、黄杆菌纲。
3. 放线菌门
放线菌门( Actinobacteria)(2.5%)为革兰阳性细菌,包括双歧杆菌属( Bifidobacterium)和微球菌属( Micrococcus)等。
4. 变形菌门
变形菌门( ProteobacteriaPhylum Proteobacteria)(1.0%)是细菌中最大的一门,均为革兰阴性菌,包括大多数肠道致病菌,如埃希菌属、沙门菌属、克雷伯菌属、志贺菌属、结肠耶尔森菌属、假单胞菌属、弧菌属等。
5. 梭杆菌门
梭杆菌门( Fusobacteria)(<0.1%)是一个小类群的革兰阴性细菌,包括梭杆菌属( Fusobacterium)等。
6. 疣微球菌门
疣微球菌门( Verrucomicrobia)(0.1%)包括疣微菌属( Verrucomicrobium)和突柄杆菌属( Prosthecobacter)。
7. 蓝细菌门
蓝细菌门( Cyanobacteria)(<0.1%)。
图4-12 肠道菌群的分子进化分类