1.4.5 定向进化

从生物化学和分子生物学的角度来讲,定向进化(directed evolution)是指模仿自然进化过程,通过基因多样化和突变库筛选的迭代循环,加速实现在胞内或胞外进行的自然进化过程。定向进化可以在不了解蛋白质的结构和作用机制的前提下,获得期望功能或全新功能的蛋白质。“定向进化”这一概念于20世纪90年代由生物工程学家Frances Arnold教授提出,在酶工程领域中发挥着重要作用。

近年来,包括高效构建基因突变库的方法、高通量筛选突变库的方法、连续定向进化策略、自动化生物合成平台助力定向进化在内的策略,提升了定向进化的效率,使得突变库的筛选速率提高了百倍以上。

(1)高效基因突变库构建方法。构建高效、多样化的基因突变库是定向进化的基础。目前主要的构建方法有体外突变法体内突变法。体外突变法主要包括可以产生随机突变的易错PCR、DNA改组等。通过将这些传统方法与基因高通量合成技术及 DNA 测序技术相结合,传统的体外突变法存在的共有缺陷(如密码子缺乏控制、具有序列偏好性等)在一定程度上得到了改善。例如,通过采用半理性设计突变氨基酸的方法,将PCR 反扩载体与 T5 介导的克隆方法联用,构建了突变效率高达81.25%的柠檬烯环氧水解酶4个位点组合突变体库,成功实现了对定点饱和突变库构建方法的改进。体内突变法则通过基于CRISPR-Cas 系统的高效胞内蛋白质定向进化工具,对参与同一代谢途径的多个蛋白进行定向进化。

(2)新型高通量筛选技术。开发更快速、灵敏、准确的高通量筛选技术,可以最大程度地创建序列覆盖率高、多样性强的突变库,同时能最大程度地发掘不同氨基酸序列与其对应表型之间的关系。例如,利用文库展示技术进行突变库的高通量筛选,在蛋白质工程中得到了广泛的应用,包括噬菌体展示技术、细胞表面展示技术、核糖体展示技术以及mRNA展示技术。

文库展示技术(library-based display)将突变的目标蛋白展示于不同的生物体表面,并对蛋白质进行直接干扰,使蛋白质与外部环境接触,从而影响蛋白质的降解程度和折叠状态,之后通过一定的方法富集、筛选蛋白质检测出相关的基因信息。其中,噬菌体展示技术有力地促进了蛋白质工程的发展,其将蛋白基因插入噬菌体外壳蛋白结构基因的适当位置,随着噬菌体的传代,融合蛋白会展示在噬菌体的表面,对应的编码基因则位于病毒颗粒内,大量蛋白由此与其 DNA编码序列建立了直接联系,使各种靶分子(抗体、酶等)的配体通过“吸附、洗脱、扩增”得到快速鉴定。除此之外,细胞表面展示技术、核糖体展示技术以及mRNA展示技术也可应用于突变库的筛选。一些微型化、自动化和集成化的新型技术体系也为一些代谢途径关键酶、优势菌株、催化元件在定向进化过程中的高通量筛选和选择提供了优良的解决方案。

(3)连续定向进化。连续定向进化旨在无人为干预的情况下完成基因突变、蛋白表达、表型选择与筛选的迭代实验,其通过缩短每轮的进化时间来增加迭代次数,利用可自我复制的生物体,提高获得目标性状突变体的概率,在其基因组复制过程引入突变并利用突变后该生物体复制扩增能力的差异性变化来实现建库与筛选这两个步骤的自动连接和迭代循环,从而减少人力劳动,使定向进化快速进行。例如,David Liu团队开发了噬菌体辅助的连续进化系统(phage-assisted continuous evolution,PACE),通过设计特定的基因回路,将 pⅢ的表达与目标蛋白的活性相偶联,再通过控制系统使得含有目标活性突变体的噬菌体迭代富集,从而实现进化与筛选自动循环——可以在24h内完成30轮以上的蛋白质进化。

(4)计算机辅助定向进化。如果说定向进化的关键在于对突变库的高效筛选,那么计算机辅助定向进化(主要是采用机器学习技术)可以通过构建输入数据到输出数据的复杂函数关系,并通过相关训练模型对训练集以外的序列空间进行探索,因此在筛选和收集正向突变方面有着巨大的优势。不同的算法及软件,如Modeller、Rosetta以及AlphaFold 2等在内的多种方法已广泛用于蛋白质结构的预测。其中,AlphaFold 2采用了生物信息学和物理方法相结合的双重预测方法。例如,George Carman课题组利用 AlphaFold 2预测了突变的酿酒酵母磷脂酸磷酸酶的结构,通过其结构发现了其催化关键位点并推测了其催化活性机理。尽管计算机辅助定向进化受到用于训练模型的数据的数量和质量的限制,但大量的研究已证明这的确是定向进化方向颇具发展前景的方法。计算机辅助定向进化已应用于酶结构与底物属性的预测、反应最佳微环境的预测以及酶最佳催化位点的预测。可以说,随着计算机技术和生物技术的进步,以及序列-功能对数据的不断增长,在酶分子的定向进化过程中,机器学习技术会在探索未知酶序列信息以及空间结构中发挥越来越重要的作用。