Nature:生物催化发现的范式革命——“实验-数据-AI”闭环,高效链接分子与功能
时间:2025-10-08
两个 平行世界 的对话:化学空间与蛋白质序列空间
我们先来走进这两个既宏大又抽象的世界。
第一个是化学空间(chemical space)。这并非一个物理空间,而是理论上所有可能存在的小分子的集合。从最简单的甲烷,到结构最复杂的天然产物,再到尚未被合成出来的药物分子,它们都在这个概念性的宇宙中拥有自己独一无二的坐标。这个空间是如此浩瀚,以至于我们已经探索过的区域,相比于其整体,不过是沧海一粟。在化学合成中,我们的目标就是在这个空间中,找到一条从简单、易得的起始物通往目标分子的有效路径。
第二个是蛋白质序列空间(protein sequence space)。同样,这是由氨基酸排列组合所构成的所有可能的蛋白质序列的集合。仅仅是一条包含100个氨基酸的短肽链,其理论上的序列可能性就已超过了宇宙中原子的总数。酶,作为蛋白质大家族的一员,占据了这个空间的广阔疆域。每一种独特的序列都可能折叠成一个独特的三维结构,拥有其独特的催化功能。
长期以来,这两个 世界 的联系是微弱且零散的。我们对生物催化的认知,大多建立在少数已知的 连接点 上,即被实验验证过的酶-底物反应对。当化学家们希望利用生物催化时,他们通常采用一种被称为 局部探索(local exploration) 的策略。例如,他们会从一个已知的反应出发,尝试让同一个酶催化与原底物结构相似的分子(在化学空间中进行局部探索),或者通过蛋白质工程(protein engineering)的手段,对已知的酶进行微小的改造,以期提升其对特定底物的催化活性(在蛋白质序列空间中进行局部探索)。一个经典的例子是,为了合成一种名为西他沙星(sitagliptin)的降糖药,研究人员对一种转氨酶(transaminase)进行了多达26个氨基酸位点的突变,最终使其活性提升了惊人的50万倍。
这种 局部探索 的策略无疑是有效的,但它有一个根本性的局限:我们始终在已知的 连接点 附近徘徊,就像是只敢在熟悉的岛屿周围进行浅滩航行,而不敢驶向广阔而未知的深海。问题的关键在于,根据基因组测序数据,超过99.7%的酶,其确切的催化功能至今仍是一个谜。它们是蛋白质序列空间中沉睡的巨人,蕴藏着无法估量的催化潜力,却因为我们不知道它们对应的 化学钥匙 是什么,而无法被唤醒。这种巨大的知识鸿沟,正是阻碍生物催化发挥其全部潜力的核心症结。
绘制未知大陆:一场构建生化反应地图的 蛮力 远征
任何宏伟的理论或模型,都必须建立在坚实的数据基础之上。为了给后续的机器学习模型提供充足的 燃料 ,研究人员发起了一场规模浩大的实验行动,其目标简单而明确:系统性地探索一个特定酶家族的催化能力,尽可能多地发现新的酶-底物反应对。
他们选择的 主角 是一个名为 -酮戊二酸( -ketoglutarate, -KG)/Fe(II)依赖性非血红素铁酶(non-heme iron(II)-dependent enzymes, NHI)的大家族。这个选择非常巧妙。首先,这类酶的化学能力极为多样,它们是自然界的 瑞士军刀 ,能够催化一系列高价值的化学反应,如C-H键的羟基化(hydroxylation)、去饱和(desaturation)、卤化(halogenation)乃至复杂的骨架重排(skeletal rearrangements)。其次,它们具有实际应用上的便利性,相比于需要复杂辅助因子再生系统的细胞色素P450酶(cytochrome P450 enzymes)等,这类酶的反应条件更为统一和温和。
接下来是构建一个能够代表该酶家族多样性的 勘探队 ,一个精心设计的酶库(enzyme library),研究人员将其命名为aKGLib1。他们首先从公共数据库中收集了所有带有该家族保守特征的酶序列,总数高达惊人的265,632条。为此,他们运用了一种强大的工具,序列相似性网络(Sequence Similarity Network, SSN)。通过这种方式,他们最终精心挑选出314种酶作为aKGLib1的成员。
这个酶库的设计非常巧妙。它策略性地覆盖了整个序列网络的不同区域,确保了极高的多样性。数据显示,库中酶序列之间的平均一致性仅为13.7%,这意味着它们在进化上相距遥远。更令人兴奋的是,这314种酶中,有多达70%是从未被研究过的 未知酶(uncharacterized enzymes) 。在后续的实验中,这个酶库的成员有高达78%成功地在大肠杆菌(E. coli)中得到了过量表达,为后续的活性筛选奠定了坚实的基础。
勘探队 组建完毕,接下来就是为它们提供足够多样化的 勘探目标 ,底物库(substrate library)。研究人员准备了超过100种不同的化合物,其成员既包括了简单的化学砌块(chemical building blocks),也涵盖了结构复杂的天然产物、药物分子。
万事俱备,一场高通量的生化反应 大阅兵 正式拉开帷幕。在一个个96孔板(96-well plates)中,314种酶与111种底物被两两配对,进行了数万次的微型反应。这场规模宏大的实验筛选,结果斐然。在测试的111种底物中,有35种(占比32%)被至少一种酶成功转化。而在314种酶中,有119种(占比38%)表现出了催化活性。最核心的成果是,这次筛选总共发现了215个全新的生物催化反应!这些新发现的反应,构成了一个前所未有的高质量数据集,研究人员将其命名为BioCatSet1。
AI导航员CATNIP的诞生
拥有了BioCatSet1这份宝贵的数据集,就如同拥有了一本记载着众多成功 配对 案例的 婚姻登记册 。然而,我们真正需要的是一位能够从这些案例中学习、总结规律,并能预测新的 潜在情侣 的 媒婆 。这,正是机器学习(machine learning)的用武之地。
第一步,也是至关重要的一步,是如何将分子和蛋白质 翻译 成机器能够理解的语言。对于小分子底物,通过一个名为MORFEUS的计算化学软件,为每个分子计算出一套包含21个参数的 数字指纹 。对于酶,研究人员则利用它们在序列相似性网络(SSN)中的 关系远近 来量化。
数据准备就绪后,研究团队设计并训练了一个名为CATNIP(Catalytic Activity NItrogenase Predictor)的机器学习模型。这个模型的核心是一种被称为梯度提升决策树(Gradient Boosted Decision Tree, GBM)的强大算法。您可以将其想象成一个由许多 决策专家 (决策树)组成的 专家委员会 ,通过集思广益、不断迭代优化的方式,能够学习到化学空间和蛋白质序列空间之间极其复杂、非线性的内在联系。
CATNIP被设计为具备两种核心的预测功能:
1.底物导向(Substrate-to-Enzyme)预测:用户输入一个感兴趣的分子结构。CATNIP会分析其化学特征,最终通过GBM模型,输出一个经过排序的酶列表。列表顶端的酶,就是AI认为最有可能催化该输入分子的 候选者 。
2.酶导向(Enzyme-to-Substrate)预测:用户输入一条酶的氨基酸序列。CATNIP会分析其序列特征,最终输出一个排序后的底物列表,预测该输入酶可能具有的 口味偏好 。
一个模型的好坏,必须用数据来验证。结果显示,以底物导向预测为例,在模型给出的排名前10的酶预测中,找到一个真正有效的酶的概率,比随机从酶库中挑选10个酶高出7倍以上。这意味着CATNIP能够极大地缩小实验筛选的范围,将化学家从 大海捞针 的困境中解放出来,让他们能够有的放矢地进行实验验证。AI导航员已经诞生,现在,是时候让它在真实世界的 战场 上证明自己的价值了。
见证奇迹的时刻:CATNIP在真实世界中的 实战 考验
理论和模型的优越性,最终要通过实验的 硬碰硬 来检验。研究团队设计了一系列严谨的实验,来验证CATNIP的预测能力是否名副其实。
实战案例一:为新 钥匙 寻找匹配的 锁 (底物导向验证)
研究人员首先向CATNIP提出了一个挑战:找到能够转化(-)-鹰爪豆碱(sparteine)的酶。CATNIP迅速响应,给出了一个包含10个候选酶的预测列表。实验团队按照这份 藏宝图 进行验证,结果令人振奋:预测列表中的10个酶,竟然有7个都成功地催化了该反应!研究人员选择了其中活性最好的一个酶,进行了克级的制备规模反应,最终以35%的分离收率得到了新的羟基化产物。
为了进一步测试模型的极限,他们又输入了另外两种更为复杂的分子。一种是天然产物苦参碱(matridine),CATNIP预测的10个候选酶中同样有7个显现活性,最佳的酶以高达50%的收率得到了产物。另一个是类固醇衍生物,CATNIP的预测再次引领实验人员发现了多个活性酶,并且催化了一种罕见的氧化性烯烃裂解(oxidative alkene cleavage)反应,以12%的收率分离得到产物。CATNIP不仅找到了针,甚至还发现了一根前所未见的 金针 。
实战案例二:为新 锁 描绘其功能画像(酶导向验证)
接下来,挑战升级。研究人员将一个在测试集中的酶NHI123的序列输入CATNIP。CATNIP通过分析其序列特征,预测出它可能偏好于催化一类单环或双环的含氧小分子。模型给出的排名第一的候选底物,在实验中被完美验证,证明了CATNIP不仅能为 钥匙 找 锁 ,还能为 锁 画像,揭示其潜在的功能。
实战案例三:终极考验 预测 编外 成员的能力
最严苛的考验,是预测一个完全在原始数据集之外的酶。研究人员选择了一个来自紫色链霉菌的酶TqaL,这个酶的序列从未被CATNIP 见过 。他们将TqaL的序列输入CATNIP,模型依然给出了一个它可能偏好的底物预测列表。研究人员测试了排名前12的候选底物,结果发现其中有4个能够被TqaL成功氧化。特别是排名第二的预测底物,其转化率高达42%!
这个结果具有里程碑式的意义。它证明了CATNIP的预测能力是可泛化的,它不仅仅是其内部训练数据的 复读机 ,而是真正掌握了化学空间与蛋白质序列空间之间深层联系的 逻辑 ,能够将其知识外推到全新的、未知的酶和底物上。
开启化学合成的新范式
CATNIP的成功,远不止是开发了一个好用的在线工具。它的深远意义在于,为整个生物催化领域,乃至化学合成领域,开创了一种全新的研究范式。
这项工作的核心,是一种 数据驱动(data-driven) 的闭环策略:首先,通过高通量、多样性导向的实验,大规模地生成原始数据;然后,利用先进的机器学习模型对这些数据进行深度挖掘,构建出具有强大预测能力的工具;最后,利用这个工具指导新的、高度聚焦的实验,从而高效地发现新的化学反应和催化剂。这个循环一旦启动,每一次新的发现都会反哺数据集,使模型变得更加精准和强大。
这种新范式有效地 去风险化(derisk) 了生物催化的应用。过去,化学家在合成路线中引入一个酶催化步骤,就像是一场赌博。而现在,借助CATNIP,他们可以在实验开始前就获得一份高置信度的候选酶列表,将 广撒网 式的筛选变成了 精确制导 的验证,极大地节约了时间和资源成本,使得生物催化成为一个更加可靠和吸引人的选项。
当然,这项工作只是一个开始。目前CATNIP聚焦于一个酶家族,但其背后的方法论是普适的。我们可以预见,这一策略将被迅速推广到其他更广阔、更重要的酶家族。每一个新家族的 地图 被绘制出来,都将为化学合成解锁一片全新的天地,带来前所未有的创造可能。
从 炼金术 的古老幻想,到现代化学的精准控制,我们对物质转化的追求从未停止。今天,人工智能与高通量生物学的巧妙结合,为我们提供了一把前所未有的钥匙,去开启自然界亿万年进化所铸就的催化宝库。我们正站在一个新时代的入口,一个由数据和智能驱动的化学合成时代的入口。CATNIP和它所代表的范式,正是这新时代的第一缕曙光。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->