Nature:王者换代?AI设计的OpenCRISPR-1正式挑战Cas9霸主地位,开启基因编辑新范式
时间:2025-08-05
在开启 创造 之旅前,我们必须先回答一个根本问题:我们的起点在哪里?任何伟大的创造都离不开对现有知识的深度学习。对于AI而言,数据就是它的 教科书 。如果想让AI设计出功能强大的CRISPR系统,首先就需要为它提供一个规模空前、多样性丰富的 CRISPR知识库 。
自然界是生命分子最伟大的图书馆,蕴藏着数不尽的CRISPR-Cas系统。然而,我们目前所使用的工具,仅仅是这座图书馆中被翻阅过的寥寥数页。大量的、未知的CRISPR系统仍静静地沉睡在庞大的基因组和宏基因组数据海洋中,等待被唤醒。传统的数据库,如UniProt,虽然收录了海量蛋白质信息,但在CRISPR系统的多样性和完整性上仍有欠缺。
为了构建一个真正全面的知识库,研究人员发起了一项雄心勃勃的数据挖掘计划。他们动用强大的计算资源,对总计高达26.2太字节(terabases)的已组装微生物基因组和宏基因组数据进行了地毯式搜索。这个数据量是什么概念?它相当于数万个人类基因组的总和。通过一个定制化的、高度复杂的分析流程,他们成功地鉴定和注释了超过124万个CRISPR操纵子(operons)。
这个被他们命名为CRISPR-Cas Atlas的庞大资源库,其规模和多样性远超以往。数据显示,在所有的Cas蛋白家族中,CRISPR-Cas Atlas包含的蛋白质簇(protein clusters,在70%序列相似度下聚类)数量平均是UniProt数据库的2.7倍。而对于我们最熟悉、应用最广泛的Cas9家族,这一数字更是达到了惊人的4.1倍。这意味着研究人员发现了一个比以往任何时候都更加广阔、更加多样的Cas9蛋白 新大陆 。
这个宝库的建成,不仅仅是数量上的堆砌。它系统性地整理了Cas蛋白、CRISPR重复序列、以及至关重要的、指导Cas蛋白功能的tracrRNA(反式激活CRISPR RNA)等关键组件。这好比不仅找到了无数把锁(Cas蛋白),还同时找到了与之匹配的钥匙(guide RNA),为后续AI的学习和设计提供了结构完整、功能关联的宝贵素材。可以说,CRISPR-Cas Atlas如同一部前所未有的CRISPR百科全书,为AI的 学习 提供了最坚实的基础,也为我们揭示了生命演化在基因编辑领域中令人震撼的创造力。
AI通晓 蛋白语 :从学习者到创造者拥有了这座宝库,下一步就是如何让AI读懂并运用其中的知识。研究人员采用的AI模型,是一种大型语言模型(Large Language Model, LLM),与我们熟知的ChatGPT等模型师出同门。但它学习的不是人类的语言,而是生命的语言 蛋白质序列。
想象一下,蛋白质就是由20种氨基酸 字母 组成的复杂 文章 。这些文章的写法(序列)决定了它的三维结构和生物学功能(意义)。蛋白质语言模型的核心思想,就是通过学习海量的天然蛋白质序列,掌握这门语言的 语法规则 和 内在逻辑 。它要理解哪些氨基酸组合是合理的,哪些序列片段倾向于共同出现(共演化),以及这些规律如何最终导向一个稳定且具备特定功能的蛋白质。
研究人员的策略分为两步,体现了一种从 通才 到 专才 的巧妙培养过程:首先是通用预训练 (Universal Pretraining),在一个包含5亿个不同蛋白质序列的巨大数据集上对模型进行 通识教育 ,让其掌握普适性规则。随后是专业化微调 (Fine-tuning),将AI的注意力引向刚刚构建的CRISPR-Cas Atlas,使其迅速成长为CRISPR领域的 专家 。
学有所成之后,AI便从一个 学习者 转变为一个 创造者 。研究人员让这个经过微调的模型开始 写作 生成全新的、自然界中不存在的CRISPR-Cas蛋白质序列。结果令人震惊:模型总共生成了400万条全新的蛋白质序列。经过严格的筛选和去重,这些AI生成的序列极大地扩展了我们已知的CRISPR蛋白多样性,整体上实现了4.8倍的增长。对于某些天然样本较少的家族,如Cas12a和Cas13,多样性增长更是分别达到了6.2倍和8.4倍。
这些新序列并非对天然蛋白的简单模仿。数据显示,AI生成的序列与CRISPR-Cas Atlas中亲缘关系最近的天然蛋白质,其序列一致性(sequence identity)通常只有40%到60%。这意味着它们在序列空间上与已知蛋白相距甚远。然而,当研究人员使用AlphaFold2来预测这些全新序列的结构时,发现高达81.65%的序列都能被高置信度地预测为稳定的三维结构(pLDDT 80)。这表明,AI不仅学会了 遣词造句 ,更深刻理解了蛋白质序列背后关乎折叠和功能的 语法逻辑 ,能够创造出既新颖又合理的蛋白质 文章 。这为后续筛选出真正具备功能的基因编辑器奠定了坚实的基础。
青出于蓝:OpenCRISPR-1的惊艳首秀在AI生成的数百万个候选序列中,研究团队面临着一个幸福的烦恼:如何找到那个万里挑一的 天选之子 ?他们的目标非常明确:创造一个性能比肩甚至超越当前 黄金标准 SpCas9(来自化脓性链球菌的Cas9蛋白)的全新编辑器。
为了缩小范围,他们采用了一种 引导式 生成策略。他们以SpCas9的序列片段(如N端或C端的PID结构域)作为 引子 或 提示 (prompt),引导AI模型生成与之功能兼容但序列新颖的Cas9样蛋白。经过一系列计算筛选,包括评估其与SpCas9的PAM和tracrRNA兼容性等,他们最终挑选出209个候选蛋白,进入了严苛的 实战考核 在人类细胞(HEK293T细胞)中进行基因编辑实验。
在这209位 选手中 ,一个名为PF-CAS-182的蛋白脱颖而出,展现出卓越的性能。由于其出色的表现和开放共享的初衷,研究人员将其命名为OpenCRISPR-1。它的惊艳之处,主要体现在两个核心指标上:高活性(on-target activity)和高精度(specificity)。
首先,看活性。在多个预设的人类基因组靶点上,OpenCRISPR-1展现了与SpCas9旗鼓相当甚至更胜一筹的编辑效率。在一项涵盖48个经过充分验证的生成蛋白的测试中,OpenCRISPR-1在靶向位点引发的插入和缺失(indel)突变的中位效率达到了56.4%,而SpCas9为47.1%。这说明,作为一个完全由AI设计的 人造物 ,它的 刀 足够锋利,工作效率毫不逊色于身经百战的天然冠军。
其次,也是更关键的,是精度。基因编辑的 脱靶效应 是其临床应用道路上最大的拦路虎之一。一把理想的 分子手术刀 ,不仅要切得准,更要保证只切在该切的地方。在这方面,OpenCRISPR-1的表现堪称典范。研究数据显示,在已知的SpCas9脱靶位点上,OpenCRISPR-1的编辑活性实现了高达95%的降低(中位脱靶率从SpCas9的6.1%降至0.32%)。
为了更全面地评估其全基因组范围内的特异性,研究人员使用了名为SITE-Seq的 unbiased(无偏)检测技术。结果再次证实了OpenCRISPR-1的超高保真度。在所有测试条件下,OpenCRISPR-1的在靶切割事件占总切割事件的比例都远高于SpCas9。更重要的是,OpenCRISPR-1的脱靶位点是SpCas9脱靶位点的一个子集。这意味着它不会引入新的、不可预测的脱靶风险,只是在SpCas9原有的 火力范围 内进行了更的 定点清除 。
OpenCRISPR-1的成功,最令人赞叹的是其序列的极端新颖性。它与SpCas9之间存在着403个氨基酸的差异,与其在自然界中最接近的 亲戚 (来自Streptococcus cristatus的Cas9)也有182个氨基酸不同。如此巨大的序列差异,却能实现如此高效且精准的功能,这有力地证明了AI语言模型已经掌握了超越简单序列模仿的、深层次的设计原理。它不是对自然的修补,而是一次真正意义上的 再创造 。
不止于剪切:一位多才多艺的 基因编辑瑞士军刀一个顶级的基因编辑器,除了要快、要准,还应该具备 多才多艺 的潜力,以适应日益复杂的应用需求。研究团队对OpenCRISPR-1的探索并未止步于简单的基因敲除,他们进一步验证了它作为平台工具的通用性。
PAM识别的灵活性与严谨性。PAM(protospacer-adjacent motif)是CRISPR系统识别靶点的 路标 ,大多数Cas9蛋白都严格依赖特定的PAM序列(SpCas9通常识别NGG)。研究人员测试了OpenCRISPR-1在不同PAM序列下的表现,结果揭示了一种巧妙的平衡:在标准的NGG靶点上,它的活性与SpCas9相当。然而,当PAM序列存在错配时(如NGC, NGT等),OpenCRISPR-1的活性出现了数倍的显著下降(P值 = 0.0005)。这说明OpenCRISPR-1对PAM的识别更为 严谨 ,在保持高效活性的同时,减少了对错误 路标 的响应,进一步增强了其安全性。
与碱基编辑(Base Editing)的无缝兼容。碱基编辑是一种更为精细的基因编辑技术。研究人员将OpenCRISPR-1改造为切口酶形式(D10A突变),并与一个高效的腺嘌呤脱氨酶(ABE8.20)融合。在人类细胞中的测试表明,这个基于OpenCRISPR-1的碱基编辑器表现出色,在多个靶点上实现了35%至60%的A到G转换效率,与基于SpCas9的系统不相上下。这证明OpenCRISPR-1拥有出色的平台兼容性,可以作为 底盘 搭载不同的功能模块。
潜在的低原性。对于将基因编辑技术用于人体治疗而言,免疫原性是另一个必须翻越的大山。研究人员通过iELISA(间接酶联免疫吸附试验)检测了OpenCRISPR-1与40位健康人血清中抗体的结合能力。结果令人鼓舞:与SpCas9相比,这些AI设计的蛋白所结合的人类抗体量都显著更低。同时,生物信息学分析也显示,OpenCRISPR-1序列中缺少了数个已知的SpCas9免疫显性T细胞表位。这些初步证据共同指向一个令人兴奋的可能性:通过AI设计,我们或许能够创造出免疫原性更低、更适合临床应用的 隐形 基因编辑器。
AI设计,是昙花一现还是范式革命?OpenCRISPR-1的成功无疑是一个里程碑,但它究竟是偶然的幸运,还是代表着一种全新的、可复制的 范式革命 ?为了回答这个问题,研究人员进行了一场 华山论剑 ,将他们的语言模型方法与其他主流的蛋白质设计策略进行了正面比较。
自然挖掘 (Natural Mining):从数据库中找到的与SpCas9序列相似度在57%-71%之间的天然蛋白。
进化方法 (Evolutionary Methods):包括基于多序列比对的共有序列设计(Consensus Design)、祖先序列重建(Ancestral Reconstruction)、隐马尔可夫模型(HMM)等。
结构方法 (Structure-based Methods):以LigandMPNN为代表,该方法依赖于已知的蛋白质三维结构来设计新的序列。
实验结果清晰地展示了不同策略的优劣。自然挖掘的蛋白活性参差不齐。基于进化信息的方法能够产生一些有活性的蛋白,但成功率不高。而基于结构的LigandMPNN方法设计的序列则几乎完全没有活性。与之形成鲜明对比的是,基于大型语言模型的方法,诞生了像OpenCRISPR-1这样众多高活性的候选者。
这场对比说明了大型语言模型方法的独特优势。为什么会这样?对于像Cas9这样功能极其复杂的蛋白质,其行使功能不仅需要一个精确的三维结构,还需要在动态过程中与其他分子进行复杂的相互作用。大型语言模型通过学习海量序列,隐式地捕捉了蛋白质序列中蕴含的 共演化蓝图 和 功能约束 。它学的不是一个静态的形状,而是一整套决定其如何折叠、运动和 对话 的深层规则。这使其在设计复杂功能蛋白方面展现出无与伦比的潜力。
这项工作不仅仅是创造了一个新的工具,更是建立了一套全新的 设计哲学 。它证明了,通过将海量自然数据与强大的AI模型相结合,我们有能力系统性地探索和优化生命分子,其深度和广度是传统方法难以企及的。CRISPR-Cas Atlas的建立,意味着我们现在拥有一个前所未有的 设计素材库 。今天,研究人员用它生成了OpenCRISPR-1;明天,他们或许就可以用它来训练能够 定制 出满足各种严苛需求的、真正 量体裁衣 的基因编辑器。
OpenCRISPR-1的诞生,是AI赋能生命科学研究的一个缩影。这不再是一个只能在自然界 寻宝 的时代,而是一个我们可以手握 创世蓝图 ,与AI一同设计和创造生命分子的新纪元。这趟旅程才刚刚开始,前方的风景,必将更加波澜壮阔。
版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。 87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->