华大智造AI智能体成果登Nature子刊:靶向测序引物设计工具PrimeGen

时间:2025-07-31

2025年7月30日,华大智造杨梦团队联合泰国朱拉隆功大学Nattiya Hirankarn教授在Nature子刊Nature Biomedical Engineering杂志上在线发表文章,发布了名为 PrimeGen 的干湿协同多智能体系统。这也是继该团队在Nature Machine Intelligence杂志上发表蛋白自博弈AI智能体后,时隔两年再度发表AI相关文章。

科学研究的范式革命已然兴起,其前沿图景 自驾实验室 (Self-driving laboratories) 正从一个酝酿数十年的构想转变为工程现实。这一理念源于20世纪70年代的闭环自动化化学,如今在人工智能、机器人技术和高性能计算的驱动下,已演进为能够自主执行 假说-实验-分析-优化 完整科研闭环的智能系统。其颠覆性的潜力使其被权威期刊《自然》列为2025年值得关注的七大技术之一,标志着它已从一个长远的技术愿景,演变为正在重塑科学发现范式的核心引擎。尽管自驾实验室在化学合成等领域已取得显著进展,但其在生命科学领域的应用面临着更为严峻的挑战。这不仅源于生物实验固有的高变异性与随机性对过程控制提出的苛刻要求,也因为生物系统内在的计算复杂性(如分子设计中巨大的组合搜索空间)对优化策略构成了严峻考验。

华大智造的PrimeGen系统,正是应对这些挑战的强力践行者。该系统以靶向测序引物设计这一复杂生物学问题为突破口,构建了一个由大型语言模型(LLM)协调多个专业智能体(Agent)的先进架构,实现了从用户自然语言输入到AI自主完成序列检索、引物设计、机器人协议生成和实验过程监控的端到端完整工作流。它所攻克的靶向测序引物设计,是生物学复杂性的一个典型缩影:其内在的 组合爆炸 难题,要求在指数级增长的潜在干扰组合中寻找最优解,形成一个巨大的、高度约束的离散优化空间,这比许多自动化化学任务更为复杂。

这种将海量组合优化与 干湿实验 深度闭环的工程实践,正是华大智造 实验室智能自动化 (GLI)业务的一个优秀范例。GLI业务旨在将AI技术全面融入生命科技工具,推动实验室从 人工经验 向 数据驱动 的智能范式进化,其最终目标正是通过构建软硬件深度协同、数据驱动决策的闭环系统,将传统的自动化实验室升级为能够自主运行的 自动驾驶实验室 。

在呼吸道流行季,公共卫生实验室面临着与时间赛跑的挑战:需要快速识别流行毒株、追踪传播链并监测耐药性。要实现高效的检测,关键在于为目标基因片段设计合适的引物 这相当于为检测系统配制专属 钥匙 。引物与目标序列的关系如同钥匙与锁:必须精确匹配,确保只识别特定目标;同时还要在多重PCR反应中,与数百对引物协同工作而不相互干扰。

优质的引物设计需要兼顾多重标准:特异性(不打到非目标位点)、退火温度(Tm)匹配等,并尽量避开关键位点(如3 端错配风险)。更大的挑战在于多重PCR检测:当反应体系中包含数百对引物时,每对引物既要保持自身的高效性,又要避免与其他引物产生干扰。随着目标数增加,候选组合呈指数级膨胀,而面板中共有m条引物时,潜在引物二聚体/交叉二聚体的成对检查负担接近 O(m )。再叠加基因组同源区、重复序列、样本差异等因素,传统的设计方法或单一工具往往需要多次调试,难以在高多重化场景下同时获得高特异性、高均匀性、低二聚体的稳健方案。

PrimeGen的使命,就是将这一 组合爆炸 的复杂问题,转化为易于使用、可广泛复用的工程化解决方案。系统采用辅助式设计嵌入实验室工作流,研究人员只需用自然语言描述实验目标,即可触发一系列自动化流程,包括目标序列锁定、候选引物与扩增子布局生成、实验协议代码块(APB)组装、液体处理机器人脚本生成、多视角视觉语言模型(VLM)质控、结果回写与参数微调,最终形成完整的实验闭环,同时在关键决策节点仍由人工把控,确保安全性与可控性。

系统由四大智能体协同运作,各司其职(如图1所示):

搜索智能体:精准定位目标序列,确保覆盖范围合理;

引物智能体:在高通量条件下优化引物设计,最大限度降低二聚体风险并提升扩增均匀性;

协议智能体:将文献方法与标准操作流程(SOP)转化为可执行脚本;

实验智能体:通过实时视觉监测实验关键步骤,提高操作稳定性。

上游,搜索智能体与引物智能体协同完成目标序列定位和高通量引物布局,确保设计合理、特异性强;中段,协议智能体将设计结果转化为可执行的实验协议代码块(APB,Assembly of Protocol Blocks),以统一策略生成可在不同平台运行的实验脚本,并高度适配多种多重扩增化学体系;下游,实验智能体通过多视角视觉语言模型(VLM)实时监测实验关键步骤,识别潜在异常并记录审计轨迹。得益于这一结构化架构,PrimeGen 即使在高达955个扩增子(amplicons)的超高通量条件下,仍能保持优异的扩增均匀性,显著降低引物二聚体风险,从而有效减少重复实验次数、提升实验稳定性,并整体降低时间与成本开销。系统运行周期的具体优化幅度将根据任务规模、人工审校流程与实验组织方式的不同而有所差异。

华大智造副总裁、论文通讯作者杨梦博士表示: PrimeGen的突破验证了将先进AI智能体与我们的自动化硬件平台(如AlphaTool)深度融合的巨大潜力,也是华大智造实验室智能自动化业务为科研人员赋能的优秀范例。未来,我们将持续帮助客户打通实验室 干实验 与 湿实验 全链路,构建 设计 执行 优化 的自进化闭环。

图1.PrimeGen功能总览图

01 Search Agent 搜索智能体

精准锁定目标基因,生物领域的AI雷达

传统的基因目标检索需要科研人员耗时耗力地手动查阅数据库。PrimeGen的搜索智能体能快速理解用户需求,自动从NCBI等权威数据库中检索目标序列。无论是病原微生物、癌症、耐药性相关基因与位点,都能通过对话精准检索,能够涵盖大多数高通量测序典型应用场景。

例如,在等流行病原检测的测序任务中,它能快速提取靶标序列的保守区域;在遗传病场景中,它可以智能合并靶标序列的邻近编码区,对引物设计进行整体考虑,避免引物冲突;面对模糊提问时,搜索智能体也能通过 ReAct 机制内部优化检索精度。同时提供人工介入机制(Human-in-the-loop)来保证序列检索结果的可靠性,再将结果传递给引物设计环节。

图2.搜索智能体检索目标序列

图3.搜索智能体检索路径图

02 Primer Agent 引物设计智能体

最小化引物二聚体,优化效率提升10倍

引物设计不仅要覆盖目标区域,还需避免引物之间因错误结合而形成的二聚体。PrimeGen的引物设计智能体开创了 滑动窗口+LLM 迭代 的双引擎机制:通过滑动窗口筛选引物并严格把控设计参数,基于历史记忆迭代的LLM优化器进行引物优化,将二聚体率压到 1%。

引物设计智能体在湿实验反馈中,能够实现自动微调参数,无需人工反复调试。PrimeGen的高性能引物设计能力结合ATOPlex多重扩增技术,实现靶标区域的高效扩增。在新冠全基因组测序的应用中,对低拷贝数样本实现 99.8%基因组覆盖(10 );在拓展性遗传性疾病筛查(ECS)应用中, 针对22个复杂基因(包含高同源区域等),成功设计958重(958-plex)的扩增引物池,其产生的二聚体比率低至0.9% 0.3%,显著领先行业内水平。

图4.大模型推理优化引物池示意图

图5.LLM驱动 vs 传统算法的引物二聚体优化曲线图

图6.搜索与引物设计智能体的真实运行预览

03 Protocol Agent 实验脚本设计智能体

实验协议 一键生成 ,仪器自动执行

传统实验流程中,从引物设计到实验操作,主要依赖人工来编写繁琐的设备运行脚本。

基于华大智造在多重PCR与建库实验中积累的大量高质量标准操作流程,以及移液工作站 AlphaTool开放 API 的可编程特性,PrimeGen 的实验脚本设计智能体由此诞生,具备了自动化生成实验流程的能力。

现在,实验脚本设计智能体先通过两步法,即任务拆解模式将建库Kit说明书分解成多个子任务(sub-task)后,基于实验逻辑通过检索增强(RAG)技术组装模块化脚本(APB),产出可执行的仪器脚本。现有 28 个可调模块(PCR、磁珠纯化等),能自适应生成所有PCR任务的流程及其代码。

图7.远程设计Protocol与设备脚本示意图

图8.实验脚本设计智能体的处理流程图

04 Experiment Agent 实验执行智能体

三只 眼睛 守护实验,异常及时反馈修复

实验过程中的移液错误、磁珠混合不均等问题常导致结果偏差。为此,PrimeGen引入搭载视觉语言模型(VLM)的实验执行智能体,通过三路摄像头这 三只眼睛 来实时捕捉异常。VLM是一种能同时 看图 和 理解语言 的人工智能技术,相比只能识别固定目标的传统方法(如YOLO),它还能理解语境并生成解释,更适合处理动态、多变的实验异常。本方案三路摄像头如下:

顶部摄像头:监控实验布局,确保模块位置正确。

移液臂摄像头:检测吸头损坏、液体残留等问题*。

底部摄像头:分析磁珠混匀混合状态,自动调整参数后重试*。

标*项目为理论探索阶段,非标准产品。

在自研的训练模式下,Qwen2-VL-7B模型微调的多视角异常识别准确率达87%。例如,在磁珠纯化步骤中,它能发现混合不充分的情况,并触发自适应专家提示以调整流速,在尝试修复异常的同时保障实验稳定性。

图9.异常检测多视角示意图

图10.多视角实验执行智能体视觉检测逻辑图

四体联动=全流程无感智能

PrimeGen 作为智能化协同系统重构从 引物设计 到 实验执行 的端到端流程。

通过 搜索、设计、协议、实验 四大智能体联动,PrimeGen 注入自然语言交互与大模型能力,全面提升平台智能化水平。其引物设计模块优化多重扩增体系,提升设计效率与实验成功率;协议与执行模块则支持脚本自动生成和多模态反馈,增强流程稳定性与自动化能力。

PrimeGen可无缝调度四大智能体,支持GPT-4o/Qwen/DeepSeek/GLM等国内外AI模型自由切换,适配不同算力环境。从样本进来到报告产出,AI全程接管,从搜索、设计、代码到实验的全流程,干湿闭合,环环相扣,减少人工介入,真正实现「检测方案个性化设计+实验室流程智能执行」!

未来,PrimeGen 将深度嵌入ATOPlex Fast产品体系,成为其智能驱动核心,进一步推动靶向测序向更高效、更自动化的方向演进。ATOPlex Fast首款靶向测序产品 ATOPlex Fast呼吸道合胞病毒A/B型(RSV A/B)全基因组建库试剂盒将于8月上市。该产品采用RT-PCR单管扩增,4h完成建库,覆盖 99.5%的RSV A/B型全基因组序列,并适配DNBSEQ、CycloneSEQ等市面上所有高通量及单分子测序平台,助力靶向基因组研究全面进入8小时时代。

05GLI 驱动实验室智能进化

PrimeGen文章是一个很好的范例,展示了桌面级实验室和可编程的实验室系统为科研人员赋能,打通实验室 干实验 与 湿实验 全链路,加速AI+生命科学的前沿研究。

华大智造今年推出的实验室智能自动化GLI业务,标志着公司将AI技术全面融入生命科技工具领域。GLI业务对公司原有的"实验室自动化业务"进行了智能技术升级,以先进的"实验室智能自动化"工具和平台为GBI(Generative Bio Intelligence,生成式生物智能)提供底层支撑,从"人工经验"向"数据驱动"决策的智能范式进化,旨在帮助传统的实验室自动化用户突破数据-算法的互哺瓶颈,更快落地实验室软硬件和整体运行效果,加快发挥 AI+生命科学 的无限潜能。

从Lab as a Cube 到Lab as a factory,GLI赋能客户建立干湿闭环的数据飞轮,帮助不同行业的实验室用户在短时间内快速具备平台式可复用的 AI+ 应用集成能力。

英伟达NVIDIA首席执行官黄仁勋在今年COMPUTEX 2025大会上,将数据中心比喻为 智造AI的工厂 ,指出人工智能正从 能聊天 迈向 能自主行动 的基础设施;红杉资本在4月发布的《AI 50 2025》报告亦强调,年度最大机遇在于智能体闭环贯通整条企业工作流。德勤预测,到2025年将有四分之一企业采用生成式 AI 部署智能体,至2027年这一比例有望翻倍,硅谷媒体已将此浪潮称为 最后一公里自动化 。

华大智造正以 PrimeGen 多智能体系统为生命科学的这 最后一公里 开辟智能新范式 从基因检索、引物设计到自动化实验,全流程由 AI 协同完成,智能自动化GLI赋能生命科学智能革命,引领实验室从自动化走向自主化。

华大智造杨梦,泰国朱拉隆功大学Nattiya Hirankarn教授为文章共同通讯作者。华大智造王艺、后粤杰、杨林、李士森是文章的第一作者。

此项研究得到了中华人民共和国科学技术部 国家重点研发计划 (2022YFF1202200)的支持。GLI提供软件系统和硬件支持,其中 Lab Studio提供软件平台,硬件平台由AlphaTool提供。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

100医药网 www.100yiyao.net
版权所有 © 2019-2020 Design by Dongyan