Nature Methods：基因“看见”形态，图像“听懂”基因：OmiCLIP如何打破生命科学的“巴别塔”？-100医药网

Nature Methods：基因“看见”形态，图像“听懂”基因：OmiCLIP如何打破生命科学的“巴别塔”？

时间：2025-06-09

数据洪流中的巴别塔图像与基因的隔阂

在生物医学研究中，数据如潮水般涌来。我们拥有了惊人的能力来捕捉生命的细节。

组织病理图像（Histopathology Image）：例如，常用于临床的苏木精和伊红（Hematoxylin and Eosin, H E）染色图像，它以其独特的色彩和形态，直观地展现了组织的结构、细胞的分布以及病变特征，是医生诊断疾病（尤其是癌症）的金标准。这些图像承载着丰富的形态学信息。

组学数据（Omics Data）：这是一个庞大的家族，包括基因组学（Genomics）、转录组学（Transcriptomics）、蛋白质组学（Proteomics）等。其中，空间转录组学（Spatial Transcriptomics, ST）技术犹如一双火眼金睛，它不仅能告诉我们特定组织区域内有哪些基因正在表达，还能精准定位这些基因表达的空间坐标，让我们得以在保留组织微环境完整性的前提下，探索基因活动与组织结构之间的精微联系。

然而，尽管这些数据各自都蕴含着巨大的价值，但它们之间却存在一道难以逾越的巴别塔：

传统的计算模型往往像专才，它们要么精通图像分析，能够识别病灶、量化细胞特征；要么擅长组学分析，能从海量基因数据中挖掘生物学通路、预测细胞类型。但问题是，这些专才往往各自为战，无法将图像的形态学信息与组学的分子生物学信息进行深度融合，形成一个统一、全面的理解。这种信息碎片化，极大地限制了我们对疾病发生发展机制的整体把握，也阻碍了精准医疗的进一步发展。

OmiCLIP 的诞生，正是为了打破这道巴别塔，让图像与基因的语言实现互通。它不仅要让AI 看懂组织形态，更要读懂潜藏在形态之下的分子生物学奥秘。

OmiCLIP的炼金术将基因翻译成图像语言

OmiCLIP是如何实现这种神奇的翻译的呢？它的核心秘密在于构建一个连接 H E 图像和转录组学数据的双编码器（Dual-Encoder）基础模型，并通过对比学习（Contrastive Learning）的方式，让这两种看似迥异的数据模式在同一个嵌入空间（Embedding Space）中相互理解。

数据的炼金炉：ST-bank数据集

为了训练OmiCLIP，研究团队打造了一个迄今为止规模空前的、跨模态（Cross-Modality）数据集 ST-bank。这个数据集有多庞大呢？它囊括了 220万个成对（Paired）的组织图像斑块（Tissue Patch）和空间转录组学数据！这些数据来源于 1007个样本，涵盖了人体 32种不同器官类型，包括脑（Brain）、心脏（Heart）、乳腺（Breast）、皮肤（Skin）、肝脏（Liver）、肾脏（Kidney）、胚胎（Embryo）、前列腺（Prostate）等，甚至还包括了癌症（Cancer）、（Heart Failure）、（Alzheimer s Disease）等多种健康与疾病状态。

如此大规模且多样化的数据，是OmiCLIP能够学习到普适性和稳健性的关键。

基因的翻译官：从基因表达谱到基因语句

这是OmiCLIP最具创新性的设计之一。传统的转录组学数据通常以基因表达量（Gene Expression Value）矩阵的形式存在，这对于语言模型（Language Model）来说是难以直接理解的。OmiCLIP巧妙地借鉴了大型语言模型（Large Language Model, LLM）的成功经验，将每个组织斑块内表达量最高的基因符号（Gene Symbol）串联起来，形成一个独特的基因语句（Gene Sentence）。

举例来说，如果一个组织斑块中表达量最高的基因是 SNAP25 、 ENO2 、 CKB 和 GRIN2C ，那么它的基因语句可能就是 SNAP25 ENO2 CKB GRIN2C 。这种将基因数据语言化的处理方式，使得 OmiCLIP 的文本编码器能够像理解自然语言（Natural Language）一样处理转录组学信息，从而打通了基因与图像之间的语言障碍。

双编码器的魔法：对比学习（Contrastive Learning）

OmiCLIP 采用了一个基于 CoCa 框架的双编码器结构，它包含一个图像编码器（Image Encoder）和一个文本编码器（Text Encoder）。这两个编码器各自负责将图像和基因语句转换成高维的数字向量（即嵌入，Embedding）。

对比学习的精髓在于：对于成对的（即来自同一组织斑块的）图像和基因语句，OmiCLIP会努力让它们在嵌入空间中的距离尽可能近；而对于不匹配的图像和基因语句，则让它们的距离尽可能远。通过这种方式，模型逐渐学会了如何从图像中提取与基因表达相关的形态学特征，以及如何从基因语句中提取与形态学相关的分子特征，最终使两种模态的信息能够相互映射、相互补充。

OmiCLIP的稳健性：数据质量的考验

在实际研究中，H E 图像的质量和空间转录组学数据的测序深度（Sequencing Depth）往往参差不齐。OmiCLIP 在这些方面表现如何呢？

该研究严谨的评估证明了OmiCLIP作为一个基础模型的强大潜力：它不仅能够连接不同的数据模态，还能应对真实世界数据中常见的质量挑战。

图像质量变异性：研究团队通过向原始 H E 图像添加高斯噪声（Gaussian Noise）来模拟低质量图像。OmiCLIP 在处理这些模拟低质量图像时，其图像嵌入与原始转录组学嵌入的相似性得分（Similarity Score）仍然保持了较高的水平。这表明 OmiCLIP 对图像质量的波动具有强大的抵抗力，比 PLIP 和 OpenAI CLIP 等基准模型更加稳定。

测序深度变异性：研究团队将 ST-bank 中的样本分为高（平均11,792个唯一分子标识符，UMI）、中（平均4,512个UMI）和低（平均615个UMI）测序深度组。通过对高测序深度数据进行下采样（Downsampling）来模拟中、低测序深度。结果显示，OmiCLIP 在不同测序深度下，配对图像与原始转录组学嵌入的相似性得分依然保持了良好的性能。这强调了 OmiCLIP 对不同技术生成的数据的适应性。

Loki五大绝技从细胞图谱到三维组织重建

基于 OmiCLIP 的强大能力，研究团队进一步开发了 Loki 平台。Loki 不仅仅是一个工具，更是一个多模态（Multimodal）分析的统一基础设施（Infrastructure），它提供了五项核心功能，每一项都旨在解决当前生物医学研究中的痛点，加速新发现：

绝技一：Loki Align（组织对齐）解构生命的三维图谱

挑战：想要完整地理解组织在三维空间中的复杂结构和细胞相互作用，需要将连续切片（Serial Section）的H E图像或ST数据进行精准对齐。然而，空间畸变、生物学变异，甚至切片过程中的旋转和倾斜，都使得这一任务极具挑战性。

Loki的解决方案： Loki Align 利用 OmiCLIP 的嵌入能力，将 H E 图像和 ST 数据中的组织斑块转换成 768 维的嵌入向量，然后运用相干点漂移（Coherent Point Drift, CPD）方法进行非刚性（Non-Rigid）配准。CPD 是一种强大的算法，它能在保持数据拓扑结构的同时，有效地处理空间扭曲。

在低噪声（Low-Noise）模拟数据中，Loki 在 ST-to-ST 对齐任务中，其对齐后数据与真值（Ground Truth）之间的平均距离仅为 0.08毫米；在图像-to-ST 对齐任务中，平均距离为 0.13毫米。在高噪声（High-Noise）模拟数据中，Loki 在 ST-to-ST 对齐任务中，平均距离为 0.12毫米；在图像-to-ST 对齐任务中，平均距离为 0.18毫米。相较于基准方法 PASTE 和 GPSA，Loki 展现出显著的优越性，后者在某些情况下对齐距离高达数毫米，甚至扭曲了组织的拓扑结构。这证明了 Loki 在处理不同噪声水平数据时的稳健性。

真实世界数据的考验：研究团队在八个相邻的人体小肠组织切片上测试了 Loki Align。结果显示，Loki 在图像-to-ST 对齐任务中，高变基因（Highly Variable Gene）表达的中位皮尔逊相关系数（Pearson Correlation Coefficient, PCC）在 0.67到0.80之间；在 ST-to-ST 对齐任务中，中位 PCC 在 0.62到0.83之间。同期，肯德尔相关系数（Kendall s Tau Coefficient）在图像-to-ST 对齐任务中介于 0.16到0.27，在ST-to-ST对齐任务中介于 0.18到0.27。相比之下，PASTE 和 GPSA 的中位 PCC 在许多情况下都显著低于 Loki，甚至出现负值，表明它们对齐效果不佳。

癌症样本的精细对齐：在两个相邻的人体肉瘤（Ovarian Carcinosarcoma）切片上，经过微调（Fine-Tuning）的 Loki 在 ST-to-ST 和图像-to-ST 对齐任务中表现最佳，中位 PCC 分别达到 0.88和0.86，肯德尔相关系数分别为 0.21和0.18。而 CAST、GPSA 和 PASTE 的中位 PCC 仅在 0.26到0.71之间。这进一步验证了 Loki 在复杂病理组织上的高精度对齐能力。

训练策略的优化：研究发现，预训练加微调（Pretraining plus Fine-tuning）策略效果最佳，中位 PCC 达到 0.86，肯德尔相关系数为 0.17。纯预训练（Pure Pretraining）的效果也接近，中位 PCC 为 0.85，肯德尔相关系数为 0.18。而从头训练（Training from Scratch）的表现最差，中位 PCC 仅为 0.53，肯德尔相关系数为 0.06。这表明 OmiCLIP 的预训练对于下游任务的性能至关重要。

Loki Align 能够精准地对齐不同模态的组织切片，为构建高质量的组织三维结构提供了关键技术支持，这对于理解复杂的组织结构、细胞异质性以及疾病的空间病理学具有里程碑式的意义。

绝技二：Loki Annotate（组织注释）精准描绘组织身份

挑战：准确识别 H E 图像中的组织类型或病变区域，对于基础研究和临床诊断都至关重要。传统的图像注释方法往往需要大量手动标注或依赖单一的图像特征，效率低下且缺乏分子层面的深度洞察。

Loki的解决方案： Loki Annotate 利用 OmiCLIP 的双编码器能力，将 H E 图像和参考的批量 RNA 测序（Bulk RNA Sequencing, RNA-seq）数据或预定义的标记基因（Marker Gene）列表编码到同一个嵌入空间中。通过计算图像嵌入与参考数据嵌入之间的余弦相似性（Cosine Similarity），Loki 可以自动推断出图像中最相似的组织类型。相似性值越高，表示该组织类型存在的可能性越大。

批量RNA测序注释：在、正常乳腺和心力衰竭组织的研究中，Loki Annotate 展现出卓越的注释能力。例如，乳腺癌组织中与肿瘤相关的 H E 区域与肿瘤活检的批量 RNA-seq 数据表现出高度相似性，P值小于0.01。心力衰竭组织中，H E图像中与纤维母细胞（Fibroblast）相关的区域与纤维母细胞 RNA-seq 数据具有显著高相似性（P值小于0.01）。正常乳腺组织中，H E图像中脂肪（Adipose）区域与脂肪 RNA-seq 数据也表现出显著高相似性（P值小于0.01）。

标记基因注释：针对没有批量 RNA-seq 数据的情况，Loki 能够利用预定义的标记基因列表进行注释。在四个基准病理学数据集（CRC7K、WSSS4LUAD、PatchCamelyon 和 LC25000）上的零样本（Zero-Shot）F1 分数评估中，Loki 的表现优于 OpenAI CLIP。

以 CRC7K 数据集为例，Loki 的 F1 分数为 0.59，而 OpenAI CLIP 的 F1 分数在 0.03到0.34之间。

在 LC25000 数据集上，Loki 的 F1 分数为 0.96，而 OpenAI CLIP 为 0.93。

图像与基因的双重优势：研究进一步探索了结合图像和自然语言基础模型（如 PLIP）的优势。通过平均 Loki 和 PLIP 的相似性得分，结合两种模态的信息，注释性能得到了显著提升。

在 CRC7K 数据集上，Loki 和 PLIP 单独的 F1 分别为 0.59和0.50，而二者结合后 F1 分数提升至 0.72。

在 LC25000 数据集上，Loki 和 PLIP 单独的 F1 分别为 0.96和0.93，结合后 F1 分数达到 0.97。

值得一提的是，在 CRC7K 数据集中，PLIP 错误地将 63% 的结直肠腺癌上皮（Colorectal Adenocarcinoma Epithelium）图像分类为癌症相关基质（Cancer-Associated Stroma），而 Loki 则将 15% 的肿瘤图像错误分类为正常结肠粘膜（Normal Colon Mucosa）。但结合 Loki 和 PLIP 后，召回率（Recall Rate）高达 93%，充分证明了基因和自然语言信息相结合的强大威力。

Loki Annotate 为研究人员提供了一个高效、精准的工具，可以快速对 H E 图像进行组织类型注释，这对于大规模病理图像分析和疾病诊断具有巨大的应用潜力。

绝技三：Loki Decompose（细胞类型分解）描绘细胞群体的微观世界

挑战：组织并非单一的细胞群体，而是由多种细胞类型（Cell Type）以复杂方式相互作用构建的。准确识别图像或空间转录组数据中不同细胞类型的比例和空间分布，对于理解疾病微环境（Microenvironment）和细胞异质性至关重要。

Loki的解决方案： Loki Decompose 同样利用 OmiCLIP 的嵌入能力，将 H E 图像斑块和空间转录组谱编码到共享嵌入空间，并以单细胞 RNA 测序（Single-Cell RNA Sequencing, scRNA-seq）数据作为参考，通过非凸优化（Non-Convex Optimization）算法（例如 Tangram 的改编版本）来推断出每个图像斑块或空间点（Spot）的细胞类型组成。

TNBC样本的细胞类型分解：在内部的三阴性乳腺癌（Triple-Negative Breast Cancer, TNBC）数据集上，Loki Decompose 取得了领先的性能。它将 TNBC 组织分解为肿瘤上皮细胞（Epithelial Cell）、细胞（Immune Cell）和基质细胞（Stromal Cell）。

Loki 在 ST 模式下的综合影响得分（Impact Score）为 1.32，在图像模式下为 1.11。这显著优于 Tangram、Spatial Seurat、CARD、CytoSPACE、Cell2location、SpatialDWLS 和 RCTD 等 12 种基准方法，这些方法的综合影响得分范围在 0.87到-1.82之间。

即使与 GeneFormer、scGPT 和 scFoundation 等其他单细胞基础模型相比，Loki 仍然表现出色，这些模型在评估中分别排名第 6、第 8 和第 9。

训练策略的验证：在 TNBC 样本上，预训练加微调（Pretraining plus Fine-tuning）策略在细胞类型分解任务中表现最佳，平均结构相似性指数（Structural Similarity Index Measure, SSIM）得分达到 0.30，平均 Jensen-Shannon 散度（Jensen-Shannon Divergence, JS Divergence）为 0.40。纯预训练策略 SSIM 0.13，JS 0.43。而从头训练策略 SSIM 仅为 0.00070，JS 0.44。这再次强调了预训练和微调对于获得最佳性能的重要性。

结直肠癌全切片分析：在 20毫米大小的人体结直肠癌全切片图像上，Loki Decompose 能够准确预测肿瘤、纤维母细胞、肠上皮细胞（Intestinal Epithelial Cell）、平滑肌细胞（Smooth Muscle Cell）以及免疫/炎症细胞（Immune/Inflammatory Cell）的密度和空间分布，并与病理学家手工注释的结果高度一致。

Loki Decompose 使得研究人员能够从经济高效的 H E 图像中，快速获取详细的细胞类型组成信息，大大降低了实验成本和时间，这对于大规模和三维组织研究具有颠覆性意义。

绝技四：Loki Retrieve（图像-转录组检索）发现隐藏的分子线索

挑战：当仅有一张 H E 图像时，能否快速找到与之在分子层面上最相似的转录组学数据？这对于从形态学表型反推分子机制，或在没有分子数据的情况下进行初步分析，具有重要价值。

Loki的解决方案： Loki Retrieve 利用 OmiCLIP 的图像编码器，将查询 H E 图像编码成嵌入向量。然后，在 ST-bank 庞大的数据集中，Loki 能够快速检索出嵌入空间中与之最相似的转录组学数据。

检索精度遥遥领先：研究团队在四个保留的 ST-bank 验证数据集（脑、心脏、肾脏、乳腺）和四个独立的 ST 研究测试数据集上，系统评估了 Loki Retrieve 的性能。Loki 在图像-转录组检索任务中，召回率（Recall）表现显著优于 OpenAI CLIP 和 PLIP。

在脑验证数据集上，Loki 的召回率5%（Recall 5%）为 0.125，召回率10% 为 0.227。这分别是 OpenAI CLIP 的 2.3倍和 PLIP 的 2.5倍。

在心脏验证数据集上，Loki 的召回率5% 为 0.186，召回率10% 为 0.291，分别是 OpenAI CLIP 的 3.2倍和 PLIP 的 3.1倍。

在肾脏验证数据集上，Loki 的召回率5% 为 0.173，召回率10% 为 0.297，分别是 OpenAI CLIP 的 3.2倍和 PLIP 的 3.3倍。

在乳腺验证数据集上，Loki 的召回率5% 为 0.140，召回率10% 为 0.240，分别是 OpenAI CLIP 的 2.6倍和 PLIP 的 2.5倍。

在独立的测试数据集上，Loki 的召回率5% 为 0.117，召回率10% 为 0.208，分别是 OpenAI CLIP 的 3.5倍和 PLIP 的 2.8倍。

Loki Retrieve 强大的检索能力，使得研究人员可以快速从形态学特征中推断出潜在的分子信息，为后续的机制研究提供了宝贵的线索，尤其是在分子数据稀缺的情况下。

绝技五：Loki PredEx（ST基因表达预测）从像素到基因的飞跃

挑战：空间转录组学实验虽然强大，但成本高昂且耗时。能否仅仅通过 H E 图像，就准确预测其对应的空间基因表达模式，从而大幅降低研究成本并提高效率？

Loki的解决方案： Loki PredEx 进一步拓展了 Loki 的能力，它通过 OmiCLIP 的嵌入学习，能够从 H E 图像中预测出空间基因表达。具体来说，它会计算查询图像嵌入与参考 ST 数据嵌入之间的相似性得分，并以此为权重，加权平均参考 ST 数据的基因表达，从而预测出查询图像的基因表达谱。

基因表达预测的卓越表现：在包含 39个样本的正常人体心脏数据集上，Loki PredEx 准确预测了高变基因的表达模式。与 Hist2ST、HisToGene、BLEEP 和 mclSTExp 等现有模型相比，Loki PredEx 在 39个样本中的28个案例中取得了最佳的均方误差（Mean Squared Error, MSE）得分，并在 16个样本中取得了最佳的皮尔逊相关系数（PCC）得分。

计算效率的显著优势：传统的基因表达预测模型，如 HisToGene 和 Hist2ST，对计算资源的需求巨大。例如，HisToGene 在处理 80,000 个斑点数据时需要 4小时的训练时间，而 Hist2ST 在类似条件下需要 31小时。相比之下，Loki PredEx 极大地减少了对高强度训练的需求，因为它能够利用 OmiCLIP 预训练模型的强大知识。这种高效性使得 Loki PredEx 成为一个更具可扩展性（Scalability）和经济效益的解决方案。

Loki PredEx 的出现，意味着可以在很大程度上摆脱对昂贵空间转录组测序的依赖，通过简单的 H E 图像就能获得空间基因表达信息，这将极大地加速大规模样本的分子病理分析和疾病研究。

超越看懂与读懂 AI在空间生物学中的未来

OmiCLIP 和 Loki 平台的发布，无疑为计算生物学领域开启了新的篇章。它不仅仅是技术上的突破，更是理念上的革新。

融合的洞察力：OmiCLIP 首次成功地将组织形态学（H E 图像）与分子组学（空间转录组数据）在统一的嵌入空间中连接起来，使得人工智能能够像一位同时具备病理学和分子生物学知识的超级专家，从图像和基因两个维度全面理解生命活动。这种融合的洞察力，远超单一模态分析所能及，将加速我们对细胞异质性、细胞间相互作用以及疾病发生发展机制的理解。

赋能三维空间生物学：随着三维组织成像技术的发展，Loki 的对齐、注释和分解功能将成为构建高分辨率三维组织图谱的关键。想象一下，一个完全数字化的三维人体组织，每个细胞的类型、基因表达和空间位置都清晰可见，这将如何改变我们对器官功能、疾病扩散和药物反应的认知！

降低研究成本，加速新药发现：通过 Loki PredEx 从 H E 图像预测基因表达，以及 Loki Decompose 从图像推断细胞类型组成，研究人员可以大幅降低空间转录组测序的实验成本和时间。这意味着更多的样本可以被分析，更多的数据可以被挖掘，从而加速生物标志物（Biomarker）的发现、药物靶点（Drug Target）的验证，以及疾病的早期诊断。

持续学习与进化：尽管 OmiCLIP 的 ST-bank 数据集已达220万对，但与大型语言模型动辄万亿级别的训练数据相比，仍有提升空间。研究团队承认，持续增加训练数据将进一步提升模型的零样本能力和泛化能力。未来，OmiCLIP 还将探索更精细的转录组编码器，整合更多的组学数据（如蛋白质组学），甚至实现从图像生成完整空间转录组数据（Generative Model）的能力。

当然，如同任何新兴技术一样，OmiCLIP 和 Loki 也并非完美无缺。例如，虽然 ST-bank 覆盖了32种器官，但对于一些罕见疾病或特定组织区域，数据可能仍然不足，需要通过用户自定义数据集进行微调以确保兼容性。此外，OmiCLIP 目前是一个检索模型，而非生成模型，它不能直接从图像生成全新的、精确的转录组数据，但它能检索到最相似的数据，这仍然是极具价值的。

走向精准医疗的星辰大海

从最初的显微镜观察，到基因测序的问世，我们对生命的探索从未止步。如今，人工智能的浪潮席卷而来，正在以前所未有的速度，将我们带入一个全新的生物医学发现时代。

OmiCLIP 和 Loki 平台，正是这场变革中的璀璨之星。它以其独特的基因翻译能力，打破了图像与基因之间的信息壁垒，让这两种最重要的数据形式能够无缝融合，相互赋能。这不仅仅是技术上的进步，更是科学思维上的跃迁它让我们开始以更全面、更立体、更精准的视角去审视生命，去理解疾病。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->