Cell：拷贝数 ≠ 表达量？wellDR-seq全景式解析ER+乳腺癌的祖先谱系与基因调控新法则-100医药网

Cell：拷贝数 ≠ 表达量？wellDR-seq全景式解析ER+乳腺癌的祖先谱系与基因调控新法则

时间：2025-09-09

工程师的巧思：如何构建 DNA与RNA的双重阅读器

同时捕获基因组DNA和转录组mRNA，为什么如此困难？这首先是一个物理化学上的挑战。

在单个细胞内，DNA被紧密地包裹在细胞核的染色质（chromatin）结构中，受到组蛋白的严密保护；而我们关心的信使RNA (mRNA) 则主要分布在细胞质中，结构脆弱且易于降解。传统的基因组测序（scDNA-seq）需要严苛的细胞裂解条件来释放并纯化DNA，这个过程足以将RNA彻底摧毁。反之，转录组测序（scRNA-seq）采用温和的裂解方式以保护RNA，但这又远远不足以打开染色质的枷锁，导致绝大多数基因组DNA无法被捕获。

现有的多组学技术往往顾此失彼。例如，一些方法依赖物理分离细胞核和细胞质，操作繁琐且通量极低，仅限于几十个细胞；另一些方法试图在核内同时捕获DNA和RNA（如DEFND-seq），但它们不可避免地丢失了细胞质中占绝大多数的成熟mRNA，导致RNA数据质量严重受损。

我们需要一种巧妙的化学方法，在同一个微小的反应孔中，让DNA和RNA 和平共处并被分别标记。wellDR-seq（基于纳米孔的单细胞DNA和RNA测序）正是为此而生。

研究人员使用了一个包含5184个纳米反应孔（nanowell）的芯片。当单个细胞被分配到这些微孔中后，真正的魔法开始了。

第一步：彻底解放。研究人员没有使用常规的裂解液，而是加入了一种关键的蛋白酶（protease）。这种酶如同一种万能溶剂，它会消化掉细胞膜、核膜以及所有束缚DNA的组蛋白。其结果是，细胞内的一切蛋白质结构都被清除了，只剩下纯粹的核酸，基因组DNA和细胞内的所有RNA，完全裸露地释放到纳米孔的微小反应体系中。这是实现双重捕获的化学基础。

第二步：分轨标记。既然DNA和RNA都已可用，研究人员使用了一种分而治之的策略同时给它们打上标签。对于DNA，使用Tn5转座酶（Tagmentation）将其切割成片段并连接接头。对于RNA，使用经典的Poly-dT引物特异性抓取mRNA，并通过逆转录（RT）将其转化为cDNA。

第三步：巧妙的生物素开关。在逆转录过程中，研究人员加入了一个巧妙设计的模板转换寡核苷酸（Template Switch Oligonucleotide, TSO）。这个TSO除了完成cDNA的合成外，还携带了一个关键的货物生物素（biotin）标签。这意味着，细胞中所有由mRNA逆转录而来的cDNA分子，都被悄悄地打上了一个生物素标记。而基因组DNA碎片则没有这个标记。

第四步：统一的细胞条码。接下来，通过几轮精心设计的PCR反应，研究人员为来自同一个纳米孔的所有cDNA和DNA碎片，都连接上独一无二的细胞条码（cell barcodes）。例如，来自A1孔的细胞，其cDNA和gDNA都会被标记上 A1 这个地址。

第五步：捕捞与分离。当所有反应完成后，研究人员将5184个孔中的所有产物混合在一起，形成了一个包含数千个细胞的DNA和cDNA的大汤锅。此时，生物素标签派上了用场。研究人员加入了链霉亲和素磁珠（Streptavidin beads），如同钓鱼一般，所有携带生物素的分子（即全部的cDNA）都被磁珠钓了上来。而那些没有被钓上来的、漂浮在汤里的，自然就是所有的基因组DNA。

通过这一系列巧妙的步骤，wellDR-seq成功地从同一个细胞群体中获得了两个独立的文库：一个代表功能（转录组），一个代表蓝图（基因组），而它们可以通过细胞条码被完美地一一对应。

严苛的基准测试：新的阅读器超越了专科医生吗？

一项多组学技术最大的风险在于贪多嚼不烂，试图同时做两件事，结果可能两件都做不好。wellDR-seq是否在捕获RNA的同时牺牲了DNA的质量？或者反之？研究人员使用乳腺癌细胞系MDA-MB-231进行了一场严苛的性能摸底测试。

评估DNA：高覆盖率与低噪音

研究人员将wellDR-seq与四种专攻DNA的单细胞测序技术（包括Arc-well, 10X CNV, DLP+, DOP-PCR）以及另一种多组学技术（DEFND-seq）进行了正面比较。评估scDNA-seq质量有两个核心指标：过离散度（Overdispersion），代表技术噪音，越低越好；以及覆盖广度（Breadth of coverage），代表能看到多少基因组区域，越高越好。

数据显示，wellDR-seq在噪音控制上与表现最好的Arc-well技术相当，同时显著优于其他所有方法。更重要的是，在覆盖广度上，wellDR-seq完胜了10x CNV, DLP+, DOP-PCR, 和 DEFND-seq。这证明wellDR-seq的DNA数据质量是顶级的。光有质量还不够，它读得准吗？研究人员进一步将其与单细胞数据的金标准来自同种细胞系的克隆群体全基因组测序（bulk WGS）进行对比。结果令人振奋：wellDR-seq生成的假体细胞（pseudobulk）CNA图谱与WGS数据的相关性达到了惊人的r = 0.965；而在更精细的单个亚克隆水平上，平均相关性也达到了r = 0.966。

这表明，wellDR-seq在读取DNA蓝图方面，表现如同一位经验丰富的专科医生。

评估RNA：读到我们真正想要的（外显子）

那么RNA呢？研究人员将wellDR-seq与三种主流scRNA-seq方案在相同的测序深度下（约每细胞26,000条读数）进行了比较。wellDR-seq的表现非常出色，平均检测到约2,650个基因，与专攻转录组的Takara平台旗鼓相当。然而，关键在于读到的序列是什么。研究人员分析了这些RNA读数在基因组上的分布。结果显示，wellDR-seq有高达92.0%的读数精确地映射到了外显子（Exons）区域，这正是真正编码蛋白质的功能序列。相比之下，10x Genomics的外显子映射率仅为76.4%，而DEFND-seq更只有9.1%。

结论是明确的：wellDR-seq不仅能检测到高数量的基因，而且它检测到的是高质量的、具有真正生物学意义的成熟转录本。

最后的论证：为什么我们不能猜？

此时，一个关键问题浮出水面：我们能否利用计算工具，直接从RNA的表达量推断出DNA的拷贝数（CNA）呢？为了回答这个问题，研究人员使用了两种最先进的推断工具（CopyKAT和inferCNV），并将它们应用于wellDR-seq产生的高质量RNA数据上，试图重建这些细胞的CNA图谱。然后，他们将推断出的CNA图谱与他们手中实测到的DNA图谱（来自同一个细胞）进行比较。

结果是毁灭性的。计算推断出的CNA图谱与真实的DNA图谱几乎完全不同，相关性分别仅有r = 0.52和r = 0.49。这些计算工具不仅完全漏掉了肿瘤中关键的亚克隆结构，还凭空捏造了大量根本不存在的CNA事件。

这项对比提供了强有力的证据：推断不能替代检测。在复杂的癌症生物学中，试图用一份手稿（RNA）去猜测另一份手稿（DNA）的内容，是一种极其不可靠的策略。我们必须，也只能，在同一个细胞中同时阅读这两份手稿。

癌症侦探：揪出乳腺癌的第一颗种子

有了这把利器，研究人员立即投身于临床实践，他们分析了来自12名ER+（雌激素受体阳性）乳腺癌患者的样本。他们的第一个目标，就是利用wellDR-seq的双重数据，去追捕那个难以捉摸的癌症起源细胞。

P1号患者的离奇案件与 c2 亚克隆

在P1号患者的2,901个单细胞中，一场精彩的侦探故事上演了。通过对DNA蓝图进行聚类，研究人员发现了22个截然不同的基因亚群。其中，c1集群是完全正常的二倍体细胞。而c3到c22集群，则是基因组的重灾区，是构成肿瘤主体的邪恶军团。

然而，c2集群成了一个异类。它只占细胞总量的一小部分，其基因组上唯一的、清晰的异常是丢失了整条22号染色体（chr22 loss）。

当研究人员构建这些亚克隆的进化树（Phylogenetic tree）时，整个故事线清晰了：正常的c1细胞发生了突变，变成了c2细胞。在某个时间点，c2细胞又经历了一次全基因组加倍（WGD）事件，并以此为起点，最终进化并分化出了c3到c22这20个不同的癌症亚克隆。这意味着，c2就是这个肿瘤的祖先亚克隆（ancestral subclone），是那颗埋藏在正常组织中的第一颗种子。

连接蓝图与身份：祖先究竟是谁？

这个祖先细胞，在它癌变之前，究竟是一种什么类型的正常细胞？这是只有wellDR-seq才能回答的问题。研究人员立刻调取了这些DNA集群对应的RNA数据。正常的c1细胞是混合体，晚期的癌症军团（c3-c22）则完全一致地聚集在一个独特的癌症 RNA集群中。

令人惊讶的是，那颗神秘的种子（c2亚克隆）的RNA身份并不在癌症集群里。它隐藏在正常细胞中。数据显示，c2细胞的转录组特征，与正常的管腔激素反应细胞（Luminal Hormone-Responsive, LumHR）完全吻合。在另外三名患者中，研究人员也发现了同样的模式，他们找到的祖先亚克隆，无一例外，全部指向LumHR细胞。

这一系列证据共同构筑了一个清晰的癌症起源模型：至少对于这部分ER+乳腺癌而言，癌症的第一颗种子来自一种已经分化的、响应激素的LumHR细胞。这个正常的LumHR细胞首先遭受了第一次基因打击（如chr22 loss），变成了祖先亚克隆。这个受伤的细胞群体可能潜伏了很长时间，直到某个契机触发了第二次打击，导致其基因组彻底失稳，最终演化为侵袭性癌症。为了给这个结论钉上最后一颗钉子，研究人员甚至在祖先c2细胞中找到了12个在正常细胞中不存在，却在所有癌细胞中100%存在的点突变。证据链形成了完美的闭环。

改写剂量法则：当10份拷贝不等于10倍产出

如果说找到癌症的种子是wellDR-seq的第一个重大贡献，那么它接下来的发现，则从根本上挑战了我们对癌症进化驱动力的理解，即经典的基因剂量效应（gene-dosage effect）。

这个经典法则非常直观：基因的拷贝数决定了基因的表达水平。更多的DNA拷贝 = 更多的RNA产出。而现在，wellDR-seq可以在同一个细胞里，同时手握拷贝数（因）和表达量（果）。

宏观尺度（染色体片段）：法则成立

首先，研究人员在宏观尺度上检验了这一法则。他们分析了所有发生CNA的染色体大片段。结果呈现出一条近乎完美的线性相关曲线（R = 0.93）。随着DNA拷贝数从1份攀升到惊人的13份，对应片段上的RNA平均表达量也随之线性飙升。在整个研究队列中，高达56%的CNA片段都显示出与其基因表达水平相一致的变化。这证实了我们的传统认知：在宏观平均水平上，基因剂量法则是成立的。

微观尺度（单个基因）：法则崩溃

然而，当研究人员将镜头推向单个基因时，这个简单的图景瞬间崩溃了。他们发现，基因对拷贝数变化的反应并非铁板一块，而是呈现出截然不同的两种命运：

1. 剂量敏感型（Dosage-sensitive）基因：这些基因是守法公民，其RNA表达水平与DNA拷贝数严格相关。许多关键的乳腺癌相关基因都属于此类，例如PGR、AURKA和RB1。

2. 剂量不敏感型（Dosage-insensitive）基因：这些基因则是规则豁免者。无论它们所在的DNA片段如何疯狂扩增或丢失，它们自身的RNA表达水平都岿然不动。令人震惊的是，这份豁免名单上赫然列着几个乳腺癌中鼎鼎大名的驱动基因：PIK3CA、BRCA1和TP53。

这是一个极其深刻的发现。它告诉我们，肿瘤的进化远比我们想象的要复杂。对于像PIK3CA这样的超级致癌基因，它的失调依赖于其他更精巧的机制（例如点突变）。这些关键基因，已经进化到可以无视基因组剂量效应。

涟漪效应：31%的本地（Cis）行动 vs 69%的跨区（Trans）混沌

如果说剂量不敏感基因揭示了法则的例外，那么wellDR-seq的下一个发现则揭示了CNA驱动癌症的真正威力跨区域的涟漪效应。传统观点认为本地效应应该是主导。但wellDR-seq的数据彻底颠覆了这一点。

研究人员在所有患者的亚克隆进化对中进行了，结果令人瞠目：在所有导致功能差异的差异表达基因（DE genes）中，平均只有31%的基因是本地（in-cis）的即它们确实位于那些新发生拷贝数变化的区域。这意味着，平均有高达69%的功能变化，发生于跨区（in-trans）！

换言之，当肿瘤获得一个新的CNA时，其最主要的后果，不是让本地基因的产出增加，而是像一块石头砸入平静的湖面，激起的涟漪扩散到了整个基因组，导致了其他所有基因组稳定的染色体上发生了大规模的功能（表达）海啸。

被解码的双重手稿

这项研究，为我们提供了一块破解癌症复杂性的罗塞塔石碑。wellDR-seq这项技术用数据证明（例如r=0.49的推断失败案例），我们不能再满足于猜测一份手稿的内容；我们必须同时、同地、同细胞地阅读这两份手稿。

通过这块石碑，该研究重写了乳腺癌生物学的两个关键篇章：

第一，癌症的起源故事。研究首次将祖先基因型（如c2亚克隆的chr22 loss）与其细胞身份（LumHR表型）直接锁定在同一个细胞中，为ER+乳腺癌的管腔细胞起源说提供了迄今为止最直接的证据。癌症的种子并非凭空产生，而是潜伏在那些看似正常的、响应激素的细胞中。

第二，癌症的进化法则。研究彻底解构了简单粗暴的基因剂量效应。癌症进化不是简单的DNA加减法，而是一个交织着剂量敏感与剂量不敏感基因的复杂系统。肿瘤每一次基因组的变动（CNA），其最主要的驱动力甚至不是本地基因的改变（仅占31%），而是它所激发的覆盖全基因组的跨区（trans）功能涟漪（占69%）。

这为我们开辟了全新的视野：未来我们评估一个基因是否为驱动基因，或许不再仅仅看它是否被扩增或删除，而是要看它是否剂量敏感；我们理解癌症的进化，也必须从线性的 CNA累积转向非线性的跨区网络调控。这正是解读癌症双重手稿的真正意义所在。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->