Nature：DNA的“俄罗斯套娃”——PADIT-seq揭示了一个颠覆教科书的转录因子结合新模型-100医药网

Nature：DNA的“俄罗斯套娃”——PADIT-seq揭示了一个颠覆教科书的转录因子结合新模型

时间：2025-09-07

铸造一把更灵敏的探针：PADIT-seq的诞生

在转录因子研究领域，传统的利器主要是凝胶阻滞实验、蛋白结合微阵列(protein-binding microarrays, PBMs)和高通量配体系统进化技术(HT-SELEX)等。它们在鉴定高亲和力结合位点方面功不可没，但面对数量庞大、信号微弱的低亲和力位点时，往往显得力不从心。这就像使用一台标准望远镜观测星空，我们能清晰地看到明亮的恒星，却会错失构成星系主体的无数暗淡星辰。

为了突破这一技术瓶颈，研究人员巧妙地设计了一种名为基于体外转录和RNA测序的蛋白亲和力检测技术(Protein Affinity to DNA by in vitro Transcription and RNA sequencing, PADIT-seq) 。这项技术的构思十分巧妙：它不再直接测量蛋白质与DNA的结合本身，而是将结合强度这一物理化学事件，转化为一个可被高通量测序技术精准计数的转录产物数量。

其核心是一个体外合成的基因线路。首先，研究人员构建了一个巨大的DNA报告基因文库，其中包含了所有可能的一千万种以上的10个碱基对(10-bp)的DNA序列作为潜在的转录因子结合位点(TFBSs)。当一个被特殊标记（ALFA标签）的转录因子结合到某个DNA序列上时，它会通过这个标签招募来一个经过改造的T7 RNA聚合酶。随后，这个聚合酶会启动下游报告基因的转录，产生RNA分子。关键在于，转录因子与DNA序列结合得越紧密（亲和力越高），招募来的聚合酶就越多，产生的RNA也就越多。最后，研究人员只需通过高通量测序对这些RNA进行计数，就能精确反推出转录因子对每一个DNA序列的亲和力大小。这个设计将一个原本难以捕捉的亲和力信号，成功转换并放大了为一个易于测量的 RNA丰度信号。

这把新铸造的探针究竟有多锋利？研究人员用一系列实验给出了答案。他们首先将PADIT-seq的测量结果与另一种精确测量蛋白-DNA亲和力的技术MITOMI进行了比较。以转录因子EGR1为例，两种方法测量出的结合亲和力数值表现出惊人的一致性，其皮尔逊相关系数(Pearson correlation)高达0.94。这证明了PADIT-seq不仅灵敏，而且极其准确。

更激动人心的是它发现新大陆的能力。研究人员系统地检测了6个来自不同家族的转录因子，包括人类的HOXD13、NKX2.5、TBX5、EGR1和酵母的Pho4、Cbf1。结果令人震撼。以HOXD13为例，在传统的uPBM技术只能识别出约1,780个高亲和力的8-mer（8个碱基对的序列）结合位点时，PADIT-seq在5%的假阳性率(False Discovery Rate, FDR)控制下，发现了高达46,279个能显著激活转录的10-mer结合位点。这意味着，过去我们视野中的结合版图，可能只是冰山一角。

当与另一主流技术HT-SELEX进行 PK 时，PADIT-seq的优势更加凸显。通过受试者工作特征曲线(Receiver Operating Characteristic curve, ROC)来评估预测性能，曲线下面积(Area Under the Curve, AUROC)越接近1，表示性能越好。对于所有测试的转录因子，uPBM和PADIT-seq的吻合度极高，AUROC值普遍大于0.97。然而，HT-SELEX的表现则逊色不少，例如，对于HOXD13，即使是富集了4轮的HT-SELEX，其AUROC值也仅为0.848，远低于PADIT-seq所能达到的精度。进一步分析发现，HT-SELEX严重偏好于捕获那些亲和力最顶尖的序列，而系统性地遗漏了由PADIT-seq所发现的大量中低亲和力结合位点。正是这些被遗漏的暗淡星辰，为后续的颠覆性发现埋下了伏笔。

拨开迷雾：当转录因子一脚踏多船

手握PADIT-seq这把利器，研究人员得以重新审视转录因子在真实细胞内的行为。他们分析了这6个转录因子在基因组上的结合区域，这些区域是通过染色质共沉淀测序(ChIP-seq)技术确定的，代表了转录因子在细胞内的落脚点。过去，人们普遍认为ChIP-seq信号峰的出现，是因为其中心位置存在一个或多个高亲和力的结合位点。

然而，当研究人员将PADIT-seq发现的海量新位点叠加到ChIP-seq的图谱上时，一幅前所未见的景象出现了。在一个典型的HOXD13结合峰区域（例如位于Cadps基因附近），他们不仅找到了预期的高亲和力位点，更惊人地发现，在这个核心位点的周围，紧密排列着一串连续的、相互重叠的、具有中低亲和力的活性位点。具体来说，他们观察到了连续6个有活性的8-mer序列，它们像瓦片一样，每一个都与前一个序列有7个碱基的重叠，共同构成了一个更长的、具有复合结合能力的超级位点。

这个现象并非个例。通过对所有6个转录因子的ChIP-seq/ChIP-nexus结合峰进行系统性分析，研究人员发现，这些体内结合区域相比于随机的基因组背景区域，都显著富集了这种连续重叠活性位点的模式。例如，对于酵母转录因子Pho4，其结合峰中出现连续重叠位点的概率，与背景区域相比，其学P值达到了惊人的1.01 x 10⁻ ⁶⁸，这意味着这种现象绝非偶然。

这里需要特别强调的是，这种重叠结合模式与另一个大家熟知的概念同型簇(homotypic clustering) 有着本质区别。同型簇指的是多个独立的、不重叠的结合位点在空间上（通常间隔几十到几百个碱基）聚集，通过协同作用增强调控。而研究人员发现的重叠模型，则是指多个结合序列在物理上直接交织在一起，形成一个连续的、可被单个转录因子分子识别和结合的扩展区域。这暗示转录因子的结合行为，可能远比我们想象的要复杂和动态，它不是简单地踩在一个点上，而可能是在一个面上滑动和识别。

那么，这些由大量中低亲和力位点构成的重叠区域，在生物学功能上是否重要呢？进化给了我们答案。研究人员利用衡量基因组序列在不同物种间保守性的PhastCons评分，对这些区域进行了分析。结果显示，那些包含多个连续重叠活性位点的核心DNA区域，其保守性显著高于两侧的旁邻序列。这有力地表明，这些重叠的、看似次要的位点在漫长的进化过程中被选择性地保留了下来，它们很可能承载着不可或缺的生物学功能。

捕获作案现场：来自细胞内部的直接证据

重叠结合模型无疑是一个极具吸引力的假说，但它是否真实反映了细胞内的分子事件？或者，它仅仅是计算分析带来的巧合？为了提供更直接的证据，研究人员动用了一项更高精度的分子足迹技术 ChIP-nexus。

ChIP-nexus可以被看作是ChIP-seq的升级版，它在免疫共沉淀之后，会用核酸外切酶消化掉未被转录因子保护的DNA片段，从而能以单个碱基的分辨率，精确地勾勒出蛋白质在DNA上留下的脚印(footprint) 。这个脚印的大小和边界，直接反映了蛋白质与DNA分子接触的范围。

根据重叠结合模型，研究人员提出了一个大胆的预测：如果转录因子确实能够独立地识别并结合每一个重叠的位点，那么，每增加一个重叠的活性位点，转录因子在DNA上覆盖的范围就应该相应地扩大一点点，其留下的脚印也应该相应地变大。

他们将分析聚焦于酵母转录因子Pho4和Cbf1。首先，他们根据基因组序列中包含的连续重叠活性8-mer的数量，将ChIP-nexus的结合峰分成了不同的组别，例如，包含3个、4个或5个连续重叠位点的峰。然后，他们仔细观察了每个组别中，转录因子留下的平均脚印大小。

结果与模型的预测完美契合！以Cbf1为例，在包含3个连续重叠位点的区域，其分子足迹的平均大小是28个碱基对 (bp)。当重叠位点增加到4个时，足迹大小精确地增加到29 bp。而当重叠位点达到5个时，足迹大小则进一步扩展到30 bp。同样，对于Pho4，其足迹大小也随着重叠位点数的增加，从27 bp增加到了28 bp。

这种每次增加一个重叠位点，足迹就精确地增加1 bp的现象，是支持重叠结合模型极为有力的体内证据。它描绘了一幅生动的分子动态图景：转录因子如同一个攀岩者，每多识别一个重叠的手点（活性位点），它与DNA 岩壁的接触就增加了一分，保护的区域也随之向内延伸了一个碱基的距离。这个发现几乎排除了其他替代理论，例如认为转录因子只是识别一个具有模糊边界的单一加长位点的可能性。它清晰地表明，每一个重叠的位点都贡献了独立的结合事件，它们共同决定了转录因子的最终占据行为。

同门之争：解开旁系同源蛋白的结合密码

重叠结合模型不仅刷新了我们对单个转录因子行为的认知，它还能否解决一些困扰生物学界已久的难题？其中一个经典问题就是旁系同源蛋白的结合特异性。许多转录因子都属于庞大的蛋白质家族，家族内的成员（即旁系同源蛋白）往往具有非常相似的DNA结合域，能够识别几乎完全相同的核心DNA序列。那么，在同一个细胞中，这些长相酷似的兄弟蛋白，是如何避免认错门，实现各自精准的基因调控呢？

研究人员将目光投向了酵母中的一对经典旁系同源蛋白：Pho4和Cbf1。它们都属于碱性螺旋-环-螺旋转录因子(bHLH)家族，并且都优先结合一个被称为E-box的核心序列 CACGTG 。在低磷酸盐环境下，Pho4会被激活并进入细胞核，与Cbf1竞争结合基因组上成千上万个E-box位点。它们之间的竞争与合作，精妙地调控着磷酸盐代谢和染色体分离等关键生命过程。

利用PADIT-seq，研究人员首先全面解析了Pho4和Cbf1对所有8-mer序列的结合偏好。他们发现，在总共311个被两者之一识别的活性8-mer中，有34个高亲和力位点是两者共享的，而大量的差异存在于中低亲和力位点上：有58个位点是Cbf1特异的，而多达219个位点是Pho4特异的。

这是否意味着，决定这对兄弟蛋白结合特异性的关键，就隐藏在核心E-box序列两侧的旁邻序列(flanking sequences)中呢？这些旁邻序列通过创造不同数量的、具有特异性的重叠低亲和力位点，来为Pho4或Cbf1提供额外的加分项或减分项。

为了验证这个假说，研究人员进行了一项漂亮的定量分析。他们考察了基因组中所有包含核心E-box的序列，并计算了每一个序列两侧能形成的、对Pho4和Cbf1特异的重叠活性8-mer的数量差异。惊人的是，这个简单的数量差，竟然能很强地预测两者在该序列上的实际结合优势。其预测能力与实验测量值的皮尔逊相关系数达到了0.796。

当他们更进一步，不仅仅考虑重叠位点的数量，还把每个位点的质量（即由PADIT-seq测得的结合亲和力）也纳入模型，进行加权求和后，模型的预测能力达到了前所未有的高度。新的相关系数飙升至0.948，这意味着模型的方差解释率(r )接近0.90 (r = 0.898 0.0004)。这是一个非常了不起的数字，它表明，这个基于重叠结合位点加和效应的新模型，几乎完美地解释了旁系同源蛋白的竞争性结合机制。经典的PWM（位置权重矩阵）模型无法解释的约50%的变异，如今被这个新模型轻松破解。

这就像两位棋手，虽然都懂得棋盘中心天元的重要性（相当于高亲和力的核心序列），但决定胜负的，往往是他们在棋盘边缘金角银边（相当于旁邻序列创造的重叠低亲和力位点）的布局和算计。谁能创造出更多、更强的有利于自己的局部优势，谁就能最终主导棋局。

一个碱基的蝴蝶效应：重新审视非编码区突变

重叠结合模型的另一个深远影响，在于它彻底改变了我们对非编码区遗传变异，特别是单核苷酸多态性(Single Nucleotide Polymorphisms, SNPs)功能的理解。全基因组关联研究()已经发现了成千上万个与人类复杂疾病和性状相关的SNPs，但其中超过90%都位于非编码区。这些暗物质般的变异如何影响基因功能，一直是遗传学研究的核心挑战。

传统观点认为，一个非编码区的SNP要有功能，它很可能需要直接命中一个转录因子的核心高亲和力结合位点，通过破坏或创建这个关键位点来改变基因表达。然而，重叠结合模型告诉我们，事情远非如此简单。一个SNP，即使它位于核心位点之外的旁邻区域，也可能引发蝴蝶效应。因为它的一次微小改变，可能会同时影响到多个与之重叠的中低亲和力结合位点，导致结合亲和力的累积性发生巨大变化。

为了验证这一点，研究人员系统分析了数千个已知会影响HOXD13和EGR1结合的SNPs。他们将PADIT-seq的预测结果与另一种实验技术SNP-SELEX以及广受欢迎的计算预测工具MotifBreakR进行了正面比较。

结果再次彰显了新模型的威力。PADIT-seq不仅成功识别出了SNP-SELEX发现的绝大多数（HOXD13: 92.8%,EGR1: 96.4%）具有显著影响的变异，还额外发现了超过五倍数量的、具有更细微效应但同样真实存在的变异。这些变异很可能因为效应较弱而超出了SNP-SELEX的检测极限。

在与基于PWM模型的MotifBreakR的对决中，PADIT-seq更是取得了压倒性胜利。在预测一个SNP是否会改变转录因子结合的大考中，以AUROC作为评分标准，对于HOXD13，PADIT-seq的得分是0.943，而MotifBreakR只有0.790；对于EGR1，PADIT-seq得分高达0.962，而MotifBreakR为0.872。这表明，新模型在精确判断非编码变异功能方面，远胜于传统方法。

一个生动的例子是与人类多指（趾）(polydactyly)相关的致病性突变rs606231230。这个突变位于一个调控肢体发育的关键增强子区域。PADIT-seq分析显示，这个致病等位基因的出现，并非简单地改变了一个位点，而是在局部创造出了一连串新的、重叠的HOXD13结合位点。这种累积效应极大地增强了HOXD13在该区域的结合，从而导致基因表达失调和发育异常。重叠结合模型为这个经典的孟德尔遗传病案例，提供了一个清晰而深刻的分子机制解释。

DNA的可编织性：一个普适的生物学原理？

行文至此，一个更深层次的问题浮出水面：这种奇特的重叠结合现象，仅仅是这6个被研究的转录因子所特有的怪癖，还是代表了一个更具普遍性的生物学原理？

为了回答这个问题，研究人员引入了一个非常形象的概念可编织性(weavability) 。他们将每一个被PADIT-seq识别出的活性结合k-mer（如8-mer）视为一个网络中的节点，如果两个节点（两个k-mer序列）之间存在k-1个碱基的重叠，就在它们之间连接一条边。这样，所有活性结合位点就构成了一个巨大的网络。

分析结果令人称奇。对于HOXD13，其全部3536个活性8-mer（包含正反链）节点中，竟然有高达97.5%（3446个）都属于同一个巨大的、相互连接的超级网络组分。这意味着，几乎可以从任何一个活性位点出发，通过一系列重叠的路径，编织到网络中的其他任何一个位点。相比之下，如果用同样数量的随机8-mer序列构建网络，形成最大网络组分的节点比例仅为0.2%（7个）。

这种高度的可编织性在所有6个转录因子中都得到了验证，并且高亲和力的位点往往是这个网络中的枢纽(hubs) ，拥有更多的连接边。为了进一步探寻其普适性，研究人员将分析范围扩大到了UniPROBE数据库中涵盖9个主要蛋白家族的200个人类和鼠源的转录因子。结果是压倒性的：在199个转录因子中，其高亲和力结合位点所构成的网络，最大的连通组分都包含了超过80%的节点。

这强有力地表明，可编织性并非特例，而是真核生物转录因子结合位点固有的一种内在属性。DNA序列的进化，似乎并非仅仅是优化单个的、孤立的结合点，而是在编织一张张复杂的、信息高度冗余和重叠的识别地毯。高亲和力位点如同地毯上鲜艳的主图案，而无数重叠的低亲和力位点则是构成背景、决定质感和色调的精细纹理。

这篇文章所揭示的重叠结合模型，以一种大道至简的方式，统一解释了转录因子调控领域的两大难题：旁系同源蛋白的特异性竞争和非编码区变异的功能。它让我们意识到，非编码基因组，或许不能再像阅读线性文字那样逐字逐句，而更应像欣赏一幅织锦，需要理解每一个线头（碱基）是如何通过重叠和交织，共同贡献于整体图案（生物学功能）的。

这不仅为基础研究开辟了新的方向，也为我们精准预测和解读与疾病相关的遗传密码，提供了一把前所未有的、更加锋利的解码钥匙。生命的史诗，原来比我们想象的，还要更加错综复杂，也更加和谐有序。

87%用户都在用100医药网APP 随时阅读、评论、分享交流请扫描二维码下载->