2026-06-20||Source

DiVo PPI Head:让蛋白质设计管线长出"亲和力直觉"

蛋白质设计领域有一个长期痛点:生成模型很会"画"结构,却不擅长判断"画出来的东西到底能不能结合"。DiVo Gen²AI 团队在 Pipeline v2 中引入了自研的 PPI Head 模块,让管线在生成候选之后,能像资深结构生物学家一样,对每个设计给出亲和力预判。本文聊聊这个"直觉"从何而来。


一、问题:结构预测模型"会画不会判"

过去两年,AF3 家族模型(包括各类基于 Pairformer 架构的结构预测系统)在蛋白质复合物结构预测上取得了突破性进展。给定两条链的序列,它们能以较高精度预测出复合物的三维结构,并给出 pLDDT、ipTM 等置信度指标。

但这些模型有一个根本局限:它们预测的是"结构对不对",而不是"结合强不强"。

一个 ipTM=0.85 的设计,可能亲和力是 nM 级别(强结合),也可能是 μM 级别(弱结合)——结构预测模型分不出来。对于蛋白质 binder 设计而言,这恰恰是最关键的信息。

传统做法是生成大量候选 → 湿实验测亲和力 → 筛选。一个 96 孔板的 SPR 实验测一轮,成本数千元、周期数周。如果在计算阶段就能预判亲和力,可以大幅减少湿实验筛选量。

这就是 DiVo PPI Head 要解决的问题。


二、思路:从结构预测的"副产品"中提取亲和力信号

2.1 关键洞察

AF3 家族模型在预测复合物结构时,内部会构建两组核心表征:

  • 单序列表征(single representation):每个 token 的特征向量,编码残基级别的信息
  • 配对表征(pair representation):每对 token 之间的特征矩阵,编码残基间关系
  • 预测坐标:每个残基的三维坐标

这三者已经包含了丰富的结合界面信息——配对表征隐含了残基间距离和方向,坐标给出了精确的空间关系。问题是,标准结构预测模型只用这些表征来输出坐标和置信度,没有进一步提取亲和力信号

PPI Head 的核心思路:在结构预测模型的表征之上,接一个专门的亲和力预测头,把已有的信息"榨干"。

2.2 架构设计

PPI Head 接收结构预测模型的中间表征作为输入,经过四个阶段输出亲和力预测:

输入: 单序列表征 + 配对表征 + 预测坐标
  ↓
阶段1: z归一化 → s→z投影 → 距离分箱编码
  ↓
阶段2: Pairformer × 4层 (配对表征精炼)
  ↓
阶段3: 加权池化 (聚焦binder区域)
  ↓
阶段4: 多头预测
  → affinity_pred_value  (预测Kd值, μM)
  → affinity_pred_score  (亲和力评分, 0-1)
  → binary_logits        (binder/non-binder)

设计要点

组件作用设计理由
距离分箱编码将连续距离离散化为64个bin距离是亲和力最直接的物理信号,分箱比连续编码更鲁棒
s→z投影将单序列信息注入配对表征残基类型影响结合特异性,需要与距离信息融合
Pairformer × 4层精炼配对表征4层是精度与效率的平衡点,足够捕捉界面模式
加权池化用 affinity_token_mask 聚焦binder链避免target链的信号稀释亲和力预测
三头输出Kd值 + 评分 + 二分类多任务学习提供更丰富的监督信号

2.3 三个输出头的协同

PPI Head 不是简单输出一个分数,而是同时预测三个量:

  1. affinity_pred_value:回归头,预测 Kd 值(μM)。直接回归亲和力数值,提供最精确的预判。
  2. affinity_pred_score:Sigmoid 头,输出 0-1 之间的亲和力评分。归一化评分便于跨靶点比较和排名。
  3. binary_logits:二分类头,判断 binder / non-binder。提供可解释的二元决策边界。

三个头共享底层表征,通过多任务学习互相正则化:回归头提供精确梯度,评分头提供归一化排名,分类头提供决策边界。这种设计比单一输出更鲁棒。


三、创新点:DiVo PPI Head 的差异化

3.1 与传统亲和力预测方法的区别

维度传统方法(分子对接+打分函数)DiVo PPI Head
输入独立结构(对接后)结构预测模型的中间表征
特征工程手工设计(氢键、疏水等)端到端学习
距离建模经典力场可学习距离分箱编码
界面建模几何计算Pairformer注意力机制
输出单一打分Kd值 + 评分 + 二分类
与结构预测的关系独立步骤紧耦合(共享表征)

传统方法需要先对接再打分,是两步串行流程。PPI Head 直接接在结构预测模型之后,一步到位,避免了对接误差的传播。

3.2 与商业API方案的区别

2026年市场上出现了蛋白质设计的商业API服务,内置亲和力预测模块。但这些服务:

  • 闭源:亲和力模型的架构和权重不公开,无法审查
  • 黑盒:无法针对特定靶点类型做定制
  • 数据出境:敏感靶点序列需上传到第三方服务器
  • 按次收费:大规模筛选成本不可控

DiVo PPI Head 的策略:

  • 完全开源:架构公开,权重可迁移
  • 可定制:支持私有数据 fine-tune,可加入中国人群特异性特征
  • 数据不出境:本地部署,敏感序列不离开内网
  • 成本可控:推理仅需 1.05M 参数,单次推理 <100ms

3.3 架构兼容性验证

PPI Head 的一个关键设计决策是:与主流结构预测模型的表征维度对齐。

我们验证了 PPI Head 的 6 个关键层与预训练模型的 shape 完全匹配:

PPI Head shape预训练模型 shape匹配
距离分箱嵌入[64, 128][64, 128]
s→z投影层1[128, 384][128, 384]
s→z投影层2[128, 384][128, 384]
z归一化权重[128][128]
z归一化偏置[128][128]
z线性投影[128, 128][128, 128]

6/6 完全匹配。 这意味着 PPI Head 可以直接从预训练模型迁移权重进行初始化,大幅减少训练数据需求。迁移后只需在自有数据上 fine-tune,即可获得针对特定应用场景优化的亲和力预测能力。


四、在管线中的角色:从"可选"到"差异化核心"

4.1 统一评分体系

DiVo Protein Design Pipeline v2 的评分公式:

composite_score = 0.40 × pDockQ + 0.25 × pLDDT + 0.20 × ipTM + 0.15 × PPI

四个维度各有侧重:

指标权重含义来源
pDockQ0.40对接质量界面评分工具
pLDDT0.25结构置信度AF3家族模型
ipTM0.20界面TM scoreAF3家族模型
PPI0.15亲和力预测DiVo PPI Head

PPI 权重设为 0.15(最低),原因是当前 PPI Head 尚处于权重迁移阶段,精度有待验证。随着 fine-tune 完成,权重将逐步提升。

但即使只有 0.15 的权重,PPI 维度的引入已经改变了排名结果——在测试中,部分 pDockQ 和 ipTM 接近的设计,因 PPI 分数差异而重新排序,这正是亲和力维度的价值。

4.2 ipSAE 降级决策

一个值得记录的工程决策:我们将 ipSAE(界面预测对齐误差)从生产排名中降级为学术参考指标

降级理由基于实际研究经验:

  • ipSAE 对短肽/小 binder(<20aa)普遍虚低(<0.1),分母效应导致失真
  • ipSAE 对 C 端结合模式不敏感
  • AF3 家族模型对小分子配体的 ipSAE 普遍偏低(已知局限)

生产排名因此只保留四个经过验证的可靠维度,PPI Head 作为唯一的"亲和力信号源"填补了 ipSAE 退出后的空缺。


五、实测表现

5.1 推理效率

实测性能:

指标数值
模型参数1.05M
输入规模200残基(2链复合物)
推理时间<100ms
显存占用<500MB
输出Kd值 + 评分(0-1) + 二分类logits

1.05M 参数、<100ms 推理——轻量到可以在普通消费级 GPU 上实时运行,无需集群。对于大规模筛选(数千候选),单卡每小时可评估数万设计。

5.2 架构兼容性

PPI Head 与主流预训练模型的 6/6 关键层 shape 完全匹配,权重迁移路径已验证可行。迁移伪代码:

# 从预训练结构预测模型迁移亲和力模块权重
ref_sd = load_pretrained_checkpoint()
ppi_sd = ppi_model.state_dict()

for ppi_key in ppi_sd:
    ref_key = map_to_pretrained_key(ppi_key)  # 按架构映射表匹配
    if ref_key in ref_sd and ref_sd[ref_key].shape == ppi_sd[ppi_key].shape:
        ppi_sd[ppi_key] = ref_sd[ref_key]  # 直接迁移

ppi_model.load_state_dict(ppi_sd)
# 迁移后在PDBbind等数据集上fine-tune

5.3 端到端验证

PPI Head 已集成到完整管线,通过 7/7 生产型测试:

[PASS] PPI Head推理
[PASS] 序列设计模块
[PASS] 结构预测CLI
[PASS] 权重加载 + 架构兼容性验证
[PASS] 统一评分排名(生产模式 + 学术模式)
[PASS] 端到端数据流(生成→评估→评分→排名→报告)
[PASS] Docking评分集成(物理验证维度)

5.4 Docking物理验证:揪出"自信的错误"

管线新增了物理 docking 验证维度。核心思路:把设计的 binder 拆出来,重新对接到 target,看对接构象与原始设计是否一致。

结构预测评分Redocking RMSD解读
低 (<2Å)设计可靠,数据驱动与物理一致
高 (>2Å)"自信的错误"——评分虚高,结合模式错误
被低估的好设计——结构预测不确定但物理验证通过
设计确实差

实测验证:一个 pDockQ=0.90 的设计,redocking RMSD=4.5Å(结合模式错误),在引入 Docking 维度后排名从第1降至第2。这证明了物理验证维度的诊断价值。

含 Docking 的排名公式:

composite = 0.30*pDockQ + 0.20*pLDDT + 0.15*ipTM + 0.15*PPI + 0.20*Dock

六、下一步:从"架构就绪"到"精度达标"

PPI Head 当前处于架构就绪、权重迁移待完成阶段。接下来的工作:

6.1 权重迁移 + Fine-tune

  1. 从预训练模型迁移 6 个关键层的权重
  2. 在 PDBbind v2025(蛋白-蛋白复合物 Kd/Ki/IC50 数据)上 fine-tune
  3. 加入合成负样本(随机配对的非相互作用蛋白)
  4. 逐步引入中国人群特异性特征

6.2 精度验证

  1. 与商业 API 做头对头对比(相同靶点集)
  2. 在已知 Kd 的 benchmark 上计算 Spearman 相关性
  3. 验证 binary_logits 的 AUC

6.3 权重提升

随着精度验证通过,将 PPI 在 composite_score 中的权重从 0.15 逐步提升至 0.25-0.30,使其成为排名的主导维度之一。


七、总结:为什么 PPI Head 是管线差异化的关键

蛋白质设计管线的竞争已经从"能不能生成"转向"能不能筛选"。生成模型日趋同质化,真正的差异化在于评估能力。

DiVo PPI Head 的价值主张:

  1. 填补空白:AF3 家族模型预测结构但不预测亲和力,PPI Head 补上了这一环
  2. 紧耦合:直接复用结构预测模型的中间表征,避免信息损失
  3. 可定制:开源架构 + 可迁移权重 + 支持 fine-tune
  4. 轻量级:1.05M 参数,<100ms 推理,笔记本可跑
  5. 多任务:Kd值 + 评分 + 二分类三头协同,比单一打分更鲁棒

用一句话概括:PPI Head 让蛋白质设计管线从"会画结构"进化到"懂结合强弱",这是从工具走向产品的关键一步。


DiVo Gen²AI | 蛋白质设计工具链研究 2026年6月