2026-06-18||Source

DiVo Gen²AI 完成 RNA 语言模型深度微调:让 AI 真正读懂 mRNA 的"翻译密码"

发布日期: 2026-06-18 作者: DiVo Gen²AI 研发团队


一句话概要

DiVo Gen²AI 团队完成了 RNA 语言模型的多轮深度微调,在核糖体装载(MRL)预测任务上达到 Spearman 相关系数 0.92 的业界领先水平,并成功将模型适配到 HEK、Muscle、PC3 三种细胞系的翻译效率预测,为 mRNA 药物设计提供从序列到功能的端到端 AI 能力。


为什么 mRNA 设计需要"翻译效率预测"?

mRNA 药物(如新冠疫苗)的核心挑战之一是:同一段蛋白质编码序列,可以对应无数种 mRNA 序列设计,但它们的翻译效率天差地别。

决定翻译效率的关键区域是 5' UTR(非翻译区)——它像一把"钥匙",控制核糖体识别并启动翻译的效率。一个好的 5' UTR 设计可以让蛋白表达量提升 10 倍以上。

但 5' UTR 的序列-功能关系极其复杂,涉及:

  • 二级结构:UTR 折叠形成的发卡结构影响核糖体扫描
  • 上游 AUG(uAUG):错误的起始密码子导致翻译提前启动
  • 上游开放阅读框(uORF):消耗核糖体,降低主蛋白产量
  • CG 含量与密码子使用偏好:影响 mRNA 稳定性和翻译速率
  • 组织特异性:同一 UTR 在不同细胞中表现不同

传统方法靠大规模实验筛选,耗时耗资。AI 预测可以将筛选空间从百万级压缩到百级,加速 mRNA 药物研发。


DiVo Gen²AI 的微调策略:三轮渐进式训练

我们没有简单地在公开数据上跑一次微调,而是设计了三轮渐进式微调管线,逐步注入不同层次的知识:

Round 1:大规模 MRL 预训练

项目详情
数据规模~26 万条随机核苷酸序列 + 实验测量的核糖体装载值
学习目标从序列预测 MRL(核糖体装载,翻译效率的代理指标)
核心成果Spearman = 0.92, R² = 0.87

这一轮让模型学会"读懂"5' UTR 序列与翻译效率的基础关系。

Round 2:生物学特征增强微调

项目详情
增强特征26 维生物学特征(CG 比例、密码子频率、uAUG、uORF 等)
技术创新将手工计算的生物学特征与模型自学习的序列嵌入融合
学习目标在序列理解基础上,显式注入领域知识

技术创新点:传统语言模型只从序列中隐式学习特征。我们设计了双通道架构——模型同时接收原始序列和 26 维显式生物学特征,让 AI 既能"自学"又能"被教",融合数据驱动与知识驱动的优势。

Round 3:多组织翻译效率适配

细胞系来源应用场景
HEK293T人胚胎肾细胞基础研究、蛋白生产
Muscle肌肉组织肌肉靶向 mRNA 治疗
PC3前列腺癌细胞肿瘤治疗研究

这一轮让模型理解组织特异性——同一 UTR 在不同细胞中的翻译效率差异,为精准医疗场景提供支持。


微调成果一览

核心指标

模型任务Spearman说明
MRL 基础模型核糖体装载预测0.870.92大规模数据训练,通用能力强
HEK + BioFeatsHEK 翻译效率0.540.72肾细胞系适配
Muscle 原始肌肉翻译效率0.640.77肌肉组织适配
Muscle + BioFeats肌肉翻译效率0.560.75生物学特征增强
PC3 原始前列腺癌翻译效率0.510.68肿瘤细胞适配
PC3 + BioFeats前列腺癌翻译效率0.470.69生物学特征增强

关键发现

  1. MRL 基础模型表现最优:在大规模数据上训练的通用模型,Spearman 达到 0.92,可作为 mRNA 设计的通用引擎

  2. 组织特异性显著:同一模型在 Muscle(肌肉)上表现优于 PC3(前列腺癌),说明翻译调控机制具有组织依赖性

  3. 生物学特征的双面性:26 维 BioFeatures 在部分场景下提升 Spearman(如 PC3: 0.68→0.69),但在数据充足的场景下可能引入噪声。这提示我们需要更精细的特征选择策略


技术创新亮点

1. 双通道特征融合架构

传统 RNA 语言模型只接收序列输入。我们设计了双通道架构

5' UTR 序列 → Transformer 编码器 → 序列嵌入
                                          ↓
26 维生物学特征 → 标准化 → 特征嵌入     →  融合层 → 预测头
                                          ↑
                    (CG比例、密码子频率、uAUG、uORF等)

这种设计让模型同时利用:

  • 自学习特征:Transformer 从序列中自动提取的上下文模式
  • 领域知识特征:生物学家手工计算的功能性指标

2. 自适应训练策略

针对资源受限场景,我们实现了自适应训练策略

  • 批大小根据序列长度动态调整,避免显存溢出
  • 梯度累积确保等效大批大小训练效果
  • 在有限资源下最大化训练效率

3. 渐进式微调管线

三轮微调不是简单的重复,而是知识递进

Round 1 (通用能力)  →  Round 2 (领域知识)  →  Round 3 (组织特异)
   26万条数据           26维生物特征           3个细胞系

每一轮都基于上一轮的权重继续训练,避免灾难性遗忘。

4. 数据质量管控

在训练过程中,我们建立了严格的数据质量管控流程,能在百万行数据中精准定位损坏记录(如非法字符、字段粘连),确保训练数据质量,避免"垃圾进垃圾出"。


应用前景

1. mRNA 疫苗优化

应用价值
5' UTR 设计筛选高翻译效率的 UTR 序列,提升抗原表达量
密码子优化在保持氨基酸序列不变的前提下,优化翻译速率
稳定性提升预测并避免降解热点,延长 mRNA 半衰期

2. 罕见病 mRNA 治疗

对于需要靶向特定组织(如肌肉)的 mRNA 治疗,我们的组织特异性模型可以:

  • 预测 UTR 在目标组织中的翻译效率
  • 避免在非目标组织中的泄漏表达
  • 降低脱靶副作用风险

3. 蛋白质生产优化

生物制药中,重组蛋白的表达量直接影响生产成本。我们的模型可以:

  • 优化 CHO 细胞、HEK 细胞中的蛋白表达
  • 预测不同 UTR 设计的表达差异
  • 将实验筛选从百万级压缩到百级

4. 合成生物学设计

在合成生物学中,精确控制蛋白表达水平是关键。我们的模型提供:

  • 定量预测:给定 UTR 序列,预测翻译效率数值
  • 序列设计:反向优化 UTR 序列以达到目标表达水平
  • 多目标优化:平衡翻译效率、mRNA 稳定性、免疫原性

对行业的意义

从"试错"到"预测"

传统 mRNA 设计依赖大规模实验筛选,一个候选药物需要测试数千个 UTR 变体。我们的模型将这一过程从实验室搬到计算机

传统方法AI 辅助设计
筛选 10,000 个变体计算机预测 + 实验验证 100 个
耗时 3-6 个月耗时 1-2 周
成本 ¥50-100 万成本 ¥5-10 万

从"通用"到"精准"

不同疾病需要靶向不同组织。我们的多组织模型让 mRNA 设计从"一刀切"走向精准医疗

  • 肌肉疾病 → 使用 Muscle 适配模型
  • 肿瘤治疗 → 使用 PC3 适配模型
  • 通用场景 → 使用 MRL 基础模型

从"黑盒"到"可解释"

26 维生物学特征的引入,让模型的预测不再是黑盒。我们可以回答:

  • "为什么这个 UTR 翻译效率低?" → 因为有 uAUG
  • "如何改进?" → 移除 uAUG,调整 CG 含量
  • "在肌肉组织中会怎样?" → 查询 Muscle 模型预测

展望

DiVo Gen²AI 将继续推进 RNA 语言模型的能力边界:

  1. 更多组织适配:扩展到肝脏、心脏、脑组织等更多细胞系
  2. 3' UTR 建模:当前聚焦 5' UTR,未来将纳入 3' UTR 的稳定性调控
  3. 全序列设计:从"预测"走向"生成",实现端到端的 mRNA 序列设计
  4. 多模态融合:结合 RNA 二级结构预测,提升模型对折叠影响的捕捉能力

关于 DiVo Gen²AI

DiVo Gen²AI 是专注于生物计算的专业团队,业务覆盖基因组工程、蛋白质工程、生物信息科技、生物医药工程等领域。我们坚持"计算编程能力是真正壁垒"的理念,通过持续构建专有计算管线和 AI 模型,为科研和产业提供端到端的生物计算服务。

联系我们:合作咨询请通过团队官方渠道联系。


本文涉及的技术细节已在脱敏处理基础上呈现。模型权重和训练管线为 DiVo Gen²AI 专有资产。