DiVo Gen²AI 完成 RNA 语言模型深度微调:让 AI 真正读懂 mRNA 的"翻译密码"
发布日期: 2026-06-18 作者: DiVo Gen²AI 研发团队
一句话概要
DiVo Gen²AI 团队完成了 RNA 语言模型的多轮深度微调,在核糖体装载(MRL)预测任务上达到 Spearman 相关系数 0.92 的业界领先水平,并成功将模型适配到 HEK、Muscle、PC3 三种细胞系的翻译效率预测,为 mRNA 药物设计提供从序列到功能的端到端 AI 能力。
为什么 mRNA 设计需要"翻译效率预测"?
mRNA 药物(如新冠疫苗)的核心挑战之一是:同一段蛋白质编码序列,可以对应无数种 mRNA 序列设计,但它们的翻译效率天差地别。
决定翻译效率的关键区域是 5' UTR(非翻译区)——它像一把"钥匙",控制核糖体识别并启动翻译的效率。一个好的 5' UTR 设计可以让蛋白表达量提升 10 倍以上。
但 5' UTR 的序列-功能关系极其复杂,涉及:
- 二级结构:UTR 折叠形成的发卡结构影响核糖体扫描
- 上游 AUG(uAUG):错误的起始密码子导致翻译提前启动
- 上游开放阅读框(uORF):消耗核糖体,降低主蛋白产量
- CG 含量与密码子使用偏好:影响 mRNA 稳定性和翻译速率
- 组织特异性:同一 UTR 在不同细胞中表现不同
传统方法靠大规模实验筛选,耗时耗资。AI 预测可以将筛选空间从百万级压缩到百级,加速 mRNA 药物研发。
DiVo Gen²AI 的微调策略:三轮渐进式训练
我们没有简单地在公开数据上跑一次微调,而是设计了三轮渐进式微调管线,逐步注入不同层次的知识:
Round 1:大规模 MRL 预训练
| 项目 | 详情 |
|---|---|
| 数据规模 | ~26 万条随机核苷酸序列 + 实验测量的核糖体装载值 |
| 学习目标 | 从序列预测 MRL(核糖体装载,翻译效率的代理指标) |
| 核心成果 | Spearman = 0.92, R² = 0.87 |
这一轮让模型学会"读懂"5' UTR 序列与翻译效率的基础关系。
Round 2:生物学特征增强微调
| 项目 | 详情 |
|---|---|
| 增强特征 | 26 维生物学特征(CG 比例、密码子频率、uAUG、uORF 等) |
| 技术创新 | 将手工计算的生物学特征与模型自学习的序列嵌入融合 |
| 学习目标 | 在序列理解基础上,显式注入领域知识 |
技术创新点:传统语言模型只从序列中隐式学习特征。我们设计了双通道架构——模型同时接收原始序列和 26 维显式生物学特征,让 AI 既能"自学"又能"被教",融合数据驱动与知识驱动的优势。
Round 3:多组织翻译效率适配
| 细胞系 | 来源 | 应用场景 |
|---|---|---|
| HEK293T | 人胚胎肾细胞 | 基础研究、蛋白生产 |
| Muscle | 肌肉组织 | 肌肉靶向 mRNA 治疗 |
| PC3 | 前列腺癌细胞 | 肿瘤治疗研究 |
这一轮让模型理解组织特异性——同一 UTR 在不同细胞中的翻译效率差异,为精准医疗场景提供支持。
微调成果一览
核心指标
| 模型 | 任务 | R² | Spearman | 说明 |
|---|---|---|---|---|
| MRL 基础模型 | 核糖体装载预测 | 0.87 | 0.92 | 大规模数据训练,通用能力强 |
| HEK + BioFeats | HEK 翻译效率 | 0.54 | 0.72 | 肾细胞系适配 |
| Muscle 原始 | 肌肉翻译效率 | 0.64 | 0.77 | 肌肉组织适配 |
| Muscle + BioFeats | 肌肉翻译效率 | 0.56 | 0.75 | 生物学特征增强 |
| PC3 原始 | 前列腺癌翻译效率 | 0.51 | 0.68 | 肿瘤细胞适配 |
| PC3 + BioFeats | 前列腺癌翻译效率 | 0.47 | 0.69 | 生物学特征增强 |
关键发现
-
MRL 基础模型表现最优:在大规模数据上训练的通用模型,Spearman 达到 0.92,可作为 mRNA 设计的通用引擎
-
组织特异性显著:同一模型在 Muscle(肌肉)上表现优于 PC3(前列腺癌),说明翻译调控机制具有组织依赖性
-
生物学特征的双面性:26 维 BioFeatures 在部分场景下提升 Spearman(如 PC3: 0.68→0.69),但在数据充足的场景下可能引入噪声。这提示我们需要更精细的特征选择策略
技术创新亮点
1. 双通道特征融合架构
传统 RNA 语言模型只接收序列输入。我们设计了双通道架构:
5' UTR 序列 → Transformer 编码器 → 序列嵌入
↓
26 维生物学特征 → 标准化 → 特征嵌入 → 融合层 → 预测头
↑
(CG比例、密码子频率、uAUG、uORF等)
这种设计让模型同时利用:
- 自学习特征:Transformer 从序列中自动提取的上下文模式
- 领域知识特征:生物学家手工计算的功能性指标
2. 自适应训练策略
针对资源受限场景,我们实现了自适应训练策略:
- 批大小根据序列长度动态调整,避免显存溢出
- 梯度累积确保等效大批大小训练效果
- 在有限资源下最大化训练效率
3. 渐进式微调管线
三轮微调不是简单的重复,而是知识递进:
Round 1 (通用能力) → Round 2 (领域知识) → Round 3 (组织特异)
26万条数据 26维生物特征 3个细胞系
每一轮都基于上一轮的权重继续训练,避免灾难性遗忘。
4. 数据质量管控
在训练过程中,我们建立了严格的数据质量管控流程,能在百万行数据中精准定位损坏记录(如非法字符、字段粘连),确保训练数据质量,避免"垃圾进垃圾出"。
应用前景
1. mRNA 疫苗优化
| 应用 | 价值 |
|---|---|
| 5' UTR 设计 | 筛选高翻译效率的 UTR 序列,提升抗原表达量 |
| 密码子优化 | 在保持氨基酸序列不变的前提下,优化翻译速率 |
| 稳定性提升 | 预测并避免降解热点,延长 mRNA 半衰期 |
2. 罕见病 mRNA 治疗
对于需要靶向特定组织(如肌肉)的 mRNA 治疗,我们的组织特异性模型可以:
- 预测 UTR 在目标组织中的翻译效率
- 避免在非目标组织中的泄漏表达
- 降低脱靶副作用风险
3. 蛋白质生产优化
生物制药中,重组蛋白的表达量直接影响生产成本。我们的模型可以:
- 优化 CHO 细胞、HEK 细胞中的蛋白表达
- 预测不同 UTR 设计的表达差异
- 将实验筛选从百万级压缩到百级
4. 合成生物学设计
在合成生物学中,精确控制蛋白表达水平是关键。我们的模型提供:
- 定量预测:给定 UTR 序列,预测翻译效率数值
- 序列设计:反向优化 UTR 序列以达到目标表达水平
- 多目标优化:平衡翻译效率、mRNA 稳定性、免疫原性
对行业的意义
从"试错"到"预测"
传统 mRNA 设计依赖大规模实验筛选,一个候选药物需要测试数千个 UTR 变体。我们的模型将这一过程从实验室搬到计算机:
| 传统方法 | AI 辅助设计 |
|---|---|
| 筛选 10,000 个变体 | 计算机预测 + 实验验证 100 个 |
| 耗时 3-6 个月 | 耗时 1-2 周 |
| 成本 ¥50-100 万 | 成本 ¥5-10 万 |
从"通用"到"精准"
不同疾病需要靶向不同组织。我们的多组织模型让 mRNA 设计从"一刀切"走向精准医疗:
- 肌肉疾病 → 使用 Muscle 适配模型
- 肿瘤治疗 → 使用 PC3 适配模型
- 通用场景 → 使用 MRL 基础模型
从"黑盒"到"可解释"
26 维生物学特征的引入,让模型的预测不再是黑盒。我们可以回答:
- "为什么这个 UTR 翻译效率低?" → 因为有 uAUG
- "如何改进?" → 移除 uAUG,调整 CG 含量
- "在肌肉组织中会怎样?" → 查询 Muscle 模型预测
展望
DiVo Gen²AI 将继续推进 RNA 语言模型的能力边界:
- 更多组织适配:扩展到肝脏、心脏、脑组织等更多细胞系
- 3' UTR 建模:当前聚焦 5' UTR,未来将纳入 3' UTR 的稳定性调控
- 全序列设计:从"预测"走向"生成",实现端到端的 mRNA 序列设计
- 多模态融合:结合 RNA 二级结构预测,提升模型对折叠影响的捕捉能力
关于 DiVo Gen²AI
DiVo Gen²AI 是专注于生物计算的专业团队,业务覆盖基因组工程、蛋白质工程、生物信息科技、生物医药工程等领域。我们坚持"计算编程能力是真正壁垒"的理念,通过持续构建专有计算管线和 AI 模型,为科研和产业提供端到端的生物计算服务。
联系我们:合作咨询请通过团队官方渠道联系。
本文涉及的技术细节已在脱敏处理基础上呈现。模型权重和训练管线为 DiVo Gen²AI 专有资产。