2026-06-18||Source

DiVo Gen²AI 完成 RNA 语言模型深度微调：让 AI 真正读懂 mRNA 的"翻译密码"

发布日期: 2026-06-18 作者: DiVo Gen²AI 研发团队

一句话概要

DiVo Gen²AI 团队完成了 RNA 语言模型的多轮深度微调，在核糖体装载（MRL）预测任务上达到 Spearman 相关系数 0.92 的业界领先水平，并成功将模型适配到 HEK、Muscle、PC3 三种细胞系的翻译效率预测，为 mRNA 药物设计提供从序列到功能的端到端 AI 能力。

为什么 mRNA 设计需要"翻译效率预测"？

mRNA 药物（如新冠疫苗）的核心挑战之一是：同一段蛋白质编码序列，可以对应无数种 mRNA 序列设计，但它们的翻译效率天差地别。

决定翻译效率的关键区域是 5' UTR（非翻译区）——它像一把"钥匙"，控制核糖体识别并启动翻译的效率。一个好的 5' UTR 设计可以让蛋白表达量提升 10 倍以上。

但 5' UTR 的序列-功能关系极其复杂，涉及：

二级结构：UTR 折叠形成的发卡结构影响核糖体扫描
上游 AUG（uAUG）：错误的起始密码子导致翻译提前启动
上游开放阅读框（uORF）：消耗核糖体，降低主蛋白产量
CG 含量与密码子使用偏好：影响 mRNA 稳定性和翻译速率
组织特异性：同一 UTR 在不同细胞中表现不同

传统方法靠大规模实验筛选，耗时耗资。AI 预测可以将筛选空间从百万级压缩到百级，加速 mRNA 药物研发。

DiVo Gen²AI 的微调策略：三轮渐进式训练

我们没有简单地在公开数据上跑一次微调，而是设计了三轮渐进式微调管线，逐步注入不同层次的知识：

Round 1：大规模 MRL 预训练

项目	详情
数据规模	~26 万条随机核苷酸序列 + 实验测量的核糖体装载值
学习目标	从序列预测 MRL（核糖体装载，翻译效率的代理指标）
核心成果	Spearman = 0.92, R² = 0.87

这一轮让模型学会"读懂"5' UTR 序列与翻译效率的基础关系。

Round 2：生物学特征增强微调

项目	详情
增强特征	26 维生物学特征（CG 比例、密码子频率、uAUG、uORF 等）
技术创新	将手工计算的生物学特征与模型自学习的序列嵌入融合
学习目标	在序列理解基础上，显式注入领域知识

技术创新点：传统语言模型只从序列中隐式学习特征。我们设计了双通道架构——模型同时接收原始序列和 26 维显式生物学特征，让 AI 既能"自学"又能"被教"，融合数据驱动与知识驱动的优势。

Round 3：多组织翻译效率适配

细胞系	来源	应用场景
HEK293T	人胚胎肾细胞	基础研究、蛋白生产
Muscle	肌肉组织	肌肉靶向 mRNA 治疗
PC3	前列腺癌细胞	肿瘤治疗研究

这一轮让模型理解组织特异性——同一 UTR 在不同细胞中的翻译效率差异，为精准医疗场景提供支持。

微调成果一览

核心指标

模型	任务	R²	Spearman	说明
MRL 基础模型	核糖体装载预测	0.87	0.92	大规模数据训练，通用能力强
HEK + BioFeats	HEK 翻译效率	0.54	0.72	肾细胞系适配
Muscle 原始	肌肉翻译效率	0.64	0.77	肌肉组织适配
Muscle + BioFeats	肌肉翻译效率	0.56	0.75	生物学特征增强
PC3 原始	前列腺癌翻译效率	0.51	0.68	肿瘤细胞适配
PC3 + BioFeats	前列腺癌翻译效率	0.47	0.69	生物学特征增强

关键发现

MRL 基础模型表现最优：在大规模数据上训练的通用模型，Spearman 达到 0.92，可作为 mRNA 设计的通用引擎
组织特异性显著：同一模型在 Muscle（肌肉）上表现优于 PC3（前列腺癌），说明翻译调控机制具有组织依赖性
生物学特征的双面性：26 维 BioFeatures 在部分场景下提升 Spearman（如 PC3: 0.68→0.69），但在数据充足的场景下可能引入噪声。这提示我们需要更精细的特征选择策略

技术创新亮点

1. 双通道特征融合架构

传统 RNA 语言模型只接收序列输入。我们设计了双通道架构：

5' UTR 序列 → Transformer 编码器 → 序列嵌入
                                          ↓
26 维生物学特征 → 标准化 → 特征嵌入     →  融合层 → 预测头
                                          ↑
                    (CG比例、密码子频率、uAUG、uORF等)

这种设计让模型同时利用：

自学习特征：Transformer 从序列中自动提取的上下文模式
领域知识特征：生物学家手工计算的功能性指标

2. 自适应训练策略

针对资源受限场景，我们实现了自适应训练策略：

批大小根据序列长度动态调整，避免显存溢出
梯度累积确保等效大批大小训练效果
在有限资源下最大化训练效率

3. 渐进式微调管线

三轮微调不是简单的重复，而是知识递进：

Round 1 (通用能力)  →  Round 2 (领域知识)  →  Round 3 (组织特异)
   26万条数据           26维生物特征           3个细胞系

每一轮都基于上一轮的权重继续训练，避免灾难性遗忘。

4. 数据质量管控

在训练过程中，我们建立了严格的数据质量管控流程，能在百万行数据中精准定位损坏记录（如非法字符、字段粘连），确保训练数据质量，避免"垃圾进垃圾出"。

应用前景

1. mRNA 疫苗优化

应用	价值
5' UTR 设计	筛选高翻译效率的 UTR 序列，提升抗原表达量
密码子优化	在保持氨基酸序列不变的前提下，优化翻译速率
稳定性提升	预测并避免降解热点，延长 mRNA 半衰期

2. 罕见病 mRNA 治疗

对于需要靶向特定组织（如肌肉）的 mRNA 治疗，我们的组织特异性模型可以：

预测 UTR 在目标组织中的翻译效率
避免在非目标组织中的泄漏表达
降低脱靶副作用风险

3. 蛋白质生产优化

生物制药中，重组蛋白的表达量直接影响生产成本。我们的模型可以：

优化 CHO 细胞、HEK 细胞中的蛋白表达
预测不同 UTR 设计的表达差异
将实验筛选从百万级压缩到百级

4. 合成生物学设计

在合成生物学中，精确控制蛋白表达水平是关键。我们的模型提供：

定量预测：给定 UTR 序列，预测翻译效率数值
序列设计：反向优化 UTR 序列以达到目标表达水平
多目标优化：平衡翻译效率、mRNA 稳定性、免疫原性

对行业的意义

从"试错"到"预测"

传统 mRNA 设计依赖大规模实验筛选，一个候选药物需要测试数千个 UTR 变体。我们的模型将这一过程从实验室搬到计算机：

传统方法	AI 辅助设计
筛选 10,000 个变体	计算机预测 + 实验验证 100 个
耗时 3-6 个月	耗时 1-2 周
成本 ¥50-100 万	成本 ¥5-10 万

从"通用"到"精准"

不同疾病需要靶向不同组织。我们的多组织模型让 mRNA 设计从"一刀切"走向精准医疗：

肌肉疾病 → 使用 Muscle 适配模型
肿瘤治疗 → 使用 PC3 适配模型
通用场景 → 使用 MRL 基础模型

从"黑盒"到"可解释"

26 维生物学特征的引入，让模型的预测不再是黑盒。我们可以回答：

"为什么这个 UTR 翻译效率低？" → 因为有 uAUG
"如何改进？" → 移除 uAUG，调整 CG 含量
"在肌肉组织中会怎样？" → 查询 Muscle 模型预测

展望

DiVo Gen²AI 将继续推进 RNA 语言模型的能力边界：

更多组织适配：扩展到肝脏、心脏、脑组织等更多细胞系
3' UTR 建模：当前聚焦 5' UTR，未来将纳入 3' UTR 的稳定性调控
全序列设计：从"预测"走向"生成"，实现端到端的 mRNA 序列设计
多模态融合：结合 RNA 二级结构预测，提升模型对折叠影响的捕捉能力

关于 DiVo Gen²AI

DiVo Gen²AI 是专注于生物计算的专业团队，业务覆盖基因组工程、蛋白质工程、生物信息科技、生物医药工程等领域。我们坚持"计算编程能力是真正壁垒"的理念，通过持续构建专有计算管线和 AI 模型，为科研和产业提供端到端的生物计算服务。

联系我们：合作咨询请通过团队官方渠道联系。

本文涉及的技术细节已在脱敏处理基础上呈现。模型权重和训练管线为 DiVo Gen²AI 专有资产。