# DiVo Gen²AI 基因组健康分析报告——通用技术说明

**版本**: v1.0 | **日期**: 2026-06-15 | **适用**: 所有VCF-Report管线生成的报告

---

## 一、报告指标测算方法总览

### 1.1 致病性变异分类（ACMG分类）

| 指标 | 测算模型/方法 | 工具 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|------|---------|---------|------------|
| 致病性分类 | ACMG/AMP五级分类标准 | InterVar + AutoPVS1 + ClinVar | P/LP/VUS/LB/B | P=致病, LP=可能致病, VUS=意义不明, LB=可能良性, B=良性 | ClinVar中国提交比例<5%，VUS比例高于欧美人群 |
| 致病性预测评分 | 三模型交叉验证 | AlphaMissense + EVE + REVEL | AM>0.564=致病, EVE>0.8=致病, REVEL>0.5=致病 | 评分越高致病概率越大，三模型一致时置信度最高 | AlphaMissense/EVE训练数据以欧美序列为主，中国人群特有变异覆盖不足 |
| CADD评分 | 整合多组学特征 | CADD v1.6 | PHRED>20=前1%有害变异 | 分数越高，变异越可能有害 | CADD训练集不含中国人群特异性特征 |

**局限性说明**：
- ACMG分类依赖ClinVar数据库，该数据库中国人群提交量不足5%，导致中国人群特有变异的致病性判断证据不足
- VUS（意义不明）比例在中国人群中显著高于欧美人群，约40-60%的罕见变异无法明确分类
- 三模型交叉验证可降低假阳性，但无法完全消除

### 1.2 人群等位基因频率

| 指标 | 测算模型/方法 | 工具/数据库 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|-----------|---------|---------|------------|
| 全球人群频率 | gnomAD v4.1 | gnomAD基因组+外显子 | AF<0.01=罕见, AF<0.001=极罕见 | AF=等位基因频率，反映变异在人群中的普遍程度 | gnomAD EAS子集约2万人，远少于EUR子集（~80万） |
| 中国人群频率 | GVM + NyuWa + WBBC | GVM全基因组+WBBC | 同上 | 中国人群特有频率参考 | GVM覆盖全基因组SNP+INDEL，NyuWa含4252人WGS，WBBC含4480人WGS |
| 东亚人群频率 | 1000 Genomes EAS | 1KGP高覆盖 | 同上 | CHB(北京汉)+CHS(南方汉)+JPT(日本) | 503人，样本量较小 |

**局限性说明**：
- gnomAD v4.1欧洲裔样本量是东亚裔的40倍，东亚特有变异的频率估计精度较低
- 中国人群内部差异大（北方/南方/少数民族），单一"中国人群频率"可能掩盖亚群差异
- 极罕见变异（AF<0.0001）在任何数据库中频率估计均不可靠

### 1.3 多基因风险评分（PRS）

| 指标 | 测算模型/方法 | 工具/数据库 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|-----------|---------|---------|------------|
| PRS评分 | PGS Catalog加权求和 | PRSice-2 + PGS Catalog | 百分位数排名 | 个体在人群中的相对位置 | PGS Catalog中仅~15%评分有东亚验证数据 |
| OR值 | 相对风险比 | GWAS汇总统计 | OR>1=风险增加 | 携带该基因型相比不携带的疾病风险倍数 | 东亚GWAS样本量远小于欧洲，OR估计精度较低 |
| AUC | 模型区分度 | 交叉验证 | AUC 0.5-1.0 | AUC=0.5无区分力, 0.7中等, 0.8较好 | 中国人群PRS的AUC通常比欧洲人群低0.05-0.15 |

**关键公式**：
```
PRS = Σ (βi × Gi)
其中 βi = 第i个SNP的效应大小（来自GWAS）
     Gi = 第i个SNP的基因型（0/1/2个风险等位基因）
```

**局限性说明**：
- **PRS不是疾病预测**：PRS反映的是统计学风险，即使PRS在前1%，也不意味着一定患病
- **跨人群可移植性差**：基于欧洲GWAS训练的PRS，应用于中国人群时预测准确性下降30-60%
- **环境交互未纳入**：PRS仅考虑遗传因素，未纳入饮食、运动、环境暴露等关键因素
- **常见病vs罕见病**：PRS对常见复杂病（冠心病、糖尿病）有一定预测力，对罕见病几乎无预测力

### 1.4 药物基因组学

| 指标 | 测算模型/方法 | 工具/数据库 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|-----------|---------|---------|------------|
| 代谢表型 | 活性评分（AS） | PharmGKB + CPIC | AS=0正常, AS<0慢代谢, AS>2超快代谢 | 反映药物代谢酶活性 | CYP2D6*10在中国人群频率~50%（欧美<5%） |
| 用药建议 | CPIC指南 | PharmGKB注释 | A/B/C/D/F级推荐 | A=强推荐, F=不建议 | CPIC指南中中国人群临床证据等级多为B-C级 |

**局限性说明**：
- CYP2D6*10是中国人群最常见慢代谢等位基因（频率~50%），但CPIC指南主要基于欧美数据
- 药物代谢受肝功能、合并用药、年龄等多因素影响，基因型仅为其中一个因素
- "慢代谢"不等于"不能用"，而是需要调整剂量或选择替代药物

### 1.5 肿瘤风险评估

| 指标 | 测算模型/方法 | 工具/数据库 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|-----------|---------|---------|------------|
| 抑癌基因变异 | 致病性分类 | ClinVar + ACMG | P/LP/VUS | 致病性变异增加肿瘤风险 | BRCA1/2中国人群特有致病变异与欧美不同 |
| 肿瘤PRS | 多基因评分 | PGS Catalog | 百分位数 | 人群相对风险 | 中国人群肿瘤PRS验证数据极少 |

**局限性说明**：
- 肿瘤是体细胞突变累积的结果，胚系变异仅反映遗传易感性，不预测肿瘤发生
- "低风险"不等于"不会得肿瘤"，仍需常规筛查
- 中国人群高发肿瘤（肝癌、胃癌、食管癌）的PRS模型尚不成熟

### 1.6 新生抗原预测（如适用）

| 指标 | 测算模型/方法 | 工具/数据库 | 关键参数 | 参数意义 | 中国人群常模 |
|------|-------------|-----------|---------|---------|------------|
| HLA分型 | 基于测序数据分型 | OptiType(MHC-I) + HLAGenotype(MHC-II) | 4位分型精度 | 确定个体HLA类型 | 中国人群HLA等位基因频率与欧美差异显著 |
| 肽段结合力 | MHC-肽结合预测 | NetMHCpan-4.1 + NetMHCIIpan-4.0 | IC50<50nM=强结合, <500nM=弱结合 | IC50越低，肽段与MHC结合越强 | NetMHCpan训练数据以欧美HLA型为主 |
| 免疫原性 | 综合评分 | pVACtools + 自有模型 | 免疫原性评分0-1 | 分数越高，越可能激活T细胞 | 免疫原性验证数据极少，预测准确性有限 |

---

## 二、核心数据库版本与覆盖范围

| 数据库 | 版本 | 样本量 | 中国/东亚样本 | 用途 | 更新频率 |
|--------|------|--------|-------------|------|---------|
| ClinVar | 2026-06 | ~280万条提交 | <5% | 致病性分类 | 月度 |
| gnomAD | v4.1 | 80万+WGS | EAS~2万 | 人群频率 | 年度 |
| GVM | 2026-06 | 全基因组 | 中国人群 | 中国人群频率 | 季度 |
| NyuWa | v2 | 4,252人WGS | 中国汉族 | 中国人群频率 | 不定期 |
| WBBC | v2 | 4,480人WGS | 中国分区域汉族 | 中国人群频率 | 不定期 |
| PGS Catalog | 2026-06 | 4,700+评分 | ~15%有EAS验证 | PRS评分 | 月度 |
| PharmGKB | 2026-06 | 7,000+药物-基因对 | 中国证据B-C级 | 药物基因组 | 月度 |
| CPIC | 2026-06 | 46个药物-基因对 | 部分有东亚数据 | 用药指南 | 季度 |
| VEP Cache | 112/GRCh38 | - | - | 变异注释 | 版本跟随Ensembl |
| dbNSFP | v4.6 | 30+预测工具整合 | - | 功能预测 | 年度 |

---

## 三、中国人群数据覆盖现状与改进方向

### 3.1 当前差距

| 维度 | 欧美人群 | 中国人群 | 差距 |
|------|---------|---------|------|
| WGS样本量 | >100万 | ~10万 | 10倍 |
| ClinVar提交量 | >250万条 | <10万条 | 25倍 |
| GWAS研究数量 | >5,000项 | ~500项 | 10倍 |
| PRS验证数据 | >3,000评分 | ~500评分 | 6倍 |
| 药物基因组A级证据 | >30对 | <10对 | 3倍 |

### 3.2 我们的改进措施

| 措施 | 具体内容 | 预期效果 |
|------|---------|---------|
| 多源中国人群频率 | 整合GVM+NyuWa+WBBC+CMDB+PGG.SNV | 减少频率估计偏差 |
| 中国人群PRS验证 | 对PGS Catalog评分在中国人群数据上重新校准 | 提高PRS预测准确性 |
| VUS再分类 | 基于中国人群功能数据和文献，对VUS进行再评估 | 降低VUS比例 |
| 数据飞轮 | 每例分析结果脱敏后纳入自有数据库 | 持续积累中国人群数据 |

---

## 四、关键术语解释

| 术语 | 全称 | 通俗解释 |
|------|------|---------|
| VCF | Variant Call Format | 存储基因变异信息的文件格式 |
| SNP | Single Nucleotide Polymorphism | 单个DNA碱基的改变，最常见变异类型 |
| Indel | Insertion/Deletion | DNA序列中碱基的插入或缺失 |
| AF | Allele Frequency | 等位基因频率，某个变异在人群中的比例 |
| ACMG | American College of Medical Genetics | 美国医学遗传学学会，制定变异分类标准 |
| PRS | Polygenic Risk Score | 多基因风险评分，综合多个基因变异评估疾病风险 |
| GWAS | Genome-Wide Association Study | 全基因组关联分析，寻找基因与疾病的关联 |
| HLA | Human Leukocyte Antigen | 人类白细胞抗原，决定免疫系统识别"自我"与"非我" |
| OR | Odds Ratio | 优势比，携带某基因型相比不携带的疾病风险倍数 |
| AUC | Area Under Curve | 曲线下面积，衡量模型区分能力的指标 |
| VUS | Variant of Uncertain Significance | 意义不明的变异，目前无法判断是否致病 |
| CADD | Combined Annotation Dependent Depletion | 综合注释依赖耗竭评分，预测变异有害性 |
| CPIC | Clinical Pharmacogenetics Implementation Consortium | 临床药物遗传学实施联盟，制定用药指南 |
| MHC | Major Histocompatibility Complex | 主要组织相容性复合体，HLA的基因区域 |

---

## 五、引用文献

1. Richards S, et al. Standards and guidelines for the interpretation of sequence variants. *Genet Med*. 2015;17(5):405-424. (ACMG分类标准)
2. Karczewski KJ, et al. The mutational constraint spectrum from variation in 141,456 humans. *Nature*. 2020;581:434-443. (gnomAD)
3. Cheng Y, et al. NyuWa: A deeply sequenced Chinese population dataset. *Nat Commun*. 2024. (NyuWa中国人群数据)
4. Lambert SA, et al. The Polygenic Score Catalog as an open database for reproducibility and systematic evaluation. *Nat Genet*. 2021;53:420-425. (PGS Catalog)
5. PharmGKB. Clinical Pharmacogenetics Implementation Consortium Guidelines. *Clin Pharmacol Ther*. Various years. (CPIC用药指南)
6. Jumper J, et al. Highly accurate protein structure prediction with AlphaFold. *Nature*. 2021;596:583-589. (AlphaMissense基础)
7. Cheng J, et al. Accurate proteome-wide missense variant effect prediction with AlphaMissense. *Science*. 2023;381:eadg7492. (AlphaMissense)

---

*本文档为通用技术说明，随数据库和模型更新而修订。最新版本请查阅 DiVo Gen²AI 技术文档库。*
