dosage是什么,在GWAS分析中的作用是什么,填充后关联分析 使用 PLINK 1.9 不使用 dosage 使用什么

最后发布时间 : 2026-06-24 15:21:44 浏览量 :

这是基因型填充(Imputation)后 GWAS 中最核心的概念之一。


1. 什么是 Dosage(DS)

对于真实测序或芯片数据,一个 SNP 的基因型是确定的:

GenotypeALT等位基因数
0/00
0/11
1/12

GWAS模型实际使用的就是:

0
1
2

但填充(Minimac4、IMPUTE5、Beagle)后,很多位点实际上是不确定的。

例如某个样本某个位点:

GT:DS:GP
0/1:1.72:0.01,0.26,0.73

其中:

GP=
P(0/0)=0.01
P(0/1)=0.26
P(1/1)=0.73

表示:

73%概率是 1/1
26%概率是 0/1
1%概率是 0/0

DS(Dosage)定义为:

DS = E(ALT allele count)

即:

DS =
0 × P(0/0)
+1 × P(0/1)
+2 × P(1/1)

代入:

DS =
0×0.01
+1×0.26
+2×0.73

=1.72

所以:

DS=1.72

实际上表示:

该样本携带 ALT 等位基因的期望拷贝数

取值范围:

0 ~ 2

而不是只能:

0
1
2

2. 为什么要有 Dosage

假设某个位点:

GP
0/0=0.49
0/1=0.50
1/1=0.01

那么:

DS=0.52

如果硬调用(Hard Call):

GT=0/1

直接变成:

1

会把:

0.52

变成:

1.00

误差非常大。


因此:

填充软件认为:

这个位点其实不太确定

于是保留:

0.52

给 GWAS 模型使用。


3. GWAS模型如何使用DS

普通GWAS:

Y = β0 + β1 × Genotype + ε

芯片数据:

Genotype ∈ {0,1,2}

例如:

0
1
2
0
1
...

填充后:

Genotype = DS

例如:

0.03
0.91
1.72
1.99
...

模型变成:

Y = β0 + β1 × DS + ε

统计学上更加准确。


4. 为什么Dosage更有统计功效

假设真实基因型:

1/1

但填充质量一般:

P(1/1)=0.6
P(0/1)=0.4

DS:

1.6

如果硬调用:

GT=1/1

变成:

2

或者:

GT=0/1

变成:

1

都有可能。


DS保留了不确定性。

因此:

Dosage GWAS

通常比:

Hard-call GWAS

更有统计功效(Power)。


5. PLINK1.9 不使用Dosage时使用什么

PLINK1.9只能使用:

Hard Call

即:

0
1
2

对于:

DS=1.72

PLINK1.9会变成:

GT=1/1

对应:

2

对于:

DS=0.48

变成:

GT=0/0

对应:

0

所以实际分析的是:

Hard-called genotype

而不是:

Dosage

6. 为什么早期GWAS都用PLINK1.9

2010年前后:

Affymetrix
Illumina

芯片直接测得:

AA
AB
BB

没有填充。

因此:

0
1
2

已经是最真实的数据。


那时候:

PLINK1.9

完全够用。


7. 现代填充GWAS的标准流程

现在大型GWAS:

例如:

  • UK Biobank
  • PGC
  • FinnGen
  • TOPMed

基本都是:

Chip
↓
QC
↓
Phasing
↓
Imputation
↓
Dosage
↓
Association

常用软件:

  • PLINK2
  • SAIGE
  • REGENIE
  • BOLT-LMM

都直接使用:

DS

而不是:

GT

8. 对你这个项目的影响有多大

你的数据:

890 samples
1000G Phase3
Minimac4
约800万 SNP

如果:

PLINK1.9

则:

DS → GT

信息损失。


如果:

PLINK2

则:

DS 保留

统计功效更高。


简单理解

可以把填充后的 SNP 看成:

GT = 最可能答案
DS = 加权平均答案

例如:

0/0 : 10%
0/1 : 20%
1/1 : 70%

PLINK1.9:

直接选:
1/1 → 2

PLINK2:

使用:
0×0.1+1×0.2+2×0.7=1.6

显然:

1.6

2

更能反映填充软件对该位点的真实置信度。

因此,对于 Minimac4 填充后的数据,当前主流 GWAS 实践都是尽量保留 Dosage(DS)进行关联分析,而不是退化成 Hard Call 后再用 PLINK1.9。