Github开源生信云平台 DEMO
这是基因型填充(Imputation)后 GWAS 中最核心的概念之一。
对于真实测序或芯片数据,一个 SNP 的基因型是确定的:
GWAS模型实际使用的就是:
0 1 2
但填充(Minimac4、IMPUTE5、Beagle)后,很多位点实际上是不确定的。
例如某个样本某个位点:
GT:DS:GP 0/1:1.72:0.01,0.26,0.73
其中:
GP= P(0/0)=0.01 P(0/1)=0.26 P(1/1)=0.73
表示:
73%概率是 1/1 26%概率是 0/1 1%概率是 0/0
DS(Dosage)定义为:
DS = E(ALT allele count)
即:
DS = 0 × P(0/0) +1 × P(0/1) +2 × P(1/1)
代入:
DS = 0×0.01 +1×0.26 +2×0.73 =1.72
所以:
DS=1.72
实际上表示:
该样本携带 ALT 等位基因的期望拷贝数
取值范围:
0 ~ 2
而不是只能:
假设某个位点:
GP 0/0=0.49 0/1=0.50 1/1=0.01
那么:
DS=0.52
如果硬调用(Hard Call):
GT=0/1
直接变成:
1
会把:
0.52
变成:
1.00
误差非常大。
因此:
填充软件认为:
这个位点其实不太确定
于是保留:
给 GWAS 模型使用。
普通GWAS:
Y = β0 + β1 × Genotype + ε
芯片数据:
Genotype ∈ {0,1,2}
例如:
0 1 2 0 1 ...
填充后:
Genotype = DS
0.03 0.91 1.72 1.99 ...
模型变成:
Y = β0 + β1 × DS + ε
统计学上更加准确。
假设真实基因型:
1/1
但填充质量一般:
P(1/1)=0.6 P(0/1)=0.4
DS:
1.6
如果硬调用:
GT=1/1
2
或者:
都有可能。
DS保留了不确定性。
Dosage GWAS
通常比:
Hard-call GWAS
更有统计功效(Power)。
PLINK1.9只能使用:
Hard Call
对于:
PLINK1.9会变成:
对应:
DS=0.48
GT=0/0
0
所以实际分析的是:
Hard-called genotype
而不是:
Dosage
2010年前后:
Affymetrix Illumina
芯片直接测得:
AA AB BB
没有填充。
已经是最真实的数据。
那时候:
PLINK1.9
完全够用。
现在大型GWAS:
基本都是:
Chip ↓ QC ↓ Phasing ↓ Imputation ↓ Dosage ↓ Association
常用软件:
都直接使用:
DS
GT
你的数据:
890 samples 1000G Phase3 Minimac4 约800万 SNP
如果:
则:
DS → GT
信息损失。
PLINK2
DS 保留
统计功效更高。
可以把填充后的 SNP 看成:
GT = 最可能答案 DS = 加权平均答案
0/0 : 10% 0/1 : 20% 1/1 : 70%
PLINK1.9:
直接选: 1/1 → 2
PLINK2:
使用: 0×0.1+1×0.2+2×0.7=1.6
显然:
比
更能反映填充软件对该位点的真实置信度。
因此,对于 Minimac4 填充后的数据,当前主流 GWAS 实践都是尽量保留 Dosage(DS)进行关联分析,而不是退化成 Hard Call 后再用 PLINK1.9。