Github开源生信云平台 DEMO
这是理解 Imputation 结果的关键。我们从生物学角度一步一步讲。
你的位点:
CHROM=1 POS=55057 REF=A ALT=G GT:GP:DS 0|0:1,0,0:0
VCF中:
REF=A ALT=G
表示参考基因组(GRCh37/38)在这个位置是:
A
发现有人群中存在另一种碱基:
G
因此:
A = REF allele G = ALT allele
VCF规范规定:
0 = REF 1 = 第一个ALT 2 = 第二个ALT ...
所以:
对应:
| 编码 | 实际碱基 || -- | ---- || 0 | A || 1 | G |
0|0
实际就是:
A|A
而:
0|1
实际是:
A|G
1|1
G|G
因为人类是二倍体(diploid)。
每个常染色体:
一条来自父亲 一条来自母亲
例如:
chr1
你有:
父源chr1 母源chr1
因此每个位点都有两个等位基因。
父亲给A 母亲给G
则:
A/G
即:
0/1
表示:
知道是杂合 不知道谁来自父亲谁来自母亲
称为:
Unphased
有两种可能:
父=A 母=G
或者:
父=G 母=A
无法区分。
左边一条染色体 右边一条染色体
已经确定。
Phased genotype
因为你前面做过:
QC ↓ SHAPEIT4 ↓ Minimac4
SHAPEIT4的核心任务就是:
Phasing
把:
变成:
举例:
原始芯片:
rs1 = A/G rs2 = C/T
实际上可能是:
方案1:
父源: A --- C 母源: G --- T
方案2:
父源: A --- T 母源: G --- C
SHAPEIT4利用:
群体LD 参考面板
推断:
哪种组合更可能
得到:
A-C G-T
这样的单倍型(haplotype)。
这就叫:
GP:
Genotype Probability
每种基因型的概率
对于二等位基因位点:
只有三种可能:
GP = P(0/0) P(0/1) P(1/1)
你的:
GP=1,0,0
P(A/A)=1 P(A/G)=0 P(G/G)=0
100%确定是A/A
GP=0.1,0.7,0.2
A/A =10% A/G =70% G/G =20%
DS全称:
Dosage
实际上是:
ALT allele expected count
ALT等位基因期望拷贝数
先看三种基因型拥有多少个ALT:
0个G
ALT count = 0
1个G
ALT count = 1
2个G
ALT count = 2
统计学里:
期望值:
E(X) = Σ x·P(x)
这里:
X = ALT count
DS = 0×P(A/A) + 1×P(A/G) + 2×P(G/G)
也就是:
DS = 0×P(0/0) + 1×P(0/1) + 2×P(1/1)
假设:
GP 0.1 0.7 0.2
那么:
DS = 0×0.1 + 1×0.7 + 2×0.2 = 1.1
说明:
这个样本平均来说拥有:
1.1个G
PLINK1.9会把上面的结果变成:
GT=A/G
1
直接用于回归。
而PLINK2会使用:
DS=1.1
A/G(非常确定)
和
A/G(很不确定)
可以被区分。
这正是 Imputation 的核心思想:
GT = 最可能基因型 GP = 各种基因型概率 DS = ALT拷贝数期望值
对于你的例子:
0|0:1,0,0:0
实际上等价于:
A|A P(A/A)=100% P(A/G)=0% P(G/G)=0% DS=0
说明这个样本在该位点非常确定地携带两个参考等位基因 A。