Github开源生信云平台 DEMO
ieu-b-2
The public GWAS summary statistics for AD was obtained from the IEU OpenGWAS project (https://gwas.mrcieu.ac.uk/datasets/) with GWAS ID: ieu-b-2.
这里的 ieu-b-2 并不是原始 GWAS 基因型数据(如 .bed/.bim/.fam),而是 GWAS summary statistics(GWAS 汇总统计结果)。它的主要作用是作为下游分析的输入数据,而不是重新做 GWAS。
.bed/.bim/.fam
ieu-b-2 是一个关于阿尔茨海默病(AD)的 GWAS 汇总统计数据集,来源于多个欧洲队列,共约 21,982 个病例和 41,944 个对照,包含约 1050 万个 SNP 的关联统计结果。(opengwas.io)
它不是每个受试者的基因型,而是每个 SNP 的统计信息,例如:
其中常见字段包括:
这是最常见的用途。
例如研究:
肠道菌群 ─────► 阿尔茨海默病
流程是:
菌群 GWAS │ │ 选择工具变量(SNP) ▼ SNP ▼ AD GWAS summary(ieu-b-2) ▼ MR分析
这里 ieu-b-2 提供的是:
每个工具 SNP 与 AD 的关联效应(β、SE、P)
然后可以计算:
[\beta_=\frac{\beta_{SNP\rightarrow AD}}{\beta_{SNP\rightarrow Exposure}}]
所以很多 MR 论文都会写:
"The public GWAS summary statistics for AD were obtained from IEU OpenGWAS (ieu-b-2)."
意思就是 把它作为 Outcome GWAS 数据集使用。
如果有一个人的基因型:
Sample A rs1 AA rs2 AG rs3 GG
再结合 ieu-b-2 中每个 SNP 的 β:
PRS = Σ(genotype × β)
就可以得到该人的 AD 遗传风险评分。
SCZ(精神分裂症) ↕ Alzheimer
需要两个疾病的 summary statistics。
LDSC 输入就是:
SCZ summary AD summary (ieu-b-2)
输出遗传相关系数 (r_g)。
很多整合分析只需要 summary statistics:
eQTL │ ▼ Gene Expression │ ▼ AD GWAS summary(ieu-b-2)
用于寻找可能影响 AD 的基因。
根据 summary statistics:
β SE P LD
进一步定位真正的因果变异。
因为它没有个体数据,所以不能:
❌ 做基因型 QC❌ 做 Imputation❌ 做 PCA 校正❌ 重新跑 GWAS❌ 查看每个人的基因型(AA/AG/GG)
例如你无法知道:
Sample1 rs123 = AA Sample2 rs123 = AG
它只告诉你:
rs123: β = 0.12 SE = 0.03 P = 5e-8
可以把它理解成:
原始数据 Sample1 AA AG GG ... Sample2 AG GG AA ... Sample3 GG AG AG ... │ │ 运行 GWAS ▼ Summary Statistics rs1 β SE P rs2 β SE P rs3 β SE P
假设你自己的队列只有宏基因组数据,没有 AD 的 GWAS 原始数据,那么 ieu-b-2 可以直接作为公开的疾病 GWAS 结果来使用。例如:
你的菌群 GWAS(Exposure) │ │ SNP ▼ AD GWAS(ieu-b-2) │ ▼ Mendelian Randomization │ ▼ 推断菌群是否可能因果影响 AD
因此,论文中的这句话:
The public GWAS summary statistics for AD was obtained from the IEU OpenGWAS project with GWAS ID: ieu-b-2.
真正表达的意思就是:
作者下载了阿尔茨海默病的 GWAS 汇总统计数据(summary statistics),作为后续 MR、遗传相关性分析、PRS、TWAS 或其他二次分析的输入,而不是重新进行 GWAS。(opengwas.io)