基于MAG的宏基因组分析

最后发布时间:2025-05-02 12:36:10 浏览量:

分组组装鉴定细菌定植

通过基因组分辨宏基因组学追踪粪便微生物群移植实验中的微生物定植ref

对 10 个粪便样本的基因组 DNA 进行鸟枪法测序,共得到 269,144,211 个质量过滤的 2 × 150 个双端宏基因组读数。

生信小木屋

通过共组装对应于 115,037,928 个质量过滤读数的供体样本,我们回收了 51,063 个长度超过 2.5 kbp 的重叠群,并将它们组织成 444 个基因组箱,在不同完成水平上总共包含 442.64 Mbp。

Additional file 2: Table S1:研究中的样本、元基因组分区和元基因组组装基因组的其他信息。

附加文件 3:图 S1

附加文件 3:图 S1

  • 所有 444 个捐献者分区在样本中的分布。黄色标记代表 92 个 MAG。

使用完成和大小标准,我们将 92 个基因组 bin 指定为宏基因组组装基因组 (MAG)

生信小木屋

MAGs 在个体之间的分布中出现了四种主要模式:

  • 同时定植受体 R01 和 R02 的 MAG (Group I, n = 20)
  • 仅定植于 R01 的 MAGs (Group II,n = 11)
  • 仅 R02 (Group III,n = 8)
  • 未定植于任一受体的 MAG (Group IV, n = 13)

采用了系统发育方法来研究我们的 MAGs 分类学相对于参考基因组的有效性(附加文件 4:图 S2)。CheckM 的所有目级分类注释都与我们 MAGs 的系统发育位置一致。通过删除不同方法不同的注释解决了属级别的不一致。

生信小木屋

  • 以 1758 个黄金标准基因组为背景,对 92 个 MAGs 进行系统进化分析。MAG旁边的正方形和三角形表示系统发生组分析和CheckM结果之间的一致(绿色)和不一致(红色)。空白表示我们没有在指定水平上为给定的 MAG 分配任何分类。

使用人类微生物组项目肠道宏基因组来研究我们观察到的供体 MAGs 的差异定植结果是否代表它们在健康个体中的发生。结果表明I 组中在两个受体中定植的供体 MAG 更为普遍,而 IV 组中未定植于两个受体的 MAGs 在 HMP 的参与者中更为罕见。

生信小木屋

  • 以 151 个 HMP 肠道元基因组中第 I 组和第 IV 组 MAG 的流行率以及在 HMP 肠道宏基因组中检测到 MAG 54(第 I 组)和 MAG 26(第 IV 组)为例

Additional file 1: Table S3: 文章的 MAG 与 1758 个参考基因组之间的系统发生关系

  • Metagenomic assembly and binning
    根据Minoche等人[34],我们使用illumina-utils中的程序“iu-filter-quality-minoche”从原始测序结果中删除 https://github.com/。然后,我们使用 MEGAHIT v1.0.6 [35] 共组装来自供体样本的读数,使用 Centrifuge v1.0.2-beta [36] 去除与人类基因组匹配的重叠群,并使用 Bowtie2 v2.0.5 将每个受体和供体样本的短读数映射到剩余的重叠群 [37]。然后,我们使用 anvi'o v2.3.1(可从 http://merenlab.org/software/anvio 获得)来分析映射结果,最终确定基因组 bin,并按照 Eren 等人 [38] 中概述的工作流程可视化结果。简而言之,(1) “anvigen-contigs-database” 程序使用 Prodigal v2.6.3 [39] 分析了我们的重叠群,默认设置为识别开放阅读框和 HMMER [40] 以识别我们重叠群中与细菌 [41] 和古细菌 [42] 单拷贝核心基因集合的匹配基因,(2) “anvi-init-bam”将标测结果转换为 BAM 文件,(3) “anvi-profile” 处理每个 BAM 文件以估计覆盖率和检测使用 SamTools [43] 对每个重叠群进行统计,最后,(4) “anvi-merge” 组合来自每个样本的配置文件,为我们的数据集创建一个合并的 anvi'o 配置文件。我们使用 “anvi-cluster-with-concoct” 对重叠群进行初始分箱 [44],方法是将簇的数量限制为 10 (“–num-clusters 10”) 以最小化“碎片错误”(其中多个 bins 描述一个群体)。然后,我们使用基于四核苷酸频率、分类学、平均覆盖率以及基于细菌和古细菌单拷贝基因的完成和冗余估计的 “anvi-refine” 程序交互式地细化了每个表现出 “混淆误差” (其中一个 bin 描述多个种群) 的 CONCOCT bin。如果给定的基因组箱的完整性超过 70% 或大于 2 Mbp,并且其冗余估计小于 10%,我们将该基因组箱归类为“宏基因组组装基因组”(MAG)。我们使用 “anvi-interactive” 来可视化 bin 在样本中的分布,并使用 “anvisummarize” 来生成静态 HTML 输出以用于分箱结果。除了 anvi'o,我们还使用 CheckM v1.0.7 [45] 来评估垃圾箱的完成和污染。
  • Taxonomic and functional annotation of MAG
    我们采用了多种方法来推断分类法。除了 CheckM 报告的分类注释外,我们还在美国国家生物技术信息中心 (NCBI) 数据库中搜索了每个 MAG 的 RecA 基因的氨基酸序列。我们还使用 Phylosift v1.0.1 [46] 来确定我们的 MAG 与我们从 Ensembl 数据库 [47] 获得的 1758 个参考基因组集合(在物种水平上没有冗余)之间的系统发育关系(附加文件 1:表 S3)。简而言之,Phylosift (1) 在每个基因组中确定了一组 37 个标记基因家族,(2) 连接了每个标记基因家族在基因组中的比对,以及 (3) 使用 FastTree 从连接比对中计算了一棵系统发育树 [48]。最后,我们使用 FigTree v1.4.3 (http:// tree.bio.ed.ac.uk/software/figtree/) 完成了系统发育树的发布。我们使用 RAST [49] 将功能分配给我们的 MAGs。
  • MAG 在接受者体内的检测和定植标准
    对于每个基因组 bin,anvi'o 报告基于映射结果的至少一个短读长覆盖的所有重叠群中核苷酸位置的百分比。该统计数据给出了 “检测” 的估计值,而不管给定基因组 bin 的覆盖率如何。我们要求基因组 bin 的检测统计量至少为 25%,才能认为它在给定样本中“检测到”。这防止了由于非特异性定位而导致的检出率升高,由于肠道种群中的基因相对保守,这种情况并不少见。最后,我们保守地决定只有在以下情况下,才能从供体转移 MAG 并成功定植给定的受体:(1) 在 FMT 后 4 周和 8 周从受体收集的两个样本中都检测到 MAG,并且 (2) 在来自同一受体的 FMT 前样本中未检测到它。
  • HMP 宏基因组的使用
    我们使用了 151 个人类微生物组计划 (HMP) 肠道宏基因组 [50] 来估计我们 MAGs 的检测,并在 HMP 参与者的背景下比较我们宏基因组的分类图谱。为了估计检测结果,我们使用具有默认参数的 Bowtie2 将 HMP 宏基因组映射到我们的 MAG,并在检测水平超过 25% 时认为在给定的 HMP 宏基因组中检测到 MAG。我们还使用 MetaPhlAn2 注释了我们的宏基因组和 HMP 肠道宏基因组 [51]。此外,为了估计供体 MAGs 对受体分类图谱的贡献,我们使用了 R01 和 R02 样本中未在 FMT 前检测到的 60 和 83 个 MAGs 来募集和去除 FMT 后 R01 和 R02 宏基因组中的读数。MetaphlAn2 估计了剩余读数的分类学特征。附加文件 1:表 S3 报告分类注释。
  • 统计分析
    我们使用 R 库 vegan 对 MAG 的分布曲线进行了聚类分析,其中 Bray-Curtis 距离为归一化值。我们使用 PERMANOVA (R adonis vegan) [52] 测试来测量研究中样本之间细菌群落的相似程度。我们进一步使用相似性指数 (SIMPER) 分析来确定样本之间差异性最高的分类群。我们根据 MAGs 在受体中的定植特征将其分为四个主要组。然后,我们对总和归一化数据进行了 Wilcoxon 符号秩检验 (STAMP) [53] 和 BenjaminiHochberg FDR (错误发现率) 校正,以确定组间功能电位的任何显着差异,并根据功能电位和 MAGs 的定植特征进行了典型对应分析。