Mauve
Prokka
Roary
FastTree
长于 500 bp 的肠球菌菌株的Scaffolds用 Prokka 注释,泛基因组由 roary(v.3.11.2) 计算,并由 anvio (v.6.2) 可视化。 (Yang 等, 2022, p. 572) (pdf)
为了闭合 EGF1-FE1 的基因组,使用 Unicycler34 (v.0.4.8) 进行了 Illumina 短读长和 Oxford Nanopore 长读长的杂交组装。使用 FastQC35 (v.0.11.9) 对 Illumina 短读长进行质量控制检查,使用 Trimmomatic36 (v.0.36) 进行修整和过滤,以去除 Nextera 接头和低质量读长。对于 ONT 读数,使用 NanoStat37 (v.1.1.2) 检查原始读数的质量,然后使用 Filtlong (v.0.2.0) 过滤,以仅提取最佳读数,直到总数碱基为 1.85 亿(50× ONT 覆盖率)。在 Unicycler 中,默认设置用于混合组装。E. gallinarum 的封闭基因组在 RAST server38,39 (v.2.0) 和 Prokka40 (v.1.14.5) 中进行了注释。
EGF1-FE1 的封闭基因组被用作所有 NZW × BXSB F1 衍生分离株的参考序列。对于实验进化的 E. gallinarum 分离株或种群,使用 EGF1-FE4 作为参考基因组。罗伊氏乳杆菌和脆弱双歧杆菌亲本菌株的基因组草案分别用作进化的罗伊氏乳杆菌和脆弱芽孢杆菌分离株的参考序列。在作对之前,如上所述,使用 FastQC 和 Trimmomatic 对原始 Illumina 读数进行质量控制检查、修剪和过滤。使用 Snippy (v.4.4.3) 和 Breseq (v.0.35.5) 进行基于参考的比对,以检测 SNV、插入缺失和结构变异。对于单分离基因分型,应用 Breseq 的共有模式和 Snippy 的 snippy-multi。对于宏基因组,使用 Breseq 的多态性模式。每个宏基因组样品的读数都超过 300× 覆盖深度。EGF1-FE4 的基因组是在读取比对后使用 Breseq 的 gdtools APPLY 函数生成的。
Snippy
Breseq
Breseq 的多态性模式
使用 Breseq 的 gdtools APPLY 函数生成的
在 Harvest suite(v.1.1.2) 中,根据 Parsnp 的核心基因组比对构建了E. gallinarum ATCC、DSM 和 NZW × BXSB F1 衍生菌株的系统发育树。修剪的原始读长由 SPAdes(v.3.13.1) 组装为支架。然后,Mauve (v.2.3.1) 根据参考基因组 EGF1-FE1 对支架进行重新排序。Parsnp 将有序的基因组草稿用作核心基因组比对的输入。对于本研究中的其他系统发育树,使用了基于参考的比对与最大似然树构建方法。Snippy 和 Breseq 调用的 SNV 用于 UGENE (v.1.32.0) 中的树生成。替换模型设置为 GTR,所有其他设置均为默认值。所有树木都在 iTOL 中可视化。 (Yang 等, 2022, p. 572) (pdf)
Parsnp
SPAdes
基于参考的比对与最大似然树构建方法
UGENE
Phylogenetic trees were constructed using the maximum likelihood method under the GTR substitution model. All other parameters were kept at their default settings in UGENE.