泛基因组(pan-genome)是指某一物种或物种群体中所有个体共同拥有的基因组总和。与传统的基因组(核心基因组)不同,泛基因组包括了核心基因组以外的可变基因组部分,这些可变基因组包括了个体间存在差异的基因和基因组区域。
泛基因组的概念是基于在某一物种中存在基因组的多样性和可变性。由于基因组中的可变基因和基因组区域,不同个体之间可能存在着不同的基因组组成。泛基因组的研究可以帮助我们更好地理解物种内的遗传多样性、基因组进化以及适应性的基因组变化。
泛基因组分析通常涉及对多个个体或群体的基因组序列进行比较和分析,以识别核心基因组和可变基因组。核心基因组是在所有个体中普遍存在的基因,而可变基因组则是只在某些个体中存在的基因。通过对泛基因组的研究,我们可以了解物种或种群中基因丰富性、基因家族的扩张与收缩、水平基因转移等现象,从而深入了解物种的适应性和进化过程。
泛基因组研究在微生物学、植物学、动物学等领域具有重要意义,对于揭示物种的遗传多样性、适应性进化以及疾病相关基因的发现都具有重要价值。
为了满足泛因组分析的需要,人们开发了大量计算工具来构建原核生物基因组的泛基因组。著名的例子包括 PGAP [16]、PanOCT [17]、Roary [18]、BPGA [19]、panX [20]、MetaPGN [21]、PIRATE [22]、PPanGGOLiN [23]、PEPPAN [24] 和 Panaroo [25]。构建泛基因组的核心是将基因序列聚类为基因家族。这一步骤通常是先用同源性搜索工具(如 CD-HIT[26]、BLASTP[27]和 DIAMOND[28])估计基因序列之间的相似性,然后再用聚类方法(如常用的马尔科夫聚类算法(MCL)[29])进行。聚类步骤也是整个流程中计算量最大的步骤。通过使用基于图的方法或基于树的方法识别旁系基因,进一步完善基因家族。然后,根据基因集合中基因的普遍程度,将得到的基因簇分为核心基因和附属基因。ref
泛基因组分析流程