sam文件和bam 文件

最后发布时间 : 2025-05-03 15:42:44 浏览量 :

sam格式

生信小木屋

生信小木屋

生信小木屋

  • read paired: 代表Pair-End(PE)测序,如果是0则表示代表Single-End测序
  • read mapped in proper pair: 代表正常比对,如果是PE测序,还代表PE的两条read之间的比对距离没有明显偏离插入片段长度
  • read unmapped: 该read没有比对到参考序列
  • mate unmapped: PE测序的另一个配对read没有比对到参考序列,注意并不是指当前read比对
  • read reverse strand: 反向互补后比对到参考序列,意思就是比对到负链
  • mate reverse strand: PE测序的另一条配对read反向互补后比对到参考序列
  • first in pair: PE测序read1
  • second in pair: PE测序read2
  • not primary alignment: 0×100二次比对(Secondary Olignment),意思就是该read在基因组上比对了多个位置,当前的比对位置是次佳比对位置,通常需要过滤掉,但在有些分析场景中是很有用的信息
  • read fails platform/vendor quality checks: 低于(测序平台等)过滤阈值,即质量不合格
  • read is PCR or optical duplicate: PCR重复序列(来自于测序文库构造过程)或者光学重复(来自测序过程),这些都可以都可以使用picard标记出来或者过滤掉,而且对于光学重复不需要通过比对也能发现
  • supplementary alignment: 意思是说这条read可能存在嵌合,这个比对的部分来自其中的一部分序列(Supplementary alignment)

cigar

cigarhttps://davetang.org/wiki/tiki-index.php?page=SAMThe Sequence Alignment/Map format and SAMtools

生信小木屋

在实际的分析中,一般使用MIDNSHP七种,其中M表示MATCH,I表示INSERTION,D表示DELETION,N表示skipped bases on the reference,S表示SOFT CLIPING,H表示HARD CLIPING,P表示PADDING,以下是相关的示例信息及简要说明。

生信小木屋

(a)最上面是参考基因组,下面给出了reads的比对信息,(b)bam文件中输出的reads比对结果。

  • M、I和D三种类型很简单,都是相对于基因组而言的,对应匹配、插入和缺失;
  • 对于P的理解可以看r001和r002两条reads的比对结果,r001插入了两个碱基AG,cigar信息为2I,r002插入了一个G碱基,对应cigar信息为1P1I,这里的P其实是r002相对于r001而言的补位信息,即r001中插入的A碱基在r002中是缺失的,进行补齐;
  • N表示忽略基因组上的序列。

S和H两种类型

在Smith-Waterman比对时,短序列的两端可能会出现不能匹配的问题,此时比对结果就会指定为cliping。不同的clipping结果会根据实际的比对情况进行细分,其中S对应soft,h对应hard。
clipping比对结果:

REF:    AGCTAGCATCGTGTCGCCCGTCTAGCATACGCATGATCGACTGTCAGCTAGTCAGACTAGTCGATCGATGTG
READ:          gggGTGTAACC-GACTAGgggg

上述示例是某一条read的比对结果,其中大写字母表示匹配(非完全匹配,部分碱基是错配的),-表示缺失,小写字母表示末端为匹配的序列,这部分就是clipping序列。若该read只比对到基因组的这个位置,cigar信息为3S8M1D6M4S,若该序列比对到基因组多个位置,比对的cigar信息为3H8M1D6M4H。S和H除了比对位置的区别以外,在输出数据中的序列也不同,标注为S的序列会显示在bam文件中,标注H的序列则会删除。比如3S8M1D6M4S在bam中输出序列为gggGTGTAACCGACTAGgggg,而3H8M1D6M4H输出的序列为GTGTAACCGACTAG