cigar、https://davetang.org/wiki/tiki-index.php?page=SAM、The Sequence Alignment/Map format and SAMtools
在实际的分析中,一般使用MIDNSHP七种,其中M表示MATCH,I表示INSERTION,D表示DELETION,N表示skipped bases on the reference,S表示SOFT CLIPING,H表示HARD CLIPING,P表示PADDING,以下是相关的示例信息及简要说明。
(a)最上面是参考基因组,下面给出了reads的比对信息,(b)bam文件中输出的reads比对结果。
在Smith-Waterman比对时,短序列的两端可能会出现不能匹配的问题,此时比对结果就会指定为cliping。不同的clipping结果会根据实际的比对情况进行细分,其中S对应soft,h对应hard。clipping比对结果:
REF: AGCTAGCATCGTGTCGCCCGTCTAGCATACGCATGATCGACTGTCAGCTAGTCAGACTAGTCGATCGATGTG READ: gggGTGTAACC-GACTAGgggg
上述示例是某一条read的比对结果,其中大写字母表示匹配(非完全匹配,部分碱基是错配的),-表示缺失,小写字母表示末端为匹配的序列,这部分就是clipping序列。若该read只比对到基因组的这个位置,cigar信息为3S8M1D6M4S,若该序列比对到基因组多个位置,比对的cigar信息为3H8M1D6M4H。S和H除了比对位置的区别以外,在输出数据中的序列也不同,标注为S的序列会显示在bam文件中,标注H的序列则会删除。比如3S8M1D6M4S在bam中输出序列为gggGTGTAACCGACTAGgggg,而3H8M1D6M4H输出的序列为GTGTAACCGACTAG