首页 理论教育形式化开发多序列比对算法:最具生物学意义的仿射空位罚分模型

形式化开发多序列比对算法:最具生物学意义的仿射空位罚分模型

【摘要】:仿射空位罚分模型是目前应用最广泛,且最具备生物学意义的罚分模型,它同时考虑了空位长度与空位发生对序列比对的影响。

由于序列比对中存在删除和插入的编辑现象,因此需要引入空位来进行描述,在比对结果中用符号“-”表示。空位现象产生的情况可能是只需要插入一个空位,也可能是需要插入一连串的空位。在插入空位时,我们需要考虑空位所处的位置、序列中空位的数量和连续空位的长度。目前常用的空位罚分模型有如下几种:

(1)常量空位罚分模型。这种空位罚分模型的特点是,序列比对中发生的所有空位均用一个相同的常量gap进行罚分,整个比对的总罚分wk为:

由于该模型未考虑在基因的不同位点上发生突变的概率不同,不具备相应的生物学意义,因此仅用于理论研究。

(2)恒定空位罚分模型。该模型同样仅用于理论研究,因为它将连续的空位当作一个空位来计算,忽略了空位长度对序列比对的影响,不具备应有的生物学意义。(www.chuimin.cn)

(3)仿射空位罚分模型。仿射空位罚分模型是目前应用最广泛,且最具备生物学意义的罚分模型,它同时考虑了空位长度与空位发生对序列比对的影响。它包括开放空位罚分(gap opening penalty)和扩展空位罚分(gap extension penalty)。对于一个连续长度为k的空格,其罚分wk的计算公式为:

通过分析大量的实验结果,我们发现连续空位发生的概率大于间隔空位发生的概率,因此实际应用中,开放空位罚分的值会大于扩展空位罚分的值。