首页 理论教育相似性替换矩阵在多序列比对算法中的应用

相似性替换矩阵在多序列比对算法中的应用

【摘要】:等价矩阵仅考虑序列元素是否匹配。等价矩阵具有极大的局限性,因此,在实际应用中常常使用相似性替换矩阵。图4-1BLAST矩阵蛋白质的替换矩阵在设计时比DNA的替换矩阵所需考虑的因素更多,包括理化性质、替换率、亲疏水性、带电性等因素。目前PAM矩阵在蛋白质序列比对中得到了广泛应用,基础的PAM-1矩阵反映了进化中每一百个氨基酸平均发生一次突变的概率。图4-2BLOSUM矩阵和PAM矩阵的选择标准遗传密码矩阵。

替换矩阵(substitution matrix)是反映残基或碱基之间相互替换率的矩阵。它描述了残基或碱基两两相似的量化关系。替换矩阵的原理是根据生物信息学的知识,不仅考虑字符之间的简单差异,还对字符替换的代价进行评分。在蛋白质序列中,不同类型的字符替换的概率与代价是不同的。某些氨基酸的替换并不会改变理化性质,不能单纯地使用匹配即得分,不匹配则扣分的规则。替换矩阵中列出了所有字符两两替换的计分,使用引入替换矩阵的打分方式会提高计算序列之间相似性的准确性。在实际研究工作中,序列比对工作需要选择符合序列性质的替换矩阵,否则会造成一定的误差。

替换矩阵包括等价矩阵和相似性替换矩阵。等价矩阵仅考虑序列元素是否匹配。等价矩阵具有极大的局限性,因此,在实际应用中常常使用相似性替换矩阵。相似性替换矩阵中的元素都是在远距离进化过程的研究中得出的,用不同的分值代表残基或碱基的相似性,更可能得出具有生物学意义的比对。DNA替换矩阵主要有三种:

(1)等价矩阵。这种矩阵不具备相应的生物学知识,多用于相关理论计算的研究中。

(2)转换-颠换矩阵(transition-transversion matrix)。该矩阵以核苷酸碱基的环结构特点为理论依据,核苷酸中的鸟嘌呤G和腺嘌呤A有两个环,而胞嘧啶C和胸腺嘧啶T仅有一个环。考虑到进化过程中更常见的是环数不发生变化的转换现象。因此我们将转换的得分计为-1,而颠换的得分计为-5。

(3)BLAST矩阵。该矩阵是根据大量的实验得出的。核苷酸相同时,计为+5;不同时,计为-4,由此产生的比对效果较好。因此该矩阵也被DNA序列比对研究广泛采用。其矩阵元素如图4-1所示。

图4-1 BLAST矩阵

蛋白质的替换矩阵在设计时比DNA的替换矩阵所需考虑的因素更多,包括理化性质、替换率、亲疏水性、带电性等因素。蛋白质的替换矩阵主要有五种:(www.chuimin.cn)

(1)等价矩阵。它与DNA中的等价矩阵相同,匹配得1分,错配得0分。等价矩阵多用于理论计算。

(2)PAM矩阵(point accepted mutation matrix)。PAM矩阵基于进化原理,考虑进化进程中两对氨基酸替换的频率,频率越高,赋予它的得分就越高。目前PAM矩阵在蛋白质序列比对中得到了广泛应用,基础的PAM-1矩阵反映了进化中每一百个氨基酸平均发生一次突变的概率。将PAM-1矩阵自乘,即可得到PAM-n矩阵,反映了氨基酸发生更多次的突变。

(3)BLOSUM矩阵(blocks substitution matrix)。该矩阵的元素是根据对关系较远的序列计算得出的,而PAM-1矩阵是根据相似度大于85%的序列比对计算形成的。BLOSUM矩阵反映的是真实的实验数据,而PAM矩阵是PAM-1矩阵自乘形成的。BLOSUM-62矩阵是最常用的矩阵。BLOSUM-62后面的编号代表该矩阵是由相似度≥62%的序列计算得出的。BLOSUM矩阵和PAM矩阵的选择标准如图4-2所示。

图4-2 BLOSUM矩阵和PAM矩阵的选择标准

(4)遗传密码矩阵。该矩阵通过计算氨基酸之间相互转换所需密码子的变化而形成。矩阵的值表示氨基酸转换所要付出的代价,代价即需要变化的密码子的数量。遗传密码矩阵适用于计算进化距离,通过距离法建立进化树。除此之外的情况较少使用遗传密码矩阵。

(5)疏水矩阵。疏水矩阵表示的是在替换前后氨基酸疏水性的变化程度。由于该矩阵代表的理化性质明确,因此适用于蛋白质功能方面的序列比对。