序列对比与数据库搜索在生物医学中的应用

2024-10-29 百科知识版权反馈

【摘要】：图5.4点阵序列比较注：对人类凝血因子Ⅻ和组织血纤蛋白溶酶原活化因子的氨基酸序列进行打点比较，这个图由DOTTER程序产生。

5.4　序列对比与数据库搜索

5.4.1　引言

在生物学的研究中，一个常用的方法是通过比较分析获取有用的信息和知识。最常用的比较方法是序列比对，它为两个或更多序列的残基之间的相互关系提供了一个非常明确的图谱。自20世纪70年代以来，DNA测序方法的飞速发展，极大地引发了序列信息量的扩增，从而使可供比较的序列数量呈爆炸式增长。将未知序列同整个数据库中的已知序列进行比较分析已经成为生物学家手中一个强有力的研究手段。

5.4.2　序列两两比对

1）序列比对的进化基础

进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性，从而判定二者之间是否具有同源性。虽然相似性和同源性在某种程度上具有一致性，但它们是完全不同的两个概念。相似性是指一种很直接的数量关系，而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论，它是质的判断。如图5.1所示，比较老鼠和小龙虾的一段同源的胰蛋白酶序列，发现它们具有显著的相似性。

图5.1　老鼠和小龙虾的一段同源胰蛋白酶序列

注：本图对老鼠的胰蛋白酶和小龙虾的一段胰蛋白酶序列作比对，相同的残基用下画线标出，在比对上方标出的是二硫键（S-S），其中的半胱氨酸残基极为保守，打星号“*”的残基的侧链参与电荷传递系统，打菱形（◇）符号的活性位点的残基负责底物的特异性。

由于受到研究进化关系这一目的的影响，大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。在理想情况下，同源基因或蛋白质序列在相互比较时，残基之间相互对应，从而使取代的情况很明显地被表现出来。在某些位置，一个序列中拥有某些残基，而另一个序列中缺少这种残基，表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。在“残基—残基”比对中，很明显，某些位置的氨基酸残基相对于其他位置的残基具有较高的保守性，这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图5.1所示，处于活性位点的残基都是极为保守的。

当发现两个基因或蛋白质具有惊人的相似性时，我们会认为它们之间具有一段共同的进化历程，从而判断它们会具有相似的生物学功能，但是，这个推断在成为结论之前必须经过实验的验证。例如，ζ-晶状物（ZCr）是脊椎动物眼睛里晶状体基质的组成部分，根据序列相似性的基础，它在E.coli中的同源物是代谢酶苯醌氧化还原酶（QOR，如图5.2所示），不管二者的共同祖先如何，它们的功能在进化中已经改变了。

图5.2　最佳全局比对

注：对人类ζ-晶状物（Human-ZCr）和E.coli苯醌氧化还原酶（Ecoli-QOR）的部分氨基酸序列进行比对。这是一个由CLUSTAL W程序得到的最佳全局比对结果。在比对下方，星号表示残基相同，打点表示这个残基是保守的。

早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描和比较。

2）蛋白质的模块性质

许多蛋白质在全程范围内并不具有相似性，但却似乎是由众多的模块结构域搭建而成的。图5.3描述了这样的一个例子，图所示的是在血凝过程中的两种蛋白的组成结构，它们是凝血因子Ⅻ（F12）和组织型血纤蛋白溶酶原活化因子（PLAT），这两种蛋白除了具有丝氨酸蛋白酶活性的催化结构域，还具有不同数量的其他结构域单元。在大多数情况下，使用局部比对是较为合理的，这种比对方法可能会揭示一些匹配的序列段，而本来这些序列段是被一些完全不相关联的残基所淹没的，因此，操作者应该明白，如果不恰当地使用了全程比对，很可能会淹没一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的mRNA和它的基因序列时，每个外显子都应该进行局部比对。

图5.3　血凝过程中的两中蛋白的模块结构

注：人类组织血纤蛋白溶酶原活化因子以及凝血因子Ⅻ的模块结构的示意图。标记为Catalytic的模块在若干种凝血蛋白中是常见的；F1和F2是较为常见的重复模块，首先在纤连蛋白中被发现；E模块同表皮生长因子极为类似；通常称为“Kringle domain”的模块被标记为K。

点阵描述方法能够揭示出拥有多个局部相似性的复杂关系，因此应用相当广泛。图5.4就是应用这种处理后的一个例子。图中F12和PLAT蛋白质序列使用DOTTER程序进行比较，其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴，在这个坐标系区域内，如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同，则在这个位置上打上标记点，每个点通常都表示在一些小窗口中，序列相似性高于其他一些隔绝的区域。如果两个序列在一段区域内很相似，标记点将会连成一条斜线段，将这些线段的位置同图5.3中两个蛋白的已知组成结构相比较是很有价值的，特别是要注意连续出现的结构域的出现方式。

图5.4　点阵序列比较

注：对人类凝血因子Ⅻ（F12）和组织血纤蛋白溶酶原活化因子（PLAT）的氨基酸序列进行打点比较，这个图由DOTTER程序产生。

在点阵描述方法中，某些形式的点可能会勾勒出一定的路径，但这需要操作者通过这些信息进行推理；另外一个图形描述方法（即路径图）提供了更直接明了的比较结果。图5.5描述了PLAT和PLAU中与EGF相似的结构域之间进行比较时的比对、点阵和路径图三种方法的关系。

要理解路径图，先想象一个二维格子，顶点表示序列残基之间的点，沿线段上连接两个顶点的边缘对应两个序列上匹配的残基，水平和竖直线段的边缘对应一个序列拥有而另一个序列上没有的残基。

3）最佳比对方法

对于众多问题而言，比对方法多种多样，很有必要从中挑选出一个或几个最好的方法。许多计算机科学的问题都可以简化为通过图表寻求最优路径。为了这一目的已经确立了许多行之有效的算法，对每一种路径都有必要对其进行某种意义上的打分，通常是对沿这一途径的每一步的增量进行加和。更精密的打分程序将在下文叙述，在这里我们只假定相同残基加正分，有插入或缺失的残基就加负分（扣分）。根据这一定义，最合适的比对方法会得到最高分，也就是我们寻找的最佳路径。今天我们所熟悉的Needleman-Wunsch算法就是针对寻求最佳序列比对这一问题所设计的动态规划寻优策略。动态规划的思想是这样的：如果一条路径终止于最佳路径上的一点，那么这条路径本身就是从起点到这个中间

图5.5　点阵、路径图和比对

（a）整个蛋白都由DOTTER程序进行比较；（b）由BLASTP得到的比对的路径图；（c）用普通的字符形式显示的BLASTP空位比对

点的最佳路径，也就是说，任何一条终止于最佳路径上的一点的次级路径必然就是终止于这一点的最佳路径本身。这样，最佳路径就可以通过把各个最佳的次级路径连接而形成。在基本的Needleman-Wunsch公式表达中，最佳比对必然对每个序列都由始至终，就是说从搜索空间的左上角直至右下角。换句话说，它搜索全程比对。对这种基本策略稍作修改就可以实现最佳的局部比对。

应该意识到，寻优方法总是把最佳的比对方法表达出来，而不在意它是否具有生物学意义。另一方面，寻求局部比对时可能会发现若干个重要的比对，因此，不能仅仅注意最佳的那个。改良的Smith-Waterman算法把寻找K种最好的但不相互交叉的比对方式作为目标，这些思想后来都在SIM算法的发展中得以体现。一个名叫LALIGN（在FASTA程序包中）的程序提供了有用的SIM工具。如图5.6所示，LALIGN程序被用来获得最好的局部比对（比对人类凝血因子Ⅸ和因子Ⅻ）。

图5.6　最佳和次佳的局部比对

注：在使用LALIGN对人类凝血因子Ⅸ（F9）和凝血因子Ⅻ（F12）进行比对时发现的三个最佳的比对结果之一。

4）取代分和空位处罚

刚才描述的打分系统仅仅用于简单的匹配/不匹配的情况，但是在比较蛋白质时，我们可以用取代矩阵来增强弱势比对的敏感性。很显然，在相关蛋白质之间，某些氨基酸可以很容易地相互取代而不用改变它们的生理生化性质。在计算比对分之时，相同的氨基酸打分会高于取代的氨基酸，而保守的取代打分高于非保守变化。换句话说，设计了一系列的分值，而且，在比对非常相近的序列以及差异极大的序列时会设计出不同系统的分值。考虑到这些因素，使用取代矩阵会极为有利，在这个矩阵中，任何氨基酸配对的分值会一目了然。

第一个广泛使用的最优矩阵建立在进化的点突变模型上（PAM）。一个PAM就是一个进化的变异单位，即1%的氨基酸改变。为了评估目标频率，人们用非常相近的序列来收集对应于一个PAM的突变频率，然后将数据外推至250个PAM，PAM250矩阵结果如图5.7所示。

图5.7　PAM250分值矩阵

用同样方式建立了BLOSUM取代矩阵。同PAM模型一样，也有许多编号的BLOSUM矩阵，这里的编号指的是序列可能相同的最高水平，并且同模型保持独立性。举例来说，如图5.8所示的BLOSUM的矩阵，至少有62%的相同比例的序列被组合成一个序列，因此取代频率受那些比空位变化还大的序列的极大影响。

图5.8　BLOSUM62分值矩阵

为了补偿那些插入或缺失，可以在比对中引入一些空位，但不能太多，否则会使分子变得面目全非。每引入一个断裂，比对的分值都会有所扣除，对于这些断裂有许多罚分的规则。最常用的一个就是用一个附加的罚分比例去乘空位的长度，其中有两个参数：G（有时称为断裂开放惩罚）和L（断裂延伸惩罚），对于一个长度为n的空位，扣分总数为G+Ln，但在选择空位参数时，在很大程度上是靠经验进行，所选的分值很少会有理论上的支持。

5）比对的统计学显著性

对任何一个比对，我们都可以计算一个分值，但重要的是判定这个分值是否足够高，是否能够提供进化同源性的证据。在解决这一问题时，对于偶然出现的最高分，有些思想很有帮助，但是，没有一个数学理论能够描述全程比对的分值分布，其中一个能评估其重要性的方法就是将所得的比对分值和那些同样长度和组成的随机序列进行比较。

但是，对于局部比对而言，情况要好得多。正如问题总是从简单开始，人们首先注意到那些没有多少空位的局部比对，这种比对被称为高分片段配对（HSP）。HSP通常用改进的Smith-Waterman算法或简单地使用大的空位罚分方法获得。Karlin-Altschul统计学为描述随机的HSP分值的分布提供了数学理论，概率密度函数形式被称为极值分布。把一个已知的比对分值S同预期的分布相关联可能会计算出P值，从而给出这个分值的比对显著性的可能性。通常，P值越趋近于零，分值越有意义。

6）数据库中的相似性搜索

上述讨论主要集中于那些较为特别的匹配的序列，但是对于一个新发现的序列，我们无法得知用什么序列同它进行比对。数据库相似性搜索使我们能够从数据库中存在的数十万个序列中挑选出可能同感兴趣的序列有关联的序列，这个方法有时会得到意想不到的收获。

在数据库搜索中，基本操作就是将查询序列和数据库中的主题序列作比对。比对结果是排列好的hit list，后面是一系列的单独的比对情况，以及不同的分值和统计值（见图5.9）。图5.10给出了一个使用Web界面进行数据库搜索的例子。这种形式的一个优点就是对任何一个感兴趣的比对，全部注解和文献应用都可以通过超文本简单方便地连接至原始的序列条目和相关的在线文献。

图5.9　进行FASTA搜索的输出

注：以数据库中的一个条款（在命中列表中以箭头标出）为查询序列（其中包含老鼠的1-磷酸-半乳糖尿苷酸转移酶序列）所得到的最佳局部比对结果。虽然在这里序列的相似性不太好，但是这些蛋白在结构上都显示了很好的相似性。

7）FASTA

FASTA程序是第一个广泛使用的数据库相似性搜索程序。为了达到较高的敏感程度，程序引用取代矩阵实行局部比对以获得最佳搜索。为了提高速度，在实施耗时的最佳搜索之前，程序使用已知的字串检索出可能的匹配。在速度和敏感度之间权衡，选择依赖于ktuP参数，它决定了字串的大小。

FASTA程序并不会研究每一个遇到的字串命中，但在一开始，它会寻找包含若干个附近的命中的片段。使用启发式方法，这些片段会被赋予分值，最好的一个在输出时会显示为init1分值，这若干个片段会被组合起来，一个新的init n分值会从中计算出来。然后在最好的初始片段中局限于其对角线带上，会进行一次包含空位的局部比对，以评估最可能的匹配。这个最佳比对的分值会在输出时显示为oPt分值。对最后报导的比对来说，还要进行一次全程的Smith-Waterman比对。(www.chuimin.cn)

图5.10　在WWW上进行数据库相似性搜索

8）BLAST

BLAST程序对数据库搜索进行了大量的改良，提高了搜索速度，同时把数据库搜索建立在了严格的统计学基础之上（见表5.1）。可以通过E-mail，WWW或控制台命令操作BLAST程序，无论如何，一次数据库搜索包括4种基本元素：BLAST程序的名称、数据库名称、查询序列和大量的合适的参数。

表5.1　BLAST程序

几种不同的BLAST可以通过查询序列和数据库序列的类型来加以区分：BlastP比较的是查询蛋白同蛋白质数据库；相应于核酸序列的程序是Blastn；如果序列类型不同，DNA序列可以被翻译成蛋白序列后同蛋白序列进行比较，Blastx比较一个DNA的查询序列同一个蛋白质序列库，其结果对分析新序列和ESTs很有用；对于一个基于核酸序列库的蛋白质查询，Tblastn程序对于寻找数据库中序列的新的编码区很有用；最后一个只在特殊情况下使用，Tblastx将DNA查询序列和核酸序列库中的序列全部翻译成蛋白质序列，然后进行蛋白质序列比较，这个程序主要用于ESTs比较，尤其是当人们怀疑到其中有可能的编码区，即使并没有确切地发现这一区域。所有这些程序使用服务器上的序列数据库，从而不需要本地的数据库，表5.2和表5.3陈列了一些BLAST使用的蛋白质和核酸的序列数据库。

表5.2　使用BLAST的蛋白序列数据库

表5.3　使用BLAST的核苷酸序列数据库

一个Blast搜索的例子会介绍搜索输出的不同元素。如图5.11所示的例子，一种Alzheimer疾病感受性蛋白质的氨基酸序列作为查询序列，同dbest数据库用Tblastn进行搜索。

图5.11　一次Tblastn搜索的输出

注：在这次Tblastn搜索中，以dbest数据库为基础，以阿尔茨海默氏病（即进行性老年性痴呆）基因的蛋白质产物为查询序列，目的是为了从其他那些可能同人类基因有同源性的物种中鉴定出一些cDNA克隆。

最近发布的Blast程序的修订版提高了搜索速度、敏感度和实用性，其中一些常用的参数列在表5.4中。

表5.4　一些对于Blast很有用的参数值

对于那些弱势的但是显著性较强的比对，进行较高敏感性的数据库搜索的一个方法就是使用诸如Profile（表头轮廓）的数据结构。

为了演示PSI-Blast方法的高敏感性，组氨酸三联体蛋白（HIT）序列被用来作为数据库搜索中的查询序列。经过多次搜索，在每一次反复中都发现了新的关系，如图5.12所示。

图5.12　使用PSI-Blast可提高敏感性

注：在这次BlastP搜索中，查询序列是人类组氨酸三联体（HIT）蛋白，搜索时开启了PSIBlast功能。在每一次重复搜索中，新检索出来的具有统计学显著性的匹配都会显示它们的定义行，打分值以及E值。

9）低复杂度区域

不管是蛋白还是核酸都包含一些偏颇的区域，在进行序列数据库搜索时，这些区域可能会导致一些令人迷惑的结果。这些低复杂度区域（LCRs）在从明显的同性聚合顺串和短周期重复到更精细的情况的范围内变化。一个称为SEG的程序已发展起来，目的是要把一个蛋白质序列分解为低复杂度和高复杂度的各个片段。

果蝇鳞甲基因产物的人类同源物就是一个包含LCR蛋白质的好例子，在用SEG分析的时候，两个低组成复杂度的序列区域被鉴定出来。图5.13显示了缺省的树输出，其中低复杂度序列用小写字母表示在左边，高复杂度序列在右边用大写字母表示。

图5.13　使用SEG程序检索低复杂度区域

10）重复元件

如果查询中包括一个重复元件的序列（比如说一个Alu重复），可能会出现许多错误的和令人费解的结果。虽然在蛋白质—蛋白质搜索中，这一般不会成为什么大问题，但是在包含DNA序列任何比较中，都必须对此引起必要的重视。GenBank和Swiss-Prot数据库中都包含一些“暖序列”（Warming Sequence），这些数据向使用者指出查询中包含重复序列。

5.4.3　序列两两对比

在寻找基因和致力于发现新蛋白的努力中，人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能，不管它们是双重比对还是多序列比对，都可以回答大量的其他的生物学问题。

显然，分析一群相关蛋白质时，很有必要了解比对的正确构成。发展用于多序列比对的程序是一个很有活力的研究领域，绝大多数方法都是基于渐进比对（Progressive Alignment）的概念。渐进比对的思想依赖于使用者用作比对的蛋白质序列之间，确实存在生物学上的或是系统发生学上的相互关联。

1）渐进比对方法

（1）CLUSTAL W

CLUSTAL W算法是一个使用得最广泛的多序列比对程序，在任何主要的计算机平台上都可以免费使用。这个程序基于渐进比对的思想，得到一系列序列的输入，对于每两个序列进行双重比对并且计算结果。基于这些比较计算得到的距离矩阵反映了每对序列的关系，于是，基于邻近加入方法，这个矩阵被用来计算一个系统发生辅助树。对该辅助树进行加权后可以证实极相近的序列，然后从双重比对极相近的序列开始，为组建比对提供基础，然后重新比对下一个加入的比对，依次类推。

（2）MultiAlin

MultiAlin方法也是基于用一系列双重比对开始的思想，然后基于双重比对的打分值进行一个分层次的聚类。当序列都分成类后，开始进行多序列比对，计算出多序列比对中的两个序列比对的新值，基于这些新值，重新构建一棵树。这个过程不断进行，直到分值不再上升，此时所有序列比对也就结束了。

2）模体和样式

前面叙述的方法对于多序列比对极为有用，但前提是用户必须搜集好独立的输入序列，要么通过一系列的Blast或其他的数据库搜索，要么在实验室里直接作出决定。但是，有太多的方法可以获取一个单独的序列，并可基于此序列中的任何模体或样式，返回所有的蛋白质家族，完成某个特异方法所定义的最佳比对。很多时候，这些方法所揭示的距离关系并非从例行的标准数据库搜索中轻易获取。

（1）ProfileScan

基于经典的头文件分析的Gribskov方法，ProfileScan使用一种称为Pfscan的方法寻找一个蛋白质或核酸的查询序列同一个头文件库的相似性，因此，在搜索中需要有两个头文件库：第一个是PROSITE，一个ExPASy数据库，通过使用模体和序列样式（诸如指纹）将生物学意义重大的位点收集分类；第二个是Pfam，收集了蛋白质结构域家族，与其他收集方法有很大不同的是，最初的蛋白质结构域的比对完全是由手工完成的，而不是依靠自动化的处理方法，正因为这样，Pfam只拥有500多条款目，但这些款目的质量极好。

（2）BLOCKS

BLOCKS数据库利用了块的概念对蛋白质家族进行鉴定，而不是只依赖于单个的序列本身。块的思想来源于更加普遍的概念——模体（Motif），模体通常是指一段氨基酸序列的保守伸展，拥有一定的蛋白质功能或结构。当这些来源于同一家族中的蛋白质中的模体比对时（不引入空位），其结果就是块；块就是指比对，而不是序列本身。很明显，任何一个独立的蛋白都可以包含一个或多个的块，每个块对应一个功能和结构模体。

（3）MoST

模体搜索工具（或者写作MoST）是一个UNIX程序，用来进行数据库搜索，以寻找保守的模体。这个方法使用比对序列块（Alignment Block），可以容纳任意数目N的序列，每一个长度为L，所有序列长度必须一致，但是在目前还不能引进空位。这个比对块用来产生一个蛋白质权重矩阵，然后对所有序列进行矩阵扫描，从目标蛋白质数据库开始搜索，对每一个长度为L的片段通过加和适合的权重矩阵元素得到其分值。如果找到在统计学上显著地匹配于序列块的序列，这些序列也会被加入到序列块中。搜索完一个循环后，权重矩阵必须重新计算，然后重新进行搜索，这个过程反复进行，直到再也找不到统计学意义上显著的匹配序列为止，这个过程因而在数据库搜索过程中不断积累新的信息。

（4）PROBE

有一个最新的比对模型程序叫做PROBE，在某些方面，PROBE与MoST很相似，它们都运用反复计算的策略检测较远关系的序列，但是，从本质上讲，算法的机制是不一样的，所以有必要作进一步的讨论。

在决定哪些序列相关时，PROBE执行一个及物的搜索，如果一个双重搜索发现序列A和B是相关的，另外一个搜索发现序列B和C是相关的，那么A和C就一定相关，即使A和C之间的双重比对没有直接发现它们相关。通过一系列的Blast搜索，所有这样的联系都被反复演绎出来，直到再不会发现新的序列为止。在这样一系列相关序列组成的集合上，将会进行一系列的反复比对，直到比对不再改善为止。这时，将会进行下一轮的数据库搜索，应用上一轮的最佳比对，寻找在上一轮中被忽略的相关序列。PROBE程序反复操作这一过程，直到搜索收敛为止。

3）演示方法

上述的比对方法对于寻找最佳比对这一点都很严格，但是它们的输出结果的阅读质量都不是太好，所以有必要从这些程序中得到输出结果，然后把结果输出到另外一些软件中去，使得多序列比对的结果可读性更好一些。

（1）MacBoxShade

MacBoxShade（或者简写为MacBox），是VMS/UNIX应用程序BoxShade的一个Macintosh版本，它提供一个很简单的机制，使得多序列比对结果形成一定的格式。MacBox只能读GCG，MSF格式的比对文件，所以必须用其他程序（例如ReadSeq）把序列文件转化为它可以阅读的形式。

（2）ALSCRIPT

ALSCRIPT是一个基于UNIX或者PC机平台的程序，它可以灵活地把多序列比对的输出结果格式化为PostScriPt格式，然后比对就可以在PostScriPt打印机上打印或者用Post-ScriPt浏览。

序列对比与数据库搜索在生物医学中的应用

相关推荐