首页 百科知识生物信息学研究内容详解

生物信息学研究内容详解

【摘要】:这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。

5.3 生物信息学的研究内容

5.3.1 生物信息学研究的主要内容

1)获取人和其他生物的完整基因组

基因组研究的首要目标是获得人的整套遗传密码。人的遗传密码有32亿个碱基,而现在的DNA测序仪每个反应只能读取几百到上千个碱基。也就是说,要得到人的全部遗传密码,首先要把人的基因组打碎,测完一个个小段的序列后再把它们重新拼接起来。基因组大规模测序的每一个环节都与信息分析紧密相关。

2)发现新基因和新的单核苷酸多态性

发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。

①基因的电脑克隆 利用EST数据库发现新基因也被称为基因的电脑克隆。它的原理非常简单,就是找到属于同一基因的所有EST片段,再把它们连接起来。由于EST序列是全世界很多实验室随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志就可以把不同的EST连接起来,直到发现了它们的全长,这样我们就可以说通过电脑克隆找到了1个基因。如果这个基因以前未曾发现过,那我们就找到了一个新基因。

②从基因组DNA序列中预测新基因 从基因组序列预测新基因,本质上是把基因组上编码蛋白质的区域和非编码蛋白质的区域区分开来。对于理论方法来讲就是要找到在编码区和非编码区有哪些数学、物理学特征是不一样的。将这些序列与已知基因数据库进行比较,就可以发现新的基因了。

③发现单核苷酸多态(SNP) 有的人吸烟喝酒却长寿,也有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?答案是他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。现在普遍认为SNP研究是人类基因组计划走向应用的重要步骤。这主要是因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。

3)基因组中非编码蛋白质区域的结构与功能研究

近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%~20%。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中,非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列必定具有重要的生物功能。寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。

4)在基因组水平上研究生物进化

近年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。研究者首先发现,同一种群基于不同分子序列所重构出的进化树可能不同;与此同时,对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。

5)完整基因组的比较研究

在后基因组时代,完整基因组数据越来越多,有了这些资料,人们就能对若干重大生物学问题进行分析研究,这些重大的问题也只有在基因组水平上才能回答。

6)从功能基因组到系统生物学

在基因研究中,我们不仅需要了解基因的序列,还需要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱——这就是通常所说的功能基因组研究。下一步功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。

7)蛋白质结构模拟与药物设计

蛋白的空间结构模拟和药物设计已有二三十年的历史。随着人类基因组研究的飞速发展,这一领域面临着新的态势。即如何预测这些蛋白的空间结构,进而实现针对性的药物设计,这也是大规模的计算问题。

5.3.2 生物信息学的近期目标与远期任务

1)近期目标

未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展:(www.chuimin.cn)

①大规模基因组测序中的信息分析 大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。目前,从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙,到重复序列标识、阅读框预测和基因注释的每一步,都是紧密依赖基因组信息学的软件和数据库。特别是拼接和填补序列间隙,更需要把实验设计和信息分析紧密联系在一起。

②新基因和新的单核苷酸多态性(SNPs)的发现与鉴定 使用基因组信息学的方法进行超大规模计算是发现新基因的重要手段,可以说大部分新基因是靠理论方法预测出来的。构建SNPs及其相关数据库是基因组研究走向应用的重要步骤。

③完整基因组的比较和分子进化研究 通过多种同源比较和分析方法,可以预测出一个基因可能具有的功能,这只是生物信息学研究的一个方面。对于基因组研究来说,另一个重要的方面是分子进化,这方面的研究称作比较基因组学。

④大规模基因功能表达谱的分析 当基因组测序工作完成以后,虽然弄清了核酸序列,但尚不知道它们的功能如何,或者说它们是如何按照特定的时空进行表达的,表达量有多少等。为了得到基因表达的功能谱,国际上在核酸和蛋白质两个层次上都发展了新技术。这就是在核酸层次上的DNA芯片技术和在蛋白质层次上的二维凝胶电泳和测序质谱技术,也称蛋白质组技术。

⑤生物大分子的结构模拟与药物设计 基因的鉴定仅是阐明了其一级结构,然而作为生命本质的生物信息流所包含功能的实现,必然要经过空间重构,才能表现出生命的功能。反之,从已知功能的蛋白质结构出发,研究这些蛋白质功能的分子基础及其变化对蛋白质的三维重构和功能的影响,从而为基因疗法设计相应的蛋白质受体药物,这些是摆在生物医学科学家面前的紧迫任务。

2)远期任务

生物信息学的远期任务是读懂人类和其他物种基因组的序列,发现遗传语言的根本规律,寻找到控制生物重要性状的基因并阐明其功能,从而阐明生物学中的若干重大自然哲学问题,如生命的起源与进化等。这一研究的关键和核心是了解非编码区。

①非编码区信息结构分析 从生物进化的观点看来,随着生物体功能的完善和复杂化,非编码区序列明显增加的趋势表明这部分序列必定具有重要的生物功能,研究者普遍认为它们与基因在四维时空的表达调控有关。因此寻找这些区域的编码特征、信息调节与表达规律,是未来相当长时间内的热点课题。

②遗传密码起源和生物进化的研究 自1859年达尔文的《物种起源》出版以来,进化论成为对人类自然科学和自然哲学发展的重大贡献之一。进化论研究的核心是描述生物进化的历史和探索进化过程的机制。自20世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,一套依赖于核酸、蛋白质序列信息的理论方法已经被建立起来。当前的资料呈现了一个更为复杂但或许更为合理的进化模式,它启示研究者要彻底了解进化的规律,必须使用整个基因组的信息,相应地必须发展新的理论方法。

5.3.3 生物信息学研究的主要课题

生物信息学主要包括以下几个主要研究领域,除了序列比对将在下一节做比较详细的说明外,其他课题仅在这里列出名称并做简单介绍。

①序列比对(Alignment) 基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包——BALST和FASTA。而针对两个以上序列的多重序列比对,目前还缺乏快速而又十分有效的算法。

②结构比对 结构比对的基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性,目前已有一些算法。

③蛋白质结构预测 包括二级和三级结构预测,是最重要的课题之一。从方法上来看,有演绎法和归纳法两种途径:前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程;后者主要是从观察和总结已知的蛋白质结构规律出发来预测未知蛋白质的结构。

④计算机辅助基因识别(仅指蛋白质编码基因) 基本问题是在给定基因组序列后,正确识别基因的范围及其在基因组序列中的精确位置。这是最重要的课题之一,而且越来越重要。

⑤非编码区分析和DNA语言研究 这是最重要的课题之一。分析非编码区DNA序列需要大胆的想象、崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。

⑥分子进化和比较基因组学 这也是最重要的课题之一。早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。它既可以用DNA序列来做,也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。

⑦序列重叠群(Contigs)装配 一般来说,根据现行的测序技术,每次反应只能测出500个或更多的碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来,形成序列更长的重叠群,直至得到完整序列的过程,此过程称为重叠群装配。

⑧遗传密码的起源 一种最简单的理论认为,密码子与氨基酸之间的关系是由生物进化历史上一次偶然的事件造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等学说来解释遗传密码。各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

⑨其他 如基因表达谱分析、代谢网络分析、基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。