首页 理论教育生物信息学云平台解决存储和分析问题

生物信息学云平台解决存储和分析问题

【摘要】:高通量测序技术迅猛发展,使生物信息学进入了大数据时代,由此所引发的多组学海量生物数据更需要利用云的方式来解决存储和分析等问题。把云计算技术应用到生物信息学的大数据中,面向大数据的生物信息云有助于更好地应对生物信息大数据带来的新挑战,挖掘生物数据中蕴含的大量“宝藏”。利用新提出的云计算的理念,把大数据存放在分布式文件系统中,采用MapReduce并行编程模型,可以在一定程度上解决大数据的分析问题。

生物数据的规模通常很大,近年来,这些数据随着生物技术的发展不断地增加。高通量测序技术迅猛发展,使生物信息学进入了大数据时代,由此所引发的多组学海量生物数据更需要利用云的方式来解决存储和分析等问题。把云计算技术应用到生物信息学的大数据中,面向大数据的生物信息云有助于更好地应对生物信息大数据带来的新挑战,挖掘生物数据中蕴含的大量“宝藏”。随着以高通量测序技术为代表的相关实验技术的不断发展和普及,科研人员可以更加容易和高效地获得大量的生物数据,其中蕴含着大量的“宝藏”等待人们去探索。云计算正是一种通过Internet以服务的方式,提供动态可伸缩、虚拟化的资源计算模式。但传统的分析方法并没有紧紧跟上,如何应对生物信息大数据带来的新挑战成为生物信息学当前的一个重要命题[6,7]

对于云计算处理的问题,计算机科学已经有了重大进展,把分布式数据存储和并行云计算技术应用到生物信息学集成中,用于实现离散的生物信息系统中各类异构数据信息的集成、共享、有效整合及应用,构建生物信息整合中心原型,对集成方法的有效性进行验证。利用新提出的云计算的理念,把大数据存放在分布式文件系统中,采用MapReduce并行编程模型,可以在一定程度上解决大数据的分析问题。相对于传统的数据分析平台,云计算平台更加容易使用,相关的计算资源也可以通过公共网络合理高效地分配给众多科研人员使用。(www.chuimin.cn)

MapReduce是一种极具表达力的并行程序设计范式,有着高度的并行性,非常适合大数据的环境要求,内部模块主要包括数据分片、任务失败控制和节点通信等。MapReduce可以最大限度地减少计算节点间的消息传递和数据传输。