首页 理论教育云计算数据储存:冗余副本提高可靠性

云计算数据储存:冗余副本提高可靠性

【摘要】:云计算系统底层需要大数据的存储支持,才可以对外提供云存储服务。为保证用户所存储数据的高可用性和高可靠性,云计算的分布式文件系统多采用冗余的存储方式,即为同一份数据存储多个副本,如Google的GFS和Apache的HDFS都是采用三个副本来保证数据的冗余。实验表明,对同样的数据,此方案能够节约25%~30%的HDFS集群的存储空间[27]。当前比较典型的基于列储存模型的分布式数据存储系统是Google公司的BigTable和Apache的HBase。

云计算系统底层需要大数据的存储支持,才可以对外提供云存储服务。云存储克服了传统储存系统在容量和性能扩展上存在的瓶颈,以其扩展性强、性价比高及容错性好等优势得到了业界的广泛认同。

为保证用户所存储数据的高可用性和高可靠性,云计算的分布式文件系统多采用冗余的存储方式,即为同一份数据存储多个副本,如Google的GFS和Apache的HDFS都是采用三个副本来保证数据的冗余。这是一个简单有效的方法,但不是最优的方法。针对此问题,研究者一直在探讨能否使用类似的策略在不降低存储可靠性的前提下降低存储副本的数目。比如二代Google分布式文件系统Colossus[25],即GFS2中使用里德-所罗门擦除码来实现成本更低的可靠存储。Microsoft的Azure平台采用擦除码技术来降低存储成本[26]。Facebook公司在开源Hadoop的基础上实现了一套基于擦除码的RAID方案。实验表明,对同样的数据,此方案能够节约25%~30%的HDFS集群的存储空间[27]。(www.chuimin.cn)

由于云计算对大数据的读操作频率远大于数据的更新频率,因此,云计算的数据管理通常会采用分布式列存储技术。列存储模型最大的特点是方便存储结构化和半结构化数据,方便进行数据压缩,对针对某一列或者某几列的查询应用有着非常大的I/O优势。当前比较典型的基于列储存模型的分布式数据存储系统是Google公司的BigTable和Apache的HBase。