首页 理论教育NoSQL基础知识解析与应用场景

NoSQL基础知识解析与应用场景

【摘要】:如果Hadoop是一个产品,那么NoSQL就是一项技术。随着大数据时代的到来及互联网Web2.0网站的兴起,传统的关系型数据库在应付海量数据存储和读取以及超大规模、高并发的Web2.0纯动态网站的数据处理方面已经显得力不从心,NoSQL技术的产生就是为了应对这一挑战。NoSQL的概念最初在2009年被提出,对传统的数据管理方式是一次颠覆性的改变。NoSQL的特点:易扩展性;数据量大,性能高;灵活的数据模型;高可用性。大数据存储的核心需求具体如表6-1所示。

NoSQL的含义。NoSQL泛指非关系型的数据管理技术。如果Hadoop是一个产品,那么NoSQL就是一项技术。NoSQL——Not Only SQL,即不仅仅是关系型数据,可以应用于结构化、半结构化和非结构化数据存储。

NoSQL的产生。随着大数据时代的到来及互联网Web2.0网站的兴起,传统的关系型数据库在应付海量数据存储和读取以及超大规模、高并发的Web2.0纯动态网站的数据处理方面已经显得力不从心,NoSQL技术的产生就是为了应对这一挑战。NoSQL的概念最初在2009年被提出,对传统的数据管理方式是一次颠覆性的改变。

NoSQL的特点:易扩展性;数据量大,性能高;灵活的数据模型;高可用性

大数据的一致性策略(CAP)(见图6-4),即一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)。

大数据存储的核心需求具体如表6-1所示。

图6-4 大数据的一致性策略

表6-1 大数据存储的核心需求

(www.chuimin.cn)

(续表)

大数据分区技术:范围分区、列表分区、哈希分区。大数据放置策略:顺序放置策略、随机放置策略。

大数据的复制与容错技术:为应对分布式环境下可能出现的各种故障,数据需要被及时备份,并采取一定的容错技术。

分布式缓存技术是为了提高系统的数据查询性能。另外,建立一层缓冲,也便于在不同结点之间进行数据交换。分布式缓存可以横跨多个服务器,可以灵活地进行扩展。

关系型数据库与NoSQL数据存储。关系型数据库的局限性:难以满足高并发读写的需求,难以满足对海量数据高效率存储和访问的需求,难以满足对数据库高可扩展性和高可用性的需求。NoSQL数据存储:不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以减少一些时间和空间的消耗。

大数据存储与管理的三种技术路线。第一,大规模的结构化数据:采用新型数据库集群,结合MPP(Massive Parallel Processing)架构高效的分布式计算模式,实现对PB量级数据的存储和管理。第二,半结构化和非结构化数据:基于Hadoop开源体系。第三,结构化和非结构化混合的大数据:采用MPP并行数据库集群与Hadoop集群的混合来实现对百PB级、EB量级数据的存储和管理。