首页 理论教育Hadoop优化架构与多源数据交换平台

Hadoop优化架构与多源数据交换平台

【摘要】:图10Hadoop优化架构数据集成层。数据集成层是基于元数据的多源数据交换平台的基础架构。文件存储层为上层应用屏蔽了存储设备类型、型号、接口协议、分布位置等技术细节,提供了数据备份、故障容忍、状态监测、安全机制等多种保障可靠的文件访问服务的管理性功能。与传统的关系数据库不同,基于Hadoop的大数据处理架构中的数据存储层组件不要求完整的SQL支持能力,也不要求采用关系型数据模型存储数据。

基于多源数据集成得到的数据进行深化挖掘,架构一般可分为五层,如图10所示。此外,设置平台管理层,确保整个数据处理平台平稳安全运行的保障。

图10 Hadoop优化架构

(1)数据集成层。数据集成层是基于元数据的多源数据交换平台的基础架构。在源和文件存储层或数据存储层之间进行适配,以实现双向的数据高效导入导出。数据集成层组件的典型实例就是Sqoop工具。利用Sqoop工具,一方面可以将存储于关系型数据库中的数据导入Hadoop组件中以利于MapReduce程序或Hive工具进行后续处理,甚至直接导入HBase中;另一方面还可以支持将处理后的结果导出到关系型数据库中。

(2)文件存储层。文件存储层是利用分布式文件系统技术,将底层数量众多且分布在不同位置的通过网络连接的各种存储设备组织在一起,通过统一的接口向上层应用提供对象级文件访问服务能力。文件存储层为上层应用屏蔽了存储设备类型、型号、接口协议、分布位置等技术细节,提供了数据备份、故障容忍、状态监测、安全机制等多种保障可靠的文件访问服务的管理性功能。利用分布式并行技术,云计算大数据处理环境下的文件存储层还支持对海量大文件进行高效的并行访问。向上为编程模型层和数据存储层提供文件访问服务。HDFS是文件存储层的一个典型组件。(www.chuimin.cn)

(3)数据存储层。数据存储层提供了分布式、可扩大的大量数据表的存储和管理能力。与传统的关系数据库不同,基于Hadoop的大数据处理架构中的数据存储层组件不要求完整的SQL支持能力,也不要求采用关系型数据模型存储数据。它强调的是在较低成本的条件下实现大数据表的管理能力,可支持在大规模数据量的情况下完成快速数据读写操作,且可以随着数据量激增,通过简单的硬件扩容实现存储能力的线性增长。Hadoop已为数据存储层提供了两项技术基础:HBase和HCatalog。HBase实现了一个面向列的分布式数据库存储系统。HCatalog是一个数据表和存储管理组件,可以支持Pig、Hive、MapReduce等上层应用间进行数据共享操作。

(4)编程模型层。编程模型层中的组件作用是为大规模数据处理提供一个抽象的并行计算编程模型,以及为此模型提供可实施的编程环境和运行环境。编程模型层是整个处理架构的核心部分,其运行效率决定了整个数据处理过程的效率。MapReduce模型作为Hadoop技术的核心,可以直接构建数据处理程序;另一方面上层的拓展工具Hive等可以进行数据访问和分析。

(5)数据分析层。Hadoop体系中的Pig提供了一个在MapReduce基础之上抽象出的更高层次数据处理能力,包括一个数据处理语言及其运行环境。而Hive则可以将结构化的数据映射为一张数据表,为数据分析人员提供完整的SQL查询功能,并将查询语言转换为MapReduce任务执行。

(6)平台管理层。平台管理层中的组件是确保整个数据处理平台平稳安全运行的保障。跟其他系统中的管理组件相同,平台管理层中的组件提供了包括配置管理、运行监控、故障管理、性能优化、安全管理等在内的全套功能。Hadoop中提供了ZooKeeper,主要提供配置管理及组件协调功能,Ambrari提供了一个用于安装、管理和监控Hadoop集群的Web界面工具。