大数据上构建SQL引擎：分布式数据库技术

2025-09-30 理论教育版权反馈

【摘要】：图18.8传统数据库上的SQL引擎传统数据库上的SQL引擎如图18.8所示。数据修改成为HDFS的固有局限。简单来说，SQL大数据引擎必须应对这些挑战。概括起来，大数据上的SQL引擎主要包含四种不同的方案。这种Hadoop引擎上的SQL优势在于执行特定SQL查询和实施数据调查与发现，可以直接用于数据分析，在BI工具上自动生成SQL代码。图18.9在Hadoop上构建SQL引擎的方法3.减少SQL查询延迟的方法数据规模和I/O开销越大，查询所需要花费的时间越长。

pagenumber_ebook=407,pagenumber_book=392

图18.8　传统数据库上的SQL引擎

传统数据库上的SQL引擎如图18.8所示。其中，查询处理器用来分析用户请求（查询），通过查阅数据字典验证语义，进行优化，生成优化后的执行计划。存储引擎按执行计划存取数据。

目前使用最广的RDBMS往往运行在SMP的体系架构上。SMP的体系架构包括多个处理器，每个CPU有自己的存储引擎，内存和I/O则为每个CPU共享。SMP的体系架构很难应对数据仓库应用所需的大量数据迁移和处理大量数据的负载。原因主要是数据需要在计算机背板和I/O通道上移动。

SQL引擎也可工作在分析数据库上。分析数据库用于数据仓库和商务智能（BI）应用方面，支持低延迟的负载分析查询。这时会使用MPP体系架构，如Teradata数据仓库，但是这种架构解决方案价格昂贵、可伸缩性差。

1.对HDFS而言为什么DML难以实现

HDFS是目前处理大数据常用的工具，但是其体系架构主要支持只读运算，即WORM（write once read many）。HDFS支持数据添加，但不支持数据更新。数据修改成为HDFS的固有局限。因此大多数SQL解决方案不支持Hadoop上的DML操作。有些供应商通过使用日志记录更新请求，然后选择适当时机合并修改请求，将归并后的修改实施到原始数据上。

经验告诉我们，关系型数据库在面对超越一定数据集大小的时候，鉴于性能和可伸缩性的缘故，能力受到了限制。有一些技术，如数据的人工分片与分割（sharding and partitioning），可以用来解决这个问题。尽管如此，问题还没真正解决。分布式系统的主要挑战是如何在集群上让分布连接能延迟实现。要解决这个问题，需让数据在网络上高速迁移，达到很快的速度和高的吞吐能力。

减少在通信链路上迁来迁去的数据量是一个重要挑战。开发出适应各种数据集（特别是半结构化数据）上的可伸缩算法，从而实现和结构化数据上一样的SQL性能是一个挑战。为了适应日益增长的数据集大小，已经使用了各种不同的技术，压缩或格式化数据可使数据存取开销最小。

简单来说，SQL大数据引擎必须应对这些挑战。

Hadoop上的第一个SQL引擎是Hive，由Facebook于2025年开发。Hive在Hadoop上实现低延迟SQL，但有固有的局限性。这主要是由于Hive采用的体系架构将SQL查询转换为Map Reduce这种面向批处理的系统。复杂的SQL查询需要多轮Map Reduce过程，而每轮结束需要将临时数据写入磁盘，下一轮又要从磁盘读出数据以便进一步处理。数据随着磁盘I/O在网络里传来传去，导致系统速度变慢。

显然，Map Reduce并非为适应优化很长的数据流水线而设计的。

2.大数据上的SQL解决方案

解决大数据上SQL的负载问题，有几种解决方案，例如，面向批处理负载的SQL、面向交互处理负载的SQL和面向流负载的SQL等。

概括起来，大数据上的SQL引擎主要包含四种不同的方案。

（1）构建一个翻译层，将SQL查询翻译成等价的MapReduce代码，执行在计算集群。

Hive就是这种解决方案的样例，它是面向批处理负载的SQL解决方案。它使用Map Reduce和Apache Tez^[6]作为中间层。中间层运行针对海量数据集的复杂作业，包括ETL和生成数据“流水线”（见图18.9（c））。

（2）借助现存关系型引擎，并结合40多年的研究和开发成果，包括所有的存储引擎和查询优化技术等，使之更强壮（见图18.9（d））。

假设将MySQL/Postgres嵌入Hadoop集群的每个数据节点，构造一个软件层次，在这个层次底下的分布式文件系统中存取数据。这种RDBMS引擎与数据节点配合，再与数据节点通信并从HDFS读数据，将之翻译成符合自己的数据格式。

（3）构建新的查询引擎，与数据节点共处在同一个计算节点，在HDFS数据上工作并直接执行SQL查询。这种查询引擎使用查询分离器（query splitter）将查询分割成一个或几个底层的数据处理器（handlers）（如HDFS、HBase、关系数据引擎、搜索引擎等），存取和处理数据（见图18.9（b））。

Drill^[7]和Impala^[8]是可以在HDFS上实现交互SQL查询。这种Hadoop引擎上的SQL优势在于执行特定SQL查询和实施数据调查与发现，可以直接用于数据分析，在BI工具上自动生成SQL代码。

（4）使用现有的分析数据库（部署在与Hadoop集群不同的集群上），与Hadoop集群上的节点交互，使用专用的连接器（proprietary connector）从HDFS获取数据，但在分析引擎上执行SQL查询。这类外部分析引擎可以集成起来，使用Hive或HCatalog^[9]里的元数据可以在HDFS数据上无缝工作。典型产品如Teradata（见图18.9（a））。

pagenumber_ebook=408,pagenumber_book=393