开源工具：分布式数据库技术

2023-10-28 理论教育版权反馈

【摘要】：它允许用户通过在查询准确性和查询响应时间之间做出权衡，完成近似查询。其数据的精度被控制在允许的误差范围内。

1.Apache Drill

Apache Drill是一个开源的、低延迟的用于交互的SQL引擎，是一个能对大数据进行实时分布式查询的引擎。它以兼容ANSI SQL（国际标准SQL语言）语法作为接口，支持对本地文件、HDFS、HIVE、HBASE、MongeDB等作为存储的数据查询，文件格式支持Parquet、CSV、TSV以及JSON这种无模式（schema-free）的数据。所有这些数据都可以像使用传统数据库的表查询一样进行快速实时的查询。

2.Apache Phoenix

Apache Phoenix是构建在HBase上的SQL层，是使用标准的JDBC API而不是HBase客户端API来创建表，插入数据和对HBase数据进行查询。Phoenix采用SQL查询，将之编译为一组HBase扫描，协调扫描的运行，并返回输出JDBC结果集。

3.Apache Presto

Presto是一个开源分布式SQL查询引擎，支持GB/PB级数据源交互查询分析。Presto也是一个在集群上运行的分布式系统。完整安装包括一个协调者（coordinator）和多个工作者（worker）。可以通过连接到协调者的Presto CLI客户端提交查询请求。协调者会解析、分析并安排查询执行，然后分发给工作者处理。Presto查询可以从多个数据源组合数据。

4.Blink DB

Blink DB是用于在海量数据上进行交互式SQL的近似查询引擎。它允许用户通过在查询准确性和查询响应时间之间做出权衡，完成近似查询。其数据的精度被控制在允许的误差范围内。

5.Impala

Impala是基于MPP的查询引擎，提供高性能、低延迟的SQL查询，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。

6.Hadapt

Hadapt是云优化的系统，提供分析平台，可以低延迟地对结构化和非结构化数据进行复杂分析。

7.Hive(www.chuimin.cn)

Hive是Haddop上的第一个SQL引擎。

8.Kylin

Kylin是一个开源的分布式OLAP引擎，在Hadoop上提供SQL接口和多维分析功能，支持极大数据集。Kylin包含Metadata Engine、Query Engine、Job Engine和Storage Engine，也包含REST Server，为客户端请求提供服务。

9.Tajo

Tajo是一个用于Hadoop的大数据的关系型和分布式数据仓库系统。