Hive数据仓库工具及其在医药领域的应用

2023-11-08 理论教育版权反馈

【摘要】：Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。Hive十分适合数据仓库的统计分析和Windows注册表文件。

Hive是一种底层封装了Hadoop的数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询，所有Hive的数据都存储在Hadoop兼容的文件系统（例如Amazon S3、HDFS）中。Hive在加载数据过程中不会对数据进行任何修改，只是将数据移动到HDFS中Hive设定的目录下。因此，Hive不支持对数据的改写和添加，所有的数据都是在加载的时候确定的。(www.chuimin.cn)

Hive的设计特点如下：支持创建索引，优化数据查询；不同的存储类型，例如，纯文本文件、HBase中的文件；将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间；可以直接使用存储在Hadoop文件系统中的数据；内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF函数来完成内置函数无法实现的操作；类SQL的查询方式，将SQL查询转换为MapReduce的job在Hadoop集群上执行。

Hive数据仓库工具及其在医药领域的应用

相关推荐