与数据库安全系统打交道的人员可以分为两类:数据库管理员和普通用户。DBA要对安全负责,所以他(们)要创建授权规则,定义谁可以使用哪部分数据,以及如何使用。图13.1数据库安全系统由图13.1可知,数据库安全系统里存放着授权规则,在每次数据库存取时强制满足其规则。从完整性方面考虑,数据库安全可以包含以下两方面。1)设计阶段的数据库安全在设计阶段必须关注数据库的安全性。DBA负责处理整个数据库系统里的用户账号和口令。......
2023-10-28
某种程度上,Hadoop似乎成了大数据的代名词。但是,SQL在大数据中也扮演着重要角色。
对企业来说,其数据汇聚涉及多个方面,如操作性系统、社会媒体、万维网、传感器、智能设备及其应用,因此会采用Hadoop和HDFS构建集中的数据存储仓库。然后使用大数据工具和框架进行管理和分析,构建数据驱动的产品和从数据获得可操作的前景。
不管其功能如何,Hadoop为数学家和开发人员提供了工具,具有如下特征。
●Hadoop并不是为了回答分析问题而设计的。
●Hadoop并不为处理大容量并发用户需求而构建的。
简言之,Hadoop不适合商业用户使用。
随着企业开始把数据移向大数据平台,大家开始考虑如何利用SQL的问题。
Hadoop设计可工作于任何数据类型,如结构化、非结构化、半结构化,非常灵活。但是,使用起来往往需要从最底层API开始。所以有人说,Hadoop的体系结构使得数据存储和数据存取间存在阻抗不匹配。
大数据工作负载中,非结构化和流式数据类型更获关注。然而,大多数企业应用仍然聚焦于传统的数据操作。原来在Hadoop上只能借助Hive实施SQL。现在越来越多的商家和开源产品运行用户开始将SQL使用在大数据上。
传统上,大数据工具和技术主要聚焦在分析空间(从简单的BI到高级分析工具)构建解决方案。事务性或操作性系统(transactional and operational systems)则很少使用大数据平台。后来Hadoop开始支持SQL引擎,形势开始有了变化。
基于SQL的大数据查询可以分为如下几类。
●报表性查询(reporting queries)。
●特定查询(ad hoc queries)。
●交互OLTP查询(iterative OLAP queries)。(www.chuimin.cn)
●数据挖掘查询(data mining queries)。
●事务性查询(transactional queries)。
如大家所知,传统事务处理应用是在线事务处理(online transactional processing,OLTP)。RDBMS就是为OLTP设计的。
可扩展性也是大数据对SQL数据库系统的挑战,一些商品化数据库系统如Oracle和IBM DB2采用了共享磁盘和分片(sharding),使得存储量达到或超越TB级别。
SQL大数据解决方案的目标甚多,包括传统的从OLTP到OLAP数据分析查询。需要支持的目标如下。
●分布式横向体系结构(distributed scale-out architecture):思路是在分布式体系结构上支持SQL,跨越数据存储和跨越机器集群计算。有些数据库系统,如MySQL等需要采用大量编码以便在应用层人工分片(sharding)数据。而像Oracle或IBM DB2这样的共享磁盘的数据库系统要实现跨越,成本很高。
●避免将数据从HDFS迁移到外部存储:要处理数据时,把数据从HDFS移到外部存储,如迁移到一个SQL数据库系统,则是一种很糟糕的方法。如果一个数据库引擎能直接在数据存放的地方实施计算和分析,那是大家乐于看到的。
●替代昂贵的分析数据库和装置(如MPP):以低成本支持的延迟、可伸缩的大数据集分析操作。
●获取数据的即时可用性(immediate availability of ingested data):SQL大数据一旦写入存储集群,就可以被存取,无需先将其从HDFS层取出,再放置到另外的系统里。这称为“查询到位”(query-in-place),例如:提高敏捷性,较低的操作成本得到复杂的结果,无需维护单独的分析数据库,减少数据从一个系统迁往另一个系统。
●终端用户高并发性:大数据上SQL的目标是在大型数据集上为大量并发用户支持SQL。在处理并发用户上,Hadoop是不足的,无论是特定分析还是ETL,都是如此。工作时的资源分配和调度始终是瓶颈。
●低延迟:在大型数据集上面对特定查询提供的延迟始终是大多数SQL大数据引擎的目标。大数据的流动性和多样性使得问题很复杂。
●非结构化数据处理能力。
●能集成现有BI工具。
有关分布式数据库技术的文章
与数据库安全系统打交道的人员可以分为两类:数据库管理员和普通用户。DBA要对安全负责,所以他(们)要创建授权规则,定义谁可以使用哪部分数据,以及如何使用。图13.1数据库安全系统由图13.1可知,数据库安全系统里存放着授权规则,在每次数据库存取时强制满足其规则。从完整性方面考虑,数据库安全可以包含以下两方面。1)设计阶段的数据库安全在设计阶段必须关注数据库的安全性。DBA负责处理整个数据库系统里的用户账号和口令。......
2023-10-28
Oracle公司的OPS环境比一般的(单实例)Oracle环境复杂得多。不同结构下的OPS的实施略有不同。图14.23OPS体系结构为了利用这些特性,需要专业人员合适的设计以及恰当的手工配置。下面对有些关键问题进行简单讨论,讨论中会涉及一些Oracle系统专用的术语,读者可参阅Oracle公司的相关文档。DLM与Oracle进程一起工作并相互通信。DLM相关的初始化参数在每个实例的SGA[12]中分配必要的结构以处理消息机制、封锁与实例相关的Cache管理,这样就为各种Oracle进程操纵提供了基础。......
2023-10-28
为了集成海量的、异构的、多形态的数据,首先要将它们的描述统一起来,这就引出了对集成数据的元数据描述和管理的要求。事实上,人们对元数据的理解和认识还存在不少争议,迄今尚未形成真正统一的元数据定义。与数据字典不同,数据仓库主要是将元数据进行分析处理。2)元数据分类元数据广泛存在的多形态导致到目前还没有形成一个统一的分类标准。......
2023-10-28
要在并行数据库系统中查找数据,首先要确定数据由哪些处理器管理,放在哪里,这就是数据定位。因为希望在数据所在处执行程序,所以数据定位就是判断系统性能好坏的一个重要因素。有round-robin分割、哈希分割和归类分割三种基本分割方法,如图14.14所示。图14.14不同的分割模式round-robin分割是最简单的一种分割方法,它能保证均匀分配。图14.15Teradata DBC的数据分布由图14.15可知,Teradata DBC采用的策略是将数据均匀地分布到其存储设备中。......
2023-10-28
企业里,ERP系统要将自己的生产数据和供应链数据集成,也要与CRM中的客户数据集成。下面先讨论数据库集成。数据库集成涉及处理参与数据库中信息的集成问题,将参与的数据库从概念上集成起来,形成一个凝聚定义的多数据库。因此,要设计一种合理的和适当的全局概念模式,将这些成分数据库集成为一个多数据库是一个重要的问题。图5.1数据库集成过程第一步,需要把成分数据库模式翻译成一个通用中间体(记作InS1,InS2,…......
2023-10-28
而数据仓库中的数据仅是一系列某一时刻生成的复杂的快照。图24.8数据仓库的基本结构由图24.8可以看出,数据仓库不仅关注当前数据,也关注历史数据。数据仓库是一次一步地设计和载入数据。在数据仓库中,要在数据量大小与查询的详细程度之间作出权衡。判断样本所带来的问题是使样本数据具有某种偏差,随机抽取数据带来的问题是可能无法进行统计。如上所述,在数据仓库环境中,需要对数据进行分割。......
2023-10-28
我们使用自己的研究成果来叙述情景建模和情景数据库。图20.15情景感知系统数据库由图20.15可见,传感器获得的信号通过数字化后转换为数据。数据经过转换、清洗和融合等过程形成情景,存放在数据库,形成情景数据库中。图20.16情景结构和模型由图20.16可知,情景可以用概念、关系和方法三个要素来定义。GaCam中定义的所有情景的基本方法如下:显然,这种情景结构和面向对象概念类似,因此,可以采用面向对象数据库系统来实现。......
2023-10-28
显然,自动识别技术是物联网体系的重要组成部分,借此可以对每个物品进行标识和识别,并可以实时更新数据,是构造全球物品信息实时共享的重要组成部分,是物联网的基石。按照国际自动识别技术的分类标准,自动识别技术可以分为数据采集技术和特征提取技术两大类。......
2023-10-28
相关推荐