尽量要求事务执行能够并行化。图14.16Teradata DBC的事务处理是并行的图14.16中,每个竖放的矩形表示处理器,分别记为AMP1、AMP2、AMP3和AMP4,横放的矩形表示事务。图14.18算符内并行注:为算符,为算符实例i,n=并行度2.算符间并行算符间并行指的是不同的算符并行计算。图14.19中的两个选择算符是独立并行的。算法14.2是并行关联连接算法。......
2023-10-28
实现并行数据库系统依赖于分布式数据库技术。本质上,事务管理解决方案可以在这里重用。新的问题是数据定位、查询并行化、并行数据处理和并行查询处理等。它们的新特点是现在的节点数更多了。
与前面所说的分布式数据库系统不同的是,并行数据库系统中的众多处理器扮演着不同角色。因此存在着处理器分工的问题。
一个并行计算机有多个处理器,对于数据库系统来说,如何分配这些处理器也是面临的问题。在处理器无特殊优先分类时,它们的分配就取决于用户的应用和系统存储的特点。
我们先讨论Teradata DBC。在Teradata系统里,可以按照应用的特点,一部分处理器负责响应和处理用户请求,另一部分负责数据管理和存取。
在Teradata DBC中,可以把处理器的任务分为接口处理器(interface processor,IFP)、通信处理器(communication processor,COP)、存取模块处理器(access module processor,AMP)等三类。其中IFP负责处理用户的请求,COP负责处理网络通信,AMP则专门负责数据管理和存取。
图14.9是Teradata DBC并行数据库系统的硬件体系结构。
图14.9 Teradata DBC并行数据库系统的硬件体系结构
图14.9中的DSU是disk storage unit的首字母缩写,负责存储数据。
由图14.9可知,系统的前端是IFP/COP,负责处理用户的请求。其中,IFP处理来自本地连接终端的请求,COP处理来自网络的请求,因此称为通信处理器。这样,并行计算机的处理器的一部分就扮演了IFP和COP的角色。这里的处理器分为两大类,细分为三类,即IFP/COP和AMP。Ynet是将这些处理器互连的基本部件。每个AMP处理器管理独自的磁盘存储单元(DSU)。数据表的存放是跨越所有AMP的,换言之,每个数据表将自己的记录分布到每个AMP上。
下面还是以Teradata DBC为例进行讨论,如图14.10所示。但要注意的是,我们讨论的Teradata DBC是30多年前的一个型号机器与系统的基本情况。
Teradata IFP的示意图如图14.11所示。由图可知,通过引导程序进入IFP。IFP负责处理用户请求、语法分析、查询分解,等等。IFP的主要组成模块包括主机接口(host interface)、会话控制(session control)、输入数据转换器(input data conversion)、SQL解析器(SQL parser)、调度器(dispatcher)、Ynet接口(Ynet interface)等。(www.chuimin.cn)
Teradata COP的示意图如图14.12所示。其中COP是通过网络连入的用户。
图14.10 Teradata DBC示意图
图14.11 Teradata IFP示意图
由图14.12可知,通信处理器COP的主要组成模块是网络接口(network interface)、负载均衡(load balancing)、会话控制(session control)、输入数据转换(input data conversion)、SQL解析器(SQL parser)、调度器(dispatcher)和Ynet接口(Ynet interface)等。
IFP和COP负责与数据库用户打交道,具体的数据存取则交给AMP。Teradata AMP的示意图如图14.13所示。由图可知,通过Ynet互联的AMP处理器拥有自己的内存,有独立的I/O处理器,有独立的管理数据的存储单元(这里记为DSU1、DSU2、DSU3和DSU4)。由专用的高速总线将处理器和存储器连接在一起。
图14.12 Teradata COP示意图
图14.13 Teradata AMP示意图
有关分布式数据库技术的文章
尽量要求事务执行能够并行化。图14.16Teradata DBC的事务处理是并行的图14.16中,每个竖放的矩形表示处理器,分别记为AMP1、AMP2、AMP3和AMP4,横放的矩形表示事务。图14.18算符内并行注:为算符,为算符实例i,n=并行度2.算符间并行算符间并行指的是不同的算符并行计算。图14.19中的两个选择算符是独立并行的。算法14.2是并行关联连接算法。......
2023-10-28
首先我们讨论并行计算机及其体系结构。并行系统与并行计算密切关联。图14.1共享内存体系结构对于数据库系统来说,大部分共享内存的商务产品可以使用查询间并行算法来提高事务吞吐量和使用查询内并行算法来节省决策支持查询的响应时间。图14.2共享磁盘体系结构共享磁盘的优点:成本低、高可扩展性、负载均衡、高可用性,以及能方便地迁移到单处理器系统。图14.3无共享体系结构无共享的并行数据库系统如Teradata的DBC和Tandem的NonStop SQL等。......
2023-10-28
参考文献[4]中详细讨论了并行数据库系统中的索引问题。讨论并行数据库系统数据的安置问题,下面几个方面是不可忽视的。并行数据库系统有物理资源级和操作级两个负载均衡问题。图14.25倒排文件的结构在并行系统里,分割一个倒排文件可以提高负载均衡和检索效率。......
2023-10-28
但是,分布式DBMS中的视图可以从存放在不同站点的分片关系中导出。如果视图定义没有存放在发布查询的站点,则使用该视图时必须实施对视图定义站点的远程访问。分布式数据库中,视图上所表达的从查询到基关系的映射可以像在集中式DBMS中的一样来处理。可以把数据库管理员管理的数据对象看成一个层次结构,其中叶子是数据片,从数据片中可以导出关系和视图。......
2023-10-28
在上下文中,视图是一个从基关系导出的关系,实施方式是将其作为一个查询的结果。目前,实际系统在通过视图执行更新操作方面的限制都很大。这样,排除了在通过连接、聚集等生成的视图上实施更新的可能。然而,理论上可以支持更新的视图集合应大得多。......
2023-10-28
并行查询优化与分布查询处理类似。并行查询优化可以同时利用算符内并行和算符间并行的优点,还可以使用分布式数据库管理系统的技术。并行查询优化是指生成一个给定查询的执行计划,达到目标成本函数最小的目的。为了精确预测,成本模型必须包含并行环境的知识。为了估算执行计划的成本,成本模型使用数据库统计和组织信息,如关系基和分割等,就像分布式查询优化器一样。......
2023-10-28
并行数据库系统可以粗略定义为在一个紧耦合多处理器上构造的DBMS。并行数据库系统支持数据库功能,提供C/S接口和一些通用功能。下面讨论并行数据库系统的体系结构。图14.8并行数据库系统的体系结构并行计算机有多个CPU,CPU之间会分工,一部分CPU负责处理会话和用户请求,另一部分CPU负责数据存取和管理。......
2023-10-28
并行工程具有以下特点:1.并行交叉并行工程强调产品设计与工艺过程设计、生产技术准备、采购、生产等种种活动并行交叉进行。并行工程的核心和本质体现在以下几点:1)强调用户需求,并把用户需求转化为完整的产品要求。对产品而言,这种竞争能力就是由产品的TQCS综合指标——交货期、质量、价格和服务组成。TQCS综合指标包含了并行工程强调的四大要素。......
2023-07-15
相关推荐