关系数据模型的基本数据结构关系数据模型的基本数据结构是二维表,由行和列组成。关系数据模型的基本术语①关系:即二维表。对关系模型中的二维表的限制条件①同一个表中的属性名必须各不相同,但次序可以任意改变。......
2023-10-22
信息系统构建和运营管理产业中导入数据质量管理系统现在已被认为是理所应当。最近一般规模的下一代信息系统构建提案邀请书中,数据质量管理体系建立和解决方案导入都包含在内。好像只要导入了数据质量管理系统,数据质量就会自动完善或得到保障,这样的错误认识目前还存在着。数据要像数据一样存在才能称为质量,按照数据的业务特性进行,才能称质量得到了保障。毕竟数据质量比起数据质量管理系统的导入来说,了解业务特点是什么再加以管理更重要。本节介绍了信息系统构建和运营过程中,在数据模型中对数据的业务特性进行系统性管理,连接数据质量管理系统,揭示能够保证质量的方法。
数以千计的表中数以万计的列构成了数据库(DB),为其进行数据质量管理的业务规则(business rule, BR)数如果连几百个都不到,那么数据质量指标能信得过吗?几乎大部分表和列都有固定的业务特性,去哪里找这数百个之多的业务规则呢?
不少企业和公共机关的数据质量管理现状就是这样的。甚至,即使这种状态管理下,要取得数据质量管理认证的部门也不以为然。
数百个业务规则其本身并不是问题。经常会有即使几百个业务规则也满足要求的情况。但跟数以千计的表中数以万计的列比起来,几百个业务规则就少得可怜了。
业务规则过少管理的重要原因是,将数据质量管理当作一次性工作,疏于发掘与扩张测定数据质量的业务规则。数据质量管理体系构成工作,应该建立数据质量管理流程与步骤或以关联解决方案导入为中心进行固定化。
与其说数据模型是介绍数据库表与列的文件,不如说是利用决定数据业务特性的标记法【如IE(information engineering)】并将其格式化。当然,用物理数据模型作为说明数据库的工具就更好了。所以,所谓的精心设计的数据模型,就是因为能够较好表现业务特性,所以通过数据模型能够轻松读取业务特性。
在现场进行的大量信息系统构建项目及接触运营环境的数据模型,仅数据库表和列排放的整齐好看,这样的情况非常之多,令人很心痛。甚至数据模型仅仅达到信息系统构建项目完成的程度,信息系统开放后的运营中再无任何管理的也是不计其数。
数据质量管理的核心是开发和运营定义完善且丰富的业务规则,这样的业务规则相当大的一部分不需要什么努力就可以从数据模型中导出。当然,对于将数据库表和列仅进行排列式管理的企业或机关来说,这样的数据库模型是不切实际的。
下面来比较三个数据模型,三者用不同的方法对同一业务进行设计。
(1)数据模型1。数据库表和行列只进行平面排列展示。这样的数据模型中,要进行数据质量管理的业务规则却不易找到,因此要用其他方法导出业务规则,就必须要进行调查作业,如图4-1所示。
图4-1 数据模型1
(2)数据模型2。数据库的表和行列以物理数据模型呈现。用实体(entity)代替数据库表,用属性代替行列,通过外键(foreign key, FK)中的相应列来表现,如图4-2所示。
在这个数据模型中,可以表现出数据的业务特性,进行如下的数据质量诊断,可导出业务规则。
①业务规则1:发送表的发送合作单位代码是Not Null,且必须为在合作单位表中登录的公司。
(www.chuimin.cn)
图4-2 数据模型2
②业务规则2:商品交付单位表的商品交付合作单位代码是Not Null,且必须为在合作单位表中登录的公司。
但是,通过数据模型2及上述业务规则1、业务规则2,可以推测出合作单位表中发送单位和商品交付单位都已经登录。数据模型中虽无明确表示,但通过合作公司表的合作公司类型码列,可以区分出具有发送功能的公司或具有商品交付功能的公司。如果发送表的发送合作公司代码中,填写了商品交付公司而非发送公司的企业代码,或者在商品交付企业表的商品交付合作公司代码中,填写了订货公司的企业代码,这就成了违背业务规定的数据。如此错误放任不管,那么业务规则1和业务规则2就无法发现此类错误。原因是作为业务规则1和业务规则2导出基础的数据模型2是物理数据模型,而物理数据模型要充分表现其数据业务特性是有局限性的。
(3)数据模型3。该模型是理论数据模型,虽然应称为概念数据模型,但在实际信息系统构建项目中已与理论数据模型通用,故可称为理论数据模型。这就意味着,不管是概念还是理论将从主题中脱离出来,对此不再讨论,如图4-3所示。
通过数据模型3可导出进行如下数据质量管理的业务规则。
①业务规则1:发送表的发送合作公司代码是Not Null,且必须为在合作公司表中部分集合发送公司中登录的公司。识别部分集合的合作公司一栏是合作公司类型代码。
②业务规则2:商品交付公司表的商品交付合作单位代码是Not Null,且必须为在合作公司表中部分集合的商品交付公司中登录的公司。识别部分集合的合作公司一栏是合作公司类型代码。
③业务规则3:合作公司表的是否代理国外发送一栏,合作公司的部分集合中如果仅填写了发送公司,则必须在Y、N中选一个值来表示。
数据模型3作为理论数据模型,通过物理型的数据模型1和数据模型2这样的构造得以实现,以此为前提导出业务规则1、业务规则2、业务规则3。业务规则3包括了Not Null栏的信息及域名信息,以技术方面为先导。
图4-3 数据模型3
对于多达数千个的表及数万个的列,像数据模型3这样业务特性被完美展现、正确设计的话,就能非常丰富而又简单地导出数据质量管理所需的业务规则了。
如上所述,考虑到数据模型尤其是理论数据模型的业务特性,进行详细设计是数据质量管理尤其是丰富正确的业务规则导出的必由之路。著名的计算机工程专业书籍Conceptual Database Design-An Entity Relationship Approach( Batini、 Ceri、 Navathe合著)中提出数据模型必须具备的质量特点,数据模型利用确定业务特性的表示法,且必须最大限度详细呈现,通过这些才能够确保数据模型的可读性(readability)和显而易见性(self-explanation)
许多信息系统构建和运营工作中数据模型的设计以数据库构建为目标。但是,不要仅仅将数据模型当作说明数据库表和列的产物,要将详细表达数据带有的业务特性的企业或机关数据地图合理利用起来。
有关数据质量管理与安全管理的文章
关系数据模型的基本数据结构关系数据模型的基本数据结构是二维表,由行和列组成。关系数据模型的基本术语①关系:即二维表。对关系模型中的二维表的限制条件①同一个表中的属性名必须各不相同,但次序可以任意改变。......
2023-10-22
元数据是与数据有关的信息,将数据质量认为是与线性数据相关的部分,可视为互相无关。实际上,既有仅仅进行元数据管理的程序,也有不需说明元数据也可进行数据质量管理的程序。质量的对象虽然是数据,但在质量管理和数据间发挥媒介作用的是元数据。进行数据质量管理时,根据企业自身对必要性的认识,包括元数据在内的各种数据和事务以及内容都可进行管理,可采用自己探索的解决方法,也可引入数据质量管理的专业工具。......
2023-11-16
关系数据模型的完整性约束条件是对关系的某种约束条件。其中,实体完整性和参照完整性是关系数据模型必须满足的完整性约束条件,称作关系的两个不变性,必须由关系系统自动支持。因此,关系模型必须保证每个实体都是完整的,都要遵守实体完整性约束条件,即关系中主键的所有属性都不能取空值。用户定义的完整性用户定义的完整性是用户针对某一具体关系数据库定义的约束条件,它反映某一具体应用所涉及的数据必须满足的语义要求。......
2023-10-22
目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
因为没有大数据平台安全技术,所以应尽早解决此问题。网络应用程序、数据库的安全或大数据集群仍是安全保护的重要对象,需要保证大数据的保密性、可用性、完整性。与此同时,各个产业群中,致命的数据安全事故激增。大数据平台也成为重要的数据安全对象,针对数据的机密性、完整性、可用性的安全目标以及能够防御来自数据的掠夺、伪造等外部威胁的体系和标准测定模型图的开发是必要的。......
2023-11-16
最近以数据治理、数据法规遵守为题的项目渐渐增多,下面介绍几个企业进行数据质量管理的案例。在这类项目中,数据质量管理被认为是必要而必需的。而且数据质量管理在数据质量问题发生后的原因追查中,作为决定性因素,以减少项目数据层面的危险为目标实施。通过第1阶段初步质量管理标准可以看出我国企业的数据质量管理现状。目前为止,因受数据质量管理的几处制约,在IT组织中,投资优先顺序已下降。......
2023-11-16
数据质量非常重要,数据的不确定性或质量低下会带来很多弊端。数据质量管理会对企业的经营质量管理和信息系统质量管理产生直接的影响。除了将数据的准确性视为质量的基本标准,数据的快速提供、数据应用的方便性等也常被视为质量标准。最近全球出现的数据质量管理受法律强制规范的现象尤为突出。为达成这一目标,全面提高数据质量管理标准的重要性正在凸显,也相应提出了不少方案。数据难以管理的主要原因是相关对象繁多且复杂。......
2023-11-16
相关推荐