目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
数据值诊断是以运营中的数据库表、列、关系、业务规则等为基准,分析数据值是否有效、是否遗漏、是否唯一,还有是否违背构造完整性的数据等,导出降低质量的问题点,对这些问题提出改善方案的质量诊断。例如,假设有符合图5-1所示的数据库关系的表。职员表中的职员代码和部门表中的部门代码是各个表的默认键(PRIMARY KEY),职员表和部门表通过部门代码列产生关联。
再来看职员表中用来PK的职员代码列,图5-1中,“100005”重复出现,带有无法唯一确定的值。这里违背了识别符的唯一性。职员表的部门代码列可参考部门表中的部门代码。但是看看职员表的“袁满”部门代码,在部门表中并无“D05”这个值,这就违反了结构的完整性(一致性)。像这样诊断数据库表中存储的值并找出问题,提出改善方案,对数据进行高品质维护和管理,并据此制定业务规则叫做数据值诊断。
图5-1 数据值诊断示例
数据值诊断的顺序是首先选定诊断对象,收集元数据,利用收集的元数据分析数据文件、诊断数据值、分析文件结果、导出业务规则、进行品质测定,随后确认错误数据及进行原因分析后、整合质量诊断结果、提出改善方案等一连串的质量诊断流程。
在数据值诊断中处于核心的数据文件分析与犯罪心理分析官(侧写员)从事的工作有很多相似的部分。在表现美国联邦调查局的犯罪侦查电视剧《犯罪心理》中,坏人犯罪后,侧写员就会收集与犯罪有关的犯罪类型、社会影响、文化等所有相关资料并进行分析。利用这些资料分析罪犯的动向和心理,提供罪犯继续犯罪或将其抓捕的解决方案,现场人员就可以拘捕犯人。作为诊断数据值的方法,数据文件分析也与此大为相似。所谓数据文件分析,就是以完整性、准确性、有效性、唯一性、一致性等为标准对数据值进行调查,利用收集与数据相关的重要信息和统计值等信息分析方法。
在进行数据文件分析前,要先选定质量诊断中使用的质量标准项目。质量标准项目大致分为完整性、一致性、有效性、唯一性、准确性等,将这些细分就是详细质量标准项目,如表5-2所示。进行质量诊断时,可将项目与内容互换。这次质量诊断中,将完整性和唯一性、有效性、一致性选为质量标准进行质量诊断。数据文件分析的进行顺序如图5-2所示。
下面介绍作为DB Tool的Orange Object Report Tool,通过它收集元数据的例子。Object Report Tool作为生成表和视图的定义书(report)的工具,可以生成表目录、列目录、关系目录等定义书。元数据全部收集完毕后,分析遗漏或不一致的表及列名、资料类型及长度等。以分析的材料为基础,选定要进行数据文件分析的对象表及列、数据文件分析类型,如图5-3所示。并且在Data Quality Manager中选择执行对象表和列,并生成分析文件。
表5-1 数据质量诊断标准
图5-2 数据文件分析流程
图5-3 OrangeDBTooI质量诊断对象选择示例
选定对象后就要选定配置文件选项,各选项内容如下。
1) Profile Option
(1)选定Limit number of Pattern Analysis result: Pattern分析时,指定Pattern结果值的最大个数。输入0时,无限制地取得局部Pattern结果值。
(2)选定Limit number of Value List Analysis result: Value List分析时,指定Distinct Value List结果值的最大个数。这种情况中数据可能很多,要限制在1000个以下。
(3) Degree of Parallelism for Analysis:为使用并行处理指定degree个数。输入0而不使用并行处理,可能进行并行处理的DB就会禁用这个值。
(4) If you select the existing profile, you will copy the existing profile data literally:选定现有Profile的时候,若核对了值,则现有Profile中存储的Table/Column值就会原样保存;若没有核对值,则按照DB中实际带有的值保存。
(5) Data Length for analysis(pattern/Value List) : Pattern分析和Value List分析时,数据长度较大的情况下也可能不必分析,为排除限制长度的对象,输入此值。如果默认值为20,则分析对象为Data Type;如果长度值超过20,则排除Pattern分析和Value List分析对象,在Configuration Tab中将Pattern/Value List Column用[N/A]表示。
(6) Value of effective rate(%)for change color:分析结果effective rate值若比输入值小,则颜色不同。
配置文件生成后,要进行正确的数据文件配置操作,为已生成的配置文件分析统计信息。虽然此操作并非必须,但若想得到正确结果,推荐进行统计信息分析(analyze)操作,如图5-4和图5-5所示。
图5-4 配置文件选项
图5-5 统计信息分析
统计信息分析完成后,在Configuration标签下设置配置文件分析类型。在类型中,有列分析、模式分析、值列表分析(Configuration标签中可见的表根据画面左侧的配置文件及表、列的选择而变化)。
2) Configuration设定信息(图5-6)
(1) Common Y/N:通过一般的默认配置文件信息收集选项形成默认选择。根据选择的值生成Basic Profile Tab的数据。(www.chuimin.cn)
(2) Referenced Column:按照“Owner名、Table名、Column名”格式输入,没有参考输入的Column值件数,选择是否修改。
(3) Negative Number Y/N:如果是数字类型Column(Number、 Decimal、 Integer等),带有负数值的数据,选择是否修改。
(4) Pattern Y/N:设定是否收集CHAR或VARCHAR类型值的相关模块。未按照[C:大写字母,c:小写字母,Z:数字,B:空格键,H:全角文字(中文,符号),特殊文字]格式的,或长度大的Column,模块分析无意义。根据选择的值生成Patterns Tab的数据(推荐使用20B以下的)。
(5) Value List Y/N:收集Distinct值的目录。对于只有少数值的(Distinct件数少的)Column,选择是否收集。根据选择的值生成Distinct Value List Tab的数据。
图5-6 Configuration设定
现在来看Data Quality Manager中生成的配置文件分析报告。
与图5-7一样,在Profile标签的Basic Profile中,确认Null Count和Space Count、Effective Count、 Effective Rate后,可以分析必要项中关于有无遗漏的完整性。配置文件选项中,对于比Effective Rate值更小的项目,能够立刻确认数据,如图5-8所示。
图5-7 完整性分析
图5-8 低EffectiveRate数据值例子
Profile标签Basic Profile的Rows Count、Distinct Count、Distinct Value List中,确认Result Value、Total并且分析默认键及唯一条件的唯一性,如图5-9所示。
图5-9 唯一性分析
下面分析一下格式有效性。举个代表性例子,带有邮政编码数据的列中模块全部都是统一的。对于值的模块,可在Profile标签的Pattern中确认。邮政编码是带有三个数字、连字符(“-”)再加上三个数字所组成模块的列。所以就带有像“ZZZ-ZZZ”的模块,模块表示的方法参照表5-2。格式有效性分析如图5-10所示。
表5-2 模块表示法
图5-10 格式有效性分析
血型用11=A型、12=B型、13=AB型、14=O型这样的代码定义,那么利用图5-11就可以确认。
图5-11 代码有效性分析
若表间有参照关系,必须保持参照完整性。为分析一致性,确认Configuration标签中的Referenced Column和Profile标签Basic Profile中的Reference Value Violation就可以了,如图5-12所示。
图5-12 一致性——参照完整性分析
使用了Data Quality Manager的数据文件配置分析结束后,将结果整合与业务相关人员一起探讨操作。完成探讨操作后,以此为基础导出业务规则,并完成数据文件配置。
数据库中最为重要作为基础的就是数据值。一旦数据出现异常,那么与数据结构、管理流程等大多数有关的问题也会发生。例如使用外部键(FOREIGN KEY)的列发生了数据重复现象,也会一同引起数据结构问题。那么通过数据值诊断提取的问题原因改善方案,就必须将数据结构和数据管理流程等的诊断及改善活动一同进行。
有关数据质量管理与安全管理的文章
目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
因为没有大数据平台安全技术,所以应尽早解决此问题。网络应用程序、数据库的安全或大数据集群仍是安全保护的重要对象,需要保证大数据的保密性、可用性、完整性。与此同时,各个产业群中,致命的数据安全事故激增。大数据平台也成为重要的数据安全对象,针对数据的机密性、完整性、可用性的安全目标以及能够防御来自数据的掠夺、伪造等外部威胁的体系和标准测定模型图的开发是必要的。......
2023-11-16
最近以数据治理、数据法规遵守为题的项目渐渐增多,下面介绍几个企业进行数据质量管理的案例。在这类项目中,数据质量管理被认为是必要而必需的。而且数据质量管理在数据质量问题发生后的原因追查中,作为决定性因素,以减少项目数据层面的危险为目标实施。通过第1阶段初步质量管理标准可以看出我国企业的数据质量管理现状。目前为止,因受数据质量管理的几处制约,在IT组织中,投资优先顺序已下降。......
2023-11-16
大数据无法通过RDBMS存储和管理。因此,很多人认为大数据质量管理是一项“没有实际意义”、“浪费时间”的工作。现在这种烦恼已经全球化,超越了大数据技术,在质量管理领域中的相关研究正在进行。从大数据的三大特质来看质量管理的考虑事项。尤其相对于结构化数据质量管理,非结构化数据的质量管理及质量测定标准是以后要大力发展的领域。在数据流动层面上,质量管理非常必要,连大数据也不例外。......
2023-11-16
数据质量发生错误的可能性较高,也不具备恢复系统事故的对策方案。对数据质量进行定性管理,但运营成果不定量。该阶段为数据质量管理通过统计技巧或定量评测方法管理的阶段,可持续安全地维护流程并可进行预测,确认是否达成质量目标。......
2023-11-16
最终,信息所有者必须负责他们的敏感信息的安全性,并应该构成他们的数据库安全战略和合伙人。这导致数据分离和义务规则的违反,数据分离和义务规则的违反使内部人员盗窃或伪造敏感数据成为可能。不建议某些企业因为这样的原因,将数据移动到云或虚拟化环境中。在这里,数据库安全问题对于云引进来说是一块相当大的绊脚石。......
2023-11-16
谈到大数据安全时,数据和基础结构安全都很重要。除了与Hadoop类似的平台结构性安全问题,许多IT管理团队对其他数据管理平台的一般安全控制不足。根据所选NoSQL运营种类,很有可能提供一种或两种安全控制。设置或管理大数据集群时,集群管理人员应考虑以下各领域的安全控制。虽然Kerberos可极大提高安全性,也仍然需谨慎对待。通常安全控制包括API服务器中匹配令牌邀请、输入有效性检查、节点管理政策过滤、与目录服务的整合等。......
2023-11-16
1)功能方面数据错误原因分析和删除。通过对错误原因进行分类,采取制作方针、对相关人员进行教育等措施防止错误再次发生。2)作用方面应从企业角度进行数据错误原因分析,在可跟踪的位置对相关数据、系统、用户等进行跟踪。数据错误原因分析和数据质量标准设置:将数据错误原因分析的结果反映在数据质量标准中。......
2023-11-16
相关推荐