首页 理论教育数据值诊断示例及流程|数据质量管理与安全管理书

数据值诊断示例及流程|数据质量管理与安全管理书

【摘要】:图5-1数据值诊断示例数据值诊断的顺序是首先选定诊断对象,收集元数据,利用收集的元数据分析数据文件、诊断数据值、分析文件结果、导出业务规则、进行品质测定,随后确认错误数据及进行原因分析后、整合质量诊断结果、提出改善方案等一连串的质量诊断流程。在数据值诊断中处于核心的数据文件分析与犯罪心理分析官(侧写员)从事的工作有很多相似的部分。

数据值诊断是以运营中的数据库表、列、关系、业务规则等为基准,分析数据值是否有效、是否遗漏、是否唯一,还有是否违背构造完整性的数据等,导出降低质量的问题点,对这些问题提出改善方案的质量诊断。例如,假设有符合图5-1所示的数据库关系的表。职员表中的职员代码和部门表中的部门代码是各个表的默认键(PRIMARY KEY),职员表和部门表通过部门代码列产生关联。

再来看职员表中用来PK的职员代码列,图5-1中,“100005”重复出现,带有无法唯一确定的值。这里违背了识别符的唯一性。职员表的部门代码列可参考部门表中的部门代码。但是看看职员表的“袁满”部门代码,在部门表中并无“D05”这个值,这就违反了结构的完整性(一致性)。像这样诊断数据库表中存储的值并找出问题,提出改善方案,对数据进行高品质维护和管理,并据此制定业务规则叫做数据值诊断。

图5-1 数据值诊断示例

数据值诊断的顺序是首先选定诊断对象,收集元数据,利用收集的元数据分析数据文件、诊断数据值、分析文件结果、导出业务规则、进行品质测定,随后确认错误数据及进行原因分析后、整合质量诊断结果、提出改善方案等一连串的质量诊断流程。

在数据值诊断中处于核心的数据文件分析与犯罪心理分析官(侧写员)从事的工作有很多相似的部分。在表现美国联邦调查局的犯罪侦查电视剧《犯罪心理》中,坏人犯罪后,侧写员就会收集与犯罪有关的犯罪类型、社会影响、文化等所有相关资料并进行分析。利用这些资料分析罪犯的动向和心理,提供罪犯继续犯罪或将其抓捕的解决方案,现场人员就可以拘捕犯人。作为诊断数据值的方法,数据文件分析也与此大为相似。所谓数据文件分析,就是以完整性、准确性、有效性、唯一性、一致性等为标准对数据值进行调查,利用收集与数据相关的重要信息和统计值等信息分析方法。

在进行数据文件分析前,要先选定质量诊断中使用的质量标准项目。质量标准项目大致分为完整性、一致性、有效性、唯一性、准确性等,将这些细分就是详细质量标准项目,如表5-2所示。进行质量诊断时,可将项目与内容互换。这次质量诊断中,将完整性和唯一性、有效性、一致性选为质量标准进行质量诊断。数据文件分析的进行顺序如图5-2所示。

下面介绍作为DB Tool的Orange Object Report Tool,通过它收集元数据的例子。Object Report Tool作为生成表和视图的定义书(report)的工具,可以生成表目录、列目录、关系目录等定义书。元数据全部收集完毕后,分析遗漏或不一致的表及列名、资料类型及长度等。以分析的材料为基础,选定要进行数据文件分析的对象表及列、数据文件分析类型,如图5-3所示。并且在Data Quality Manager中选择执行对象表和列,并生成分析文件。

表5-1 数据质量诊断标准

图5-2 数据文件分析流程

图5-3 OrangeDBTooI质量诊断对象选择示例

选定对象后就要选定配置文件选项,各选项内容如下。

1) Profile Option

(1)选定Limit number of Pattern Analysis result: Pattern分析时,指定Pattern结果值的最大个数。输入0时,无限制地取得局部Pattern结果值。

(2)选定Limit number of Value List Analysis result: Value List分析时,指定Distinct Value List结果值的最大个数。这种情况中数据可能很多,要限制在1000个以下。

(3) Degree of Parallelism for Analysis:为使用并行处理指定degree个数。输入0而不使用并行处理,可能进行并行处理的DB就会禁用这个值。

(4) If you select the existing profile, you will copy the existing profile data literally:选定现有Profile的时候,若核对了值,则现有Profile中存储的Table/Column值就会原样保存;若没有核对值,则按照DB中实际带有的值保存。

(5) Data Length for analysis(pattern/Value List) : Pattern分析和Value List分析时,数据长度较大的情况下也可能不必分析,为排除限制长度的对象,输入此值。如果默认值为20,则分析对象为Data Type;如果长度值超过20,则排除Pattern分析和Value List分析对象,在Configuration Tab中将Pattern/Value List Column用[N/A]表示。

(6) Value of effective rate(%)for change color:分析结果effective rate值若比输入值小,则颜色不同。

配置文件生成后,要进行正确的数据文件配置操作,为已生成的配置文件分析统计信息。虽然此操作并非必须,但若想得到正确结果,推荐进行统计信息分析(analyze)操作,如图5-4和图5-5所示。

图5-4 配置文件选项

图5-5 统计信息分析

统计信息分析完成后,在Configuration标签下设置配置文件分析类型。在类型中,有列分析、模式分析、值列表分析(Configuration标签中可见的表根据画面左侧的配置文件及表、列的选择而变化)。

2) Configuration设定信息(图5-6)

(1) Common Y/N:通过一般的默认配置文件信息收集选项形成默认选择。根据选择的值生成Basic Profile Tab的数据。(www.chuimin.cn)

(2) Referenced Column:按照“Owner名、Table名、Column名”格式输入,没有参考输入的Column值件数,选择是否修改。

(3) Negative Number Y/N:如果是数字类型Column(Number、 Decimal、 Integer等),带有负数值的数据,选择是否修改。

(4) Pattern Y/N:设定是否收集CHAR或VARCHAR类型值的相关模块。未按照[C:大写字母,c:小写字母,Z:数字,B:空格键,H:全角文字(中文,符号),特殊文字]格式的,或长度大的Column,模块分析无意义。根据选择的值生成Patterns Tab的数据(推荐使用20B以下的)。

(5) Value List Y/N:收集Distinct值的目录。对于只有少数值的(Distinct件数少的)Column,选择是否收集。根据选择的值生成Distinct Value List Tab的数据。

图5-6 Configuration设定

现在来看Data Quality Manager中生成的配置文件分析报告。

与图5-7一样,在Profile标签的Basic Profile中,确认Null Count和Space Count、Effective Count、 Effective Rate后,可以分析必要项中关于有无遗漏的完整性。配置文件选项中,对于比Effective Rate值更小的项目,能够立刻确认数据,如图5-8所示。

图5-7 完整性分析

图5-8 低EffectiveRate数据值例子

Profile标签Basic Profile的Rows Count、Distinct Count、Distinct Value List中,确认Result Value、Total并且分析默认键及唯一条件的唯一性,如图5-9所示。

图5-9 唯一性分析

下面分析一下格式有效性。举个代表性例子,带有邮政编码数据的列中模块全部都是统一的。对于值的模块,可在Profile标签的Pattern中确认。邮政编码是带有三个数字、连字符(“-”)再加上三个数字所组成模块的列。所以就带有像“ZZZ-ZZZ”的模块,模块表示的方法参照表5-2。格式有效性分析如图5-10所示。

表5-2 模块表示法

图5-10 格式有效性分析

血型用11=A型、12=B型、13=AB型、14=O型这样的代码定义,那么利用图5-11就可以确认。

图5-11 代码有效性分析

若表间有参照关系,必须保持参照完整性。为分析一致性,确认Configuration标签中的Referenced Column和Profile标签Basic Profile中的Reference Value Violation就可以了,如图5-12所示。

图5-12 一致性——参照完整性分析

使用了Data Quality Manager的数据文件配置分析结束后,将结果整合与业务相关人员一起探讨操作。完成探讨操作后,以此为基础导出业务规则,并完成数据文件配置。

数据库中最为重要作为基础的就是数据值。一旦数据出现异常,那么与数据结构、管理流程等大多数有关的问题也会发生。例如使用外部键(FOREIGN KEY)的列发生了数据重复现象,也会一同引起数据结构问题。那么通过数据值诊断提取的问题原因改善方案,就必须将数据结构和数据管理流程等的诊断及改善活动一同进行。