首页 理论教育数据质量管理技术-数据质量管理与安全管理

数据质量管理技术-数据质量管理与安全管理

【摘要】:目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。

目前市场中所使用的与数据质量管理相关的核心技术有如下几种。

1)数据解析(parsing)和标准化(standardization)

将文本字段作为单位部分分离,将值按惯用的布局样式操作,以一般的行业标准或国家标准为基础。若是住址数据遵守国家邮政编码标准,以使用者定义的业务规则、值或模式相关的特殊化知识为基础,主要属于元数据管理的基本范畴。

2)设置文件(profiling)

这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。

3)数据检验(auditing)和业务规则(business rule)

为保证单位业务内部或其他业务相关的数据质量,需要能够管理复杂规则或数据规则,或者提供判断是否按照既定业务规则管理数据质量的功能。导出业务规则使用导入-导出或导出-导入。

4)匹配(matching)

此项技术能够发现数据包内部或外部数据包之间关联的词条唯一性、联系性、统筹性。5)清理(cleansing)(www.chuimin.cn)

符合构造,根据既定的业务规则对接数据质量的过程,实际是变更数据值的工作,现有最典型的例子就是顾客地址整理。

6)丰富化(enrichment)

加入来自外部资源的相关属性,提升内部已保存数据的价值的技术。例如输入与消费者相关的人口统计学属性,或追加地理索引信息等,与此相比,掌握正确的消费者取向及提供统计资料更能提高数据可信度。

7)监测(dashboard)

在组织中,判断是否符合正确的业务规则持续遵循数据质量及进行统计的功能。

与上述数据质量管理主要技术同样重要的是数据质量管理方法论。方法论虽然不提供其特性上的核心技术,却将揭示以上主要技术应用的最新方案。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。

国内也有专业的数据咨询企业和数据质量外包商提供资金开发的数据质量管理方法论,那么最重要的是,必须考虑到不同行业是否有多样的成功案例。