首页 理论教育数据质量诊断实务:第5章精要

数据质量诊断实务:第5章精要

【摘要】:最近,“数据经营”逐渐成为热点话题,在大数据市场中,数据质量自然而然地吸引了很多人的注意。数据质量是指使用的数据是否达到适当的标准以上。相反,根据SELLER_INFO中存储的数据成功购买了商品,估计对于质量的满意度就会上升。所以企业为了使大量数据更有意义,管理和应用质量优秀的数据,应诊断数据质量,不断努力管理,使其保持在一定水准之上。

最近,“数据经营”逐渐成为热点话题,在大数据市场中,数据质量自然而然地吸引了很多人的注意。这里所谓的数据经营,就是将在社会或企业中产生的大量数据加工为有价值的数据,利用他们对企业利润甚至更深一层的人类发展产生重大意义。从2000年引入以来,企业的互联网和IT技术就飞速发展,开始将企业的所有业务信息化。在企业层面,导入了用来统一数据的数据仓库(data warehouse)及商务智能(business intelligence)。但是随着环境急剧变化,准备却不充分(特指先进技术的跟进),将不同业务中到处分散的信息系统整合为一,由此开始产生不良数据。这样的不良数据引发了不同业务信息系统间严重的数据重复和不一致等问题,给企业带来了巨大损失。存在这种问题的数据如果在企业运营中持续使用,损害规模逐渐扩大只是时间问题。

数据质量是指使用的数据是否达到适当的标准以上。举个简单的例子,假设在线购物中有个存储卖家信息的表SELLER INFO。顾客可以看到卖家的信用度和配送所需时间等,进而购买卖家的商品。如果信息不正确,那么顾客对于表SELLER_INFO的满意度就会大幅下降。相反,根据SELLER_INFO中存储的数据成功购买了商品,估计对于质量的满意度就会上升。像这样的数据质量,就意味着公司职员或顾客使用了数据库表中存储的数据,所得到的产品满意度标准。所以企业为了使大量数据更有意义,管理和应用质量优秀的数据,应诊断数据质量,不断努力管理,使其保持在一定水准之上。(www.chuimin.cn)

数据质量诊断的种类有三种,对于数据库表中存储的数据值,执行质量诊断的数据值诊断,对于数据设计构造进行的数据结构诊断,还有对于管理数据的流程进行的数据管理流程诊断。