首页 理论教育数据质量的定义与衡量

数据质量的定义与衡量

【摘要】:数据质量在不同组织也有不同的定义。他们采纳了“使用的适合性”的概念,将数据质量定义为“数据适合数据消费者的使用”[17][27]。数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同。B.作为产品,数据有质量,这个质量来自产生数据的过程。C.数据质量原则上可以测量和改进。周东[21]则认为数据质量“是由从数据的一致性、准确性到相关性等一系列的参数决定”。

从20世纪50年代开始,人们开始研究质量问题,“质量”成为了一个在现代社会中被广泛使用的词语,却没有形成单一、固定的概念。质量的一般涵义经历了物质产品质量的狭义概念到物质产品质量、服务质量及各行各业质量的广义概念的认识过程[12]。虽然不同学者和机构给“质量”一词以不同的定义[13—15],但下面两种是较为典型的。一是Juarn和Grgna在1980年提出的:所谓“质量”即指“使用的适合性”(fitness for use)[16]。他们对质量的定义强调,产品或服务的质量应该满足用户的期待和需要。而国际标准化组织(ISO)对“质量”的定义更明确地阐述了这一点。1986年,ISO 8402提出[15]:“质量”是指“产品或服务所具备的满足明确或隐含需求能力的特征和特性的总和”。

20世纪80年代,随着信息技术的飞速发展,人们将目光转向了数据质量(data quality,DQ)的研究。数据质量在不同组织也有不同的定义。例如,麻省理工学院(MIT)Richard.Y.Wang教授领导的全面数据质量管理(total data quality management,TDQM)研究小组对数据质量领域进行了较为全面的研究。他们采纳了“使用的适合性”的概念,将数据质量定义为“数据适合数据消费者的使用”[17][27]。数据质量判断依赖于使用数据的个体,不同环境下不同人员的“使用的适合性”不同。

Redman给出了数据质量的定义[18],他认为:如果数据在运营、决策和规划中能够满足客户的既定用途,数据便是高质量的。根据这一定义,客户是质量的最终裁决者。

美国国家统计科学研究所(NISS)关于数据质量研究的主要观点在于[19]:A.数据是产品。B.作为产品,数据有质量,这个质量来自产生数据的过程。C.数据质量原则上可以测量和改进。D.数据质量与环境有关。E.数据质量是多维度的。F.数据质量是多尺度的。G.人的因素是核心。

国内学者陈远等[20]认为“数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述”。周东[21]则认为数据质量“是由从数据的一致性、准确性到相关性等一系列的参数决定”。

可见,数据质量在学术界和工业界并没有形成统一的定义,学术界大多认可MIT关于数据质量的定义,工业界要么采用ISO的定义,要么根据各自的特定领域扩展了“使用的适合性”的内涵。

本书借鉴上述学者的一些研究成果,将数据质量定义如下:

定义:数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

在不同的业务场景中,数据消费者对数据质量的需要不尽相同,有些人主要关注数据的准确性和一致性,另外一些人则关注数据的实时性和相关性,因此,只要数据能满足使用目的,就可以说数据质量符合要求。