首页 理论教育应对大数据时代的数据质量挑战

应对大数据时代的数据质量挑战

【摘要】:来自不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象。数据量巨大,难以在合理时间内判断数据质量的好坏。数据变化速度快,数据“时效性”很短,对处理技术提出更高的要求。由于大数据的变化速度较快,有些数据的“时效性”很短。国内外没有形成统一认可的数据质量标准,对大数据数据质量的研究才刚刚起步。

信息技术产业在进入21世纪后,出现了许多具有颠覆性的技术变革,如云计算、物联网、社交网络等。这些技术的兴起使得数据正在以前所未有的速度不断地增加和累积,进而催生出备受人们广泛关注的技术——大数据[22]。大数据的出现引起了产业界、学术界和政府部门的高度关注。与传统数据相比,大数据具有一些新的特性,因此如何从海量的、快速变化的、内容庞杂的大数据中提取出质量高和真实的数据就成为企业处理大数据亟待解决的问题。目前,大数据质量面临着如下一些挑战[23]

(1)数据来源的多样性,带来丰富的数据类型和复杂的数据结构,增加了数据集成的难度。以前,企业常用的数据仅仅涵盖自己业务系统所生成的数据,如销售、库存等数据;但是,现在企业所能采集和分析的数据已经远远超越这一范畴。大数据的来源非常广泛,主要包括四个途径:一是来自互联网和移动互联网产生的数据量;二是来自物联网所收集的数据;三是来各个行业(医疗通信、物流、商业等)收集的数据;四是科学实验与观测数据。这些来源造就了丰富的数据类型。不同来源的数据在结构上差别很大。结构化数据、半结构化数据和非结构化数据是三种常见的数据结构,在这三种结构中,非结构化数据占据了数据总量的80%以上。

企业要想保证从多个数据源获取结构复杂的大数据并有效地对其进行整合,是一项异常艰巨的任务[24]。来自不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象。在数据量较小的情形下,可以通过人工查找或者编写程序;当数据量较大时可以通过ETL或者ELT就能实现多数据源中不一致数据的检测和定位,然而这些方法在PB甚至EB级的数据量面前却显得力不从心。

(2)数据量巨大,难以在合理时间内判断数据质量的好坏。工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8 ZB。要对这么大体量的数据进行采集、清洁、整合,最后得到符合要求的高质量数据,这在一定时间内是很难实现的。因为大数据中的非结构化数据的比例非常高,从非结构化类型转换结构化类型再进行处理需要花费大量时间,这对现有处理数据质量的技术来说是一个极大的挑战。对于一个组织和机构的数据主管来说,在传统数据下,数据主管可管理大部分数据;但是,在的大数据环境下,数据主管只能管理相对更小的数据[25]

(3)数据变化速度快,数据“时效性”很短,对处理技术提出更高的要求。由于大数据的变化速度较快,有些数据的“时效性”很短。如果企业没有实时地收集所需的数据或者处理这些收集到的数据需要很长的时间,那么有可能得到的就是“过期的”、无效的数据。在这些数据上进行的处理和分析,就会出现一些无用的或者误导性的结论,最终导致政府或企业的决策失误。目前,对大数据进行实时处理和分析的软件还在研制或完善中,真正有效的商用产品还较少。

(4)国内外没有形成统一认可的数据质量标准,对大数据数据质量的研究才刚刚起步。为了保证产品质量,提高企业效益,1987年国际上出现了ISO 9000标准族。目前,全世界已有100多个国家和地区积极推行这个国际标准。国际社会对该标准族的广泛接纳,促进了企业在国内和国际贸易中的相互理解,有利于消除贸易壁垒。与之相比,数据质量标准的研究虽然始于20世纪90年代,但是直到2011年,国际标准组织(ISO)才专门制定了ISO 8000数据质量标准[26]。目前,已经有超过20个发达国家参与了ISO 8000标准,但是该标准存在许多争议,有待成熟和完善。同时,国内外对于大数据质量的研究才刚刚起步,成果较少。