首页 理论教育影响数据质量的因素分析

影响数据质量的因素分析

【摘要】:影响数据质量的因素有很多,既有技术方面的因素,又有管理方面的因素。无论由哪个方面的因素造成的,其结果均表现为数据没有达到预期的质量指标[8]。图10-1数据的生命周期数据收集是指根据用户需求或者实际应用出发,收集相关数据。在数据收集阶段,引起数据质量问题发生的因素主要包括数据来源和数据录入。严格来说,数据备份阶段并不存在质量问题,它只是为数据使用提供一个安全和可靠的存储环境。

影响数据质量的因素有很多,既有技术方面的因素,又有管理方面的因素。无论由哪个方面的因素造成的,其结果均表现为数据没有达到预期的质量指标[8]。在数据的生产和处理中,任何一个环节的问题都会对信息系统的数据质量产生负面影响。下面从数据生命周期的角度,阐述影响数据质量的主要因素。数据生命周期是指数据从产生、经数据加工和发布、备份和保存、最终实现数据再利用的一个循环过程,如图10-1所示。

图3-4 支架

建模步骤如下。

①根据图3-4,结合给出的轴测图,分析该模型的形体。该形体可以想象成由三部分组成,即一个主体与两个耳板叠加,如图3-5所示。主体的截面是相同的,都是类似于一个“L”形,两个耳板的截面都相同,都是三角形。

图10-1 数据的生命周期

数据收集是指根据用户需求或者实际应用出发,收集相关数据。这些数据可以由内部人员手工录入,也可以从外部数据源批量导入[9]。在数据收集阶段,引起数据质量问题发生的因素主要包括数据来源和数据录入。通常,数据来源可分为直接来源和间接来源。数据的直接来源主要包括调查数据和实验数据,它们是由用户通过调查或观察以及实验等方式获得的第一手资料,可信度很高。间接来源是收集来自一些政府部门或者权威机构公开出版或发布的数据和资料,这些数据也称为二手数据。在互联网时代,由于获取数据和信息非常方便和快速、二手数据逐渐成为主要的数据来源。但是,一些二手数据的可信度并不高,存在诸如数据错误、数据缺失等质量问题,在使用时需要进行充分评估。

许多原始数据并没有形成数字化形式,需要从期刊、文档或者其他资料中提取信息,由于存在印刷错误或对原始数据资料的曲解,造成数据录入错误或者数据缺失;其次,当录入人员不知道正确值时,经常编造一个容易输入的默认值,或他们认为的典型值录入,通过引入“脏数据”以达到所谓的伪完整性(spurious integrity),这样的数据通常会带来数据错误。

数据整合是共享或者合并来自两个或者更多应用的数据,创建一个具有更多功能的企业应用的过程,它主要通过各种不同数据源之间的数据传递、转换、净化、集成等功能实现。数据整合最终目标是建立集合各类业务数据为一体的数据仓库,为市场营销和管理决策提供科学依据。

在数据整合阶段,最容易产生的质量问题是数据集成错误。将多个数据源中的数据合并入库是常见的操作,这时需要解决数据库之间的不一致或冲突的质量问题,在实例级主要是相似重复问题,在模式级主要是命名冲突和结构冲突。为了解决多数据源之间的不一致和冲突,在基于多数据源的数据集成过程中可能导致数据异常,甚至引入新的异常。因此,数据集成是数据质量问题的一个来源。

数据建模是一种对现实世界各类数据进行抽象的组织形式,确定数据的使用范围、数据自身的属性以及数据之间的关联和约束。数据建模可以记录商品的基本信息,如形状、尺寸和颜色等,同时也反映在业务处理流程中数据元素的使用规律[10]。好的数据建模可以用合适的结构将数据组织起来,减少数据重复并提供更好的数据共享;同时,数据之间约束条件的使用可以保证数据之间的依赖关系,防止出现不准确、不完整和不一致性的质量问题。

数据分析(处理)是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。

测量错误是数据分析阶段的常见质量问题,它包括三类问题:一是测量工具不合适,引起数据不准确或者异常;二是无意的人为错误,例如方案问题(如不合适的抽样方法)以及方案执行中的问题(如测量工具误用等);三是有意地人为舞弊,即出于某种不良意图的造假,例如,2005年韩国国立首尔大学教授黄禹锡的干细胞研究实验数据造假案件[11],这类数据可以直接导致信息系统决策错误,同时也造成严重后果和社会影响。

数据发布和展示是将经处理和分析后的数据以某一种形式(表格和图表等)展现给用户,帮忙用户直观地理解数据价值及其所蕴含的信息和知识,同时提供数据共享。相比较而言,数据发布和展示阶段的质量问题要比前面几个阶段少,数据表达质量不高是这一阶段存在的主要问题,展示数据的图表不容易理解、表达不一致或者不够简洁都是一些常见的质量问题。

数据备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他的存储介质的过程。严格来说,数据备份阶段并不存在质量问题,它只是为数据使用提供一个安全和可靠的存储环境。一旦数据遭受破坏不能正常使用时,可以利用备份好的数据进行完整、快速地恢复。

数据再利用是指为了在更大范围内发挥数据的作用,用户可以对数据进行再加工,提供数据增值服务。例如数据可视化、数据模拟等。这一阶段的质量问题主要是用户需求或者业务场景发生了改变,导致原来符合质量需求的数据有可能不满足新的质量标准,需要进一步改善数据质量。