工业大数据是一个全新的概念,以字面层次进行理解,就是指在工业领域信息化应用中所产生的大数据。制造业整个价值链及制造业产品的整个生命周期都涉及诸多的数据。据国际著名咨询公司麦肯锡统计,制造行业数据存储量远远超过其他行业的数据量总和。图4-3工业大数据产品数据:设计、建模、工艺、加工、测试、维护数据、产品结构、零部件配置关系、变更记录等。......
2023-06-23
信息技术产业在进入21世纪后,出现了许多具有颠覆性的技术变革,如云计算、物联网、社交网络等。这些技术的兴起使得数据正在以前所未有的速度不断地增加和累积,进而催生出备受人们广泛关注的技术——大数据[22]。大数据的出现引起了产业界、学术界和政府部门的高度关注。与传统数据相比,大数据具有一些新的特性,因此如何从海量的、快速变化的、内容庞杂的大数据中提取出质量高和真实的数据就成为企业处理大数据亟待解决的问题。目前,大数据质量面临着如下一些挑战[23]:
(1)数据来源的多样性,带来丰富的数据类型和复杂的数据结构,增加了数据集成的难度。以前,企业常用的数据仅仅涵盖自己业务系统所生成的数据,如销售、库存等数据;但是,现在企业所能采集和分析的数据已经远远超越这一范畴。大数据的来源非常广泛,主要包括四个途径:一是来自互联网和移动互联网产生的数据量;二是来自物联网所收集的数据;三是来各个行业(医疗、通信、物流、商业等)收集的数据;四是科学实验与观测数据。这些来源造就了丰富的数据类型。不同来源的数据在结构上差别很大。结构化数据、半结构化数据和非结构化数据是三种常见的数据结构,在这三种结构中,非结构化数据占据了数据总量的80%以上。
企业要想保证从多个数据源获取结构复杂的大数据并有效地对其进行整合,是一项异常艰巨的任务[24]。来自不同数据源的数据之间存在着冲突、不一致或相互矛盾的现象。在数据量较小的情形下,可以通过人工查找或者编写程序;当数据量较大时可以通过ETL或者ELT就能实现多数据源中不一致数据的检测和定位,然而这些方法在PB甚至EB级的数据量面前却显得力不从心。
(2)数据量巨大,难以在合理时间内判断数据质量的好坏。工业革命以后,以文字为载体的信息量大约每十年翻一番;1970年以后,信息量大约每三年就翻一番;如今,全球信息总量每两年就可以翻一番。2011年全球被创建和被复制的数据总量为1.8 ZB。要对这么大体量的数据进行采集、清洁、整合,最后得到符合要求的高质量数据,这在一定时间内是很难实现的。因为大数据中的非结构化数据的比例非常高,从非结构化类型转换结构化类型再进行处理需要花费大量时间,这对现有处理数据质量的技术来说是一个极大的挑战。对于一个组织和机构的数据主管来说,在传统数据下,数据主管可管理大部分数据;但是,在的大数据环境下,数据主管只能管理相对更小的数据[25]。
(3)数据变化速度快,数据“时效性”很短,对处理技术提出更高的要求。由于大数据的变化速度较快,有些数据的“时效性”很短。如果企业没有实时地收集所需的数据或者处理这些收集到的数据需要很长的时间,那么有可能得到的就是“过期的”、无效的数据。在这些数据上进行的处理和分析,就会出现一些无用的或者误导性的结论,最终导致政府或企业的决策失误。目前,对大数据进行实时处理和分析的软件还在研制或完善中,真正有效的商用产品还较少。
(4)国内外没有形成统一认可的数据质量标准,对大数据数据质量的研究才刚刚起步。为了保证产品质量,提高企业效益,1987年国际上出现了ISO 9000标准族。目前,全世界已有100多个国家和地区积极推行这个国际标准。国际社会对该标准族的广泛接纳,促进了企业在国内和国际贸易中的相互理解,有利于消除贸易壁垒。与之相比,数据质量标准的研究虽然始于20世纪90年代,但是直到2011年,国际标准组织(ISO)才专门制定了ISO 8000数据质量标准[26]。目前,已经有超过20个发达国家参与了ISO 8000标准,但是该标准存在许多争议,有待成熟和完善。同时,国内外对于大数据质量的研究才刚刚起步,成果较少。
有关大数据资源的文章
工业大数据是一个全新的概念,以字面层次进行理解,就是指在工业领域信息化应用中所产生的大数据。制造业整个价值链及制造业产品的整个生命周期都涉及诸多的数据。据国际著名咨询公司麦肯锡统计,制造行业数据存储量远远超过其他行业的数据量总和。图4-3工业大数据产品数据:设计、建模、工艺、加工、测试、维护数据、产品结构、零部件配置关系、变更记录等。......
2023-06-23
最近以数据治理、数据法规遵守为题的项目渐渐增多,下面介绍几个企业进行数据质量管理的案例。在这类项目中,数据质量管理被认为是必要而必需的。而且数据质量管理在数据质量问题发生后的原因追查中,作为决定性因素,以减少项目数据层面的危险为目标实施。通过第1阶段初步质量管理标准可以看出我国企业的数据质量管理现状。目前为止,因受数据质量管理的几处制约,在IT组织中,投资优先顺序已下降。......
2023-11-16
元数据是与数据有关的信息,将数据质量认为是与线性数据相关的部分,可视为互相无关。实际上,既有仅仅进行元数据管理的程序,也有不需说明元数据也可进行数据质量管理的程序。质量的对象虽然是数据,但在质量管理和数据间发挥媒介作用的是元数据。进行数据质量管理时,根据企业自身对必要性的认识,包括元数据在内的各种数据和事务以及内容都可进行管理,可采用自己探索的解决方法,也可引入数据质量管理的专业工具。......
2023-11-16
联合编目中心的联机编目应用系统于1998年12月开始进行联通试验并开始试运行,书目数据的质量管理也开始成为各成员馆在工作中必须要关注的问题。在数据质量控制方面,CALIS也组织专家对各馆提交的数据进行审校,并将存在的问题及时反馈。造成数据质量有缺陷的原因如下。检索语言的准确语法是数据库质量管理中的难点和要点。......
2023-07-06
业务规则过少管理的重要原因是,将数据质量管理当作一次性工作,疏于发掘与扩张测定数据质量的业务规则。数据库的表和行列以物理数据模型呈现。图4-2数据模型2②业务规则2:商品交付单位表的商品交付合作单位代码是Not Null,且必须为在合作单位表中登录的公司。原因是作为业务规则1和业务规则2导出基础的数据模型2是物理数据模型,而物理数据模型要充分表现其数据业务特性是有局限性的。......
2023-11-16
1)数据可用性的必要性可用性即组织提供必需数据的能力。不仅评价业务执行过程中需要的结构化数据条件,也评价随时可能产生的非结构化数据条件的应用体系。2)数据可用性预期效果通过可用性管理可系统应对用户的要求。3)数据可用性诊断项目可用性质量标准与要求管理(功能性)、数据结构管理、数据应用管理等流程相关。定义和授权要求后,在数据结构中反映并将其结果通过应用监控评测用户的满意度。......
2023-11-16
目前市场中所使用的与数据质量管理相关的核心技术有如下几种。2)设置文件这是数据质量管理的基础技术,不需经过与业务相关的特别事先培训,即可了解数据质量的基本情况,即为理解数据质量问题,取得各种有效统计的数据分析方法。与上述数据质量管理主要技术同样重要的是数据质量管理方法论。这不是使用区区几个技术就能够确保数据质量的,还需要专业咨询,采用适合各组织的流程,并提出各阶段的最佳运行和技术。......
2023-11-16
为察觉外部安全威胁,在60余个业务中应用了DB快速检查系统,内部人员追加使用了门禁系统。此次下一代DB安全系统构建过程中,掌握公共账户使用现状将成为可能。即使职员没有DB方面的知识,在这种环境下有恶意的DB攻击、信息泄露危险,需要通过DB安全系统进行更改,本案例中将其果断更改。......
2023-11-16
相关推荐