首页 理论教育大数据质量管理与安全管理

大数据质量管理与安全管理

【摘要】:大数据无法通过RDBMS存储和管理。因此,很多人认为大数据质量管理是一项“没有实际意义”、“浪费时间”的工作。现在这种烦恼已经全球化,超越了大数据技术,在质量管理领域中的相关研究正在进行。从大数据的三大特质来看质量管理的考虑事项。尤其相对于结构化数据质量管理,非结构化数据的质量管理及质量测定标准是以后要大力发展的领域。在数据流动层面上,质量管理非常必要,连大数据也不例外。

随着大数据应用价值的提升,现有标准数据和庞大繁杂的非标准数据并存的今天,想要在商业活动中获得价值并创造知识,就必须将以过去RDBMS为基础的传统分析技术和以Hadoop为基础的新技术互相调和,互为补充,加以应用并不断发展。为此,有效的大数据治理战略要在各方面得到确立。

大数据无法通过RDBMS存储和管理。因此,很多人认为大数据质量管理是一项“没有实际意义”、“浪费时间”的工作。现在未使用的日志信息或实时SNS信息等和现存信息融合使用的案例在不断出现,如果能够在大数据应用上先人一步,形成客户管理或事故预防方面的竞争力,在质量管理方面的辛苦就不算白费。

仔细回顾大数据,即使不像现存数据一样,在大数据的特性和数据处理过程中,首先考虑到ROI也可以确认质量管理的要素。现在这种烦恼已经全球化,超越了大数据技术,在质量管理领域中的相关研究正在进行。

从大数据的三大特质(3V)来看质量管理的考虑事项。第一,大量数据(volume)需要质量方面的检验或在一部分取得阶段需要进行抽样调查(6sigma以上的比率)。第二,发生频率在快速生成速度(velocity)方面,不可能对已经生成的数据进行改善,但是,需要对大数据生成机制的改善事项进行检视。第三,从多样化(variety)的格式类型方面,必须以与结构化(structured)、半结构化(semi-structured)、非结构化(unstructured-目录)、非定型(SNS,TEXT等)特性不同的质量测定为标准定义和管理。(www.chuimin.cn)

尤其相对于结构化数据质量管理,非结构化数据的质量管理及质量测定标准是以后要大力发展的领域。仔细考虑多样化特性的话,结构化数据需要对现存RDB中的质量管理要素数据值、数据结构、处理顺序进行管理,半结构化数据通过半结构相关的元数据标准等定义进行管理,非结构化数据是根据定义了非结构化目录管理标准或被其定义的标准,与之相符的测定方法(例如,专家的判断、视频的清晰度,是否为假钞,抽取关键词的适当性等)而进行的。数据公开、共享、使用和商品化时,根据这样的标准,需要进行叫做数据质量诊断的部分。

为保证数据质量,从数据产生到消亡,在数据生命周期的每个阶段都要进行质量检验活动。现存的数据质量管理存在于数据流动过程之中,分析管理要素、检查要素,检验统一性。在数据流动层面上,质量管理非常必要,连大数据也不例外。如果与现有数据存在差异的话,会更强调取得与分析时的质量。因为取得数据时,由于大数据3V的特性,即使问题发生了要清理也很难,并且全部调查也是不可能的。分析时,分析关键词的适当性和统计数值的显著性质量更加重要。

将现有的质量管理对象预备定型数据和大数据相关的质量管理方法比较来看,大数据管理方法的原则或组织层面上,所有权概念更弱,比起全部质量保证更需要考虑特殊情况。