首页 理论教育大数据处理的关键技术

大数据处理的关键技术

【摘要】:为了获取大数据中的有价值信息,必须选择一种有效的方式来处理它。这些大数据处理技术在数据挖掘之前使用,可以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。

为了获取大数据中的有价值信息,必须选择一种有效的方式来处理它。大数据技术一般包括数据采集、数据预处理、数据存储和数据分析4个部分。

1.大数据采集技术

数据可以是从传感器、网络社交、论坛等渠道获得的信息,数据类型包括结构化、半结构化以及非结构化数据。大数据采集即是通过传感体系、网络通信体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

2.大数据预处理技术

大量数据接收完毕后,需要对多种结构的数据进行分类,将一些复杂的数据转化为单一的数据类型,并过滤掉错误及无用的信息。这种在主要的数据处理以前对数据进行的一些处理叫作大数据预处理。大数据预处理有多种方法:数据清理、数据集成、数据变换和数据归约。这些大数据处理技术在数据挖掘之前使用,可以提高数据挖掘模式的质量,降低实际挖掘所需要的时间。

3.大数据存储技术

面对如此巨大的数据量,能否建立相应的数据库并随时管理和调用其中数据,成为大数据存储技术的关键。这需要开发新型数据库技术,如键值数据库、列存数据库、图存数据库及文档数据库等类型,以解决海量图文数据的存储及应用问题。

4.大数据分析

大数据分析是指对规模巨大的数据进行分析。其中包括:

(1)可视化分析:不管对于数据分析专家还是普通用户,数据可视化都是数据分析工具最基本的功能。

(2)数据挖掘:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

(3)预测性分析:根据可视化分析和数据挖掘的结果做出一些预测性判断。

(4)语义引擎:分析语义中隐含的消息,并主动地提取信息。