首页 理论教育大数据分析简介-大数据挖掘技术及应用

大数据分析简介-大数据挖掘技术及应用

【摘要】:表8-2大数据计算模式表8-3大数据分析与挖掘框架大数据分析是指对规模巨大的数据进行分析。大数据分析的基本方法:预测性分析。知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程,也就是要对数据进行高端的分析。需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析与计算的知识库。大数据分析处理系统简介:批量数据及处理系统。

传统数据分析与挖掘方法主要是针对结构化数据和事务处理的关系型数据库,根据不同应用的需求在此基础上构建数据仓库,并选择相关数据进行分析,常用的分析与挖掘方法有数据挖掘、机器学习、统计分析等。

表8-1 传统数据分析与挖掘方法

随着海量半结构化和非结构化数据的迅速增长,给传统的数据分析与挖掘方法带来了冲击和挑战。因为传统数据分析与挖掘方法大多都是以数据量小为前提,基于内存基础上所构造的算法,而面对大数据时,就需要保证具有基于外存以及处理大规模数据集合的能力。

现实世界中的大数据处理问题复杂多样,难以有一种单一的计算模式能涵盖所有不同的大数据计算需求。所谓大数据计算模式,即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象(Abstraction)或模型(Model)。大数据计算模式如表8-2所示,大数据分析与挖掘框架如表8-3所示。

表8-2 大数据计算模式

表8-3 大数据分析与挖掘框架

(www.chuimin.cn)

大数据分析是指对规模巨大的数据进行分析。通过多个学科技术的融合,实现数据的采集、管理和分析,从而发现新的知识和规律。

大数据分析的基本方法:(1)预测性分析。从大数据中挖掘出有价值的知识和规则,通过科学建模的手段呈现出结果,然后可以将新的数据带入模型,从而预测未来的情况。(2)可视化分析。能够直观地呈现大数据的特点,同时能够非常容易被用户所接受。(3)大数据挖掘算法。常用的数据挖掘方法有分类、预测、关联规则、聚类、决策树、描述和可视化、复杂数据类型挖掘(Text、Web、图形图像、视频、音频)等。(4)语义引擎。语义引擎通过对网络中的资源对象进行语义上的标注以及对用户的查询表达进行语义处理,使得自然语言具备语义上的逻辑关系,能够在网络环境下进行广泛而有效的语义推理,从而更加准确、全面地实现用户的检索。(5)数据质量和数据管理。为了满足信息利用的需要,对信息系统的各个信息采集点进行规范,包括建立模式化的操作规程,原始信息的校验,错误信息的反馈、矫正等一系列的过程。

大数据分析的主要技术:(1)针对结构化数据的数据挖掘、统计分析方法;(2)针对非结构化、富文本语义的文本分析,有文本表示、自然语言处理、信息抽取、主题模型、文本摘要、文本分类、文本聚类、自动问答、观点挖掘等方法;(3)针对半结构化的Web分析,有Web内容挖掘、Web结构挖掘、Web应用挖掘等方法;(4)针对图形、图像、音频、视频等大规模冗余语义缺失的多媒体分析,有自动摘要、自动标注、索引与检索、自动推荐、事件检测等方法;(5)针对富文本社交关系的噪声冗余的社交网络分析,有链接预测、社团检查、网络进化、关键词检索、分类分析、聚类分析、迁移学习等方法;(6)针对依赖位置和个性用户信息的移动分析,有监测、基于位置的挖掘等方法。

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但是又潜在有用的信息和知识的过程。统计学主要是通过机器学习来对数据挖掘产生影响,而机器学习和数据库则是数据挖掘的两大支撑技术。

深度学习是一种能够模拟人脑的神经结构的机器学习方式,从而能够让计算机具有人一样的智慧。利用层次化的架构学习对象在不同层次上的表达,这种层次化的表达可以帮助解决更加复杂抽象的问题。深度学习本质上是一个人工神经网络,两者都包含输入层、输出层及中间的若干隐藏层组成的多层网络,每层都有若干结点及连接这些点的边。同一层以及跨层节点之间相互无连接,每一层都可以看作是一个逻辑回归模型,在训练数据集上学习,得到边的权值,从而建立模型。

知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程,也就是要对数据进行高端的分析。需要从大数据中先抽取出有价值的知识,并把它构建成可支持查询、分析与计算的知识库。

大数据分析处理系统简介:(1)批量数据及处理系统。批量数据通常数据体量巨大,如数据从TB级别跃升到PB级别,且是以静态的形式存储。Hadoop是典型的大数据批量处理架构,由HDFS负责静态数据的存储,通过MapReduce实现计算逻辑、机器学习和数据挖掘算法。(2)流式数据及处理系统。流式数据是一个无穷的数据序列,序列中的每一个元素来源不同,格式复杂,序列往往包含时序特性。流式数据处理有Twitter的Storm、Facebook的Scribe、Linkedin的Samza等。(3)交互式数据及处理系统。交互式数据是操作人员与计算机以人机对话的方式产生的数据。交互式数据处理系统有Berkeley的Spark和Google的Dremel等。(4)图数据及处理系统。图数据是通过图形表达出来的信息含义。图数据处理的典型系统,如Google的Pregel系统、Neo4j系统和微软的Trinity系统。