首页 理论教育网络信息的知识发现和数据挖掘优化

网络信息的知识发现和数据挖掘优化

【摘要】:网络信息的知识发现是从网络信息中提取人们感兴趣的知识,这些知识可能是隐含的、事先未知的、潜在有用的信息,它集数据收集、数据清理、维数变换、规则归纳、模式识别、数据结果分析及评估等多种过程于一身,是统计学、计算机科学、模式识别、人工智能、机器学习及其他学科相结合的产物。数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。

网络信息的知识发现是从网络信息中提取人们感兴趣的知识,这些知识可能是隐含的、事先未知的、潜在有用的信息,它集数据收集、数据清理、维数变换、规则归纳、模式识别、数据结果分析及评估等多种过程于一身,是统计学、计算机科学、模式识别、人工智能、机器学习及其他学科相结合的产物。发现了的知识可以被用于信息管理、查询优化决策支持、过程控制等,还可以进行数据自身的维护。在于Internet上的数据是巨量的、无序的、非结构的,并且存在大量的冗余与噪声,因此,网络信息的知识发现具有以下特点:数据规模巨大、维度很高。数据挖掘(Data Mining)是知识发现的主要步骤。

数据挖掘的目的:

(1)发现知识:知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联。例如,在商业应用中数据挖掘可用于发现分割、分类、关联、喜好四种知识。发现分割知识可以将客户记录分组,策划为客户度身定做的推销活动。发现分类知识可以将输入的数据分配到预定义的类别中,发现和理解趋势以及对文本节档进行分类等。发现交叉销售的机会是一种关联知识,以及发现大部分客户喜好的知识。

(2)使数据可视化:分析人员需搞清楚数据库中存储的大量信息的含义。在做任何分析之前,需先将待处理的数据人性化,并寻找显示数据的好方法。

(3)纠正数据:在结合大规模的数据库时,数据库的数据通常是不完整的,而且通常包含错误和自相矛盾的信息。数据挖掘需要以最稳定的方法识别和纠正这些问题。

数据挖掘方法分为统计方法、机器学习方法、神经网络方法和数据库方法。

(1)统计学的方法是数据挖掘的经典方法。统计方法中包括回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。

(2)机器学习中包括归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法粗糙集等。粗糙集能够对不确定、不完整的信息进行处理,而遗传算法具有全局最优搜索的能力。

(3)神经网络方法具有处理非线性数据和含噪声数据的能力。神经网络的常用算法包括前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。