首页 理论教育数据挖掘:基本概念解析

数据挖掘:基本概念解析

【摘要】:数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架

数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:

(1)数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。

(2)要挖掘的概念、规则、规律和模式是事先未知的,挖掘结果是否有效与领域知识、人们的兴趣和当时的背景有关。因此,建立客观通用的效果评价标准有难度。

(3)理论上,从领域知识中无法总结出规律,而欲从大量数据中找到规律,以发现问题、指导后续工作的应用均可使用数据挖掘技术来解决。而在实际问题中,数据的获取方式、数据格式、数据噪声、模式的描述与解释多种多样,数据挖掘技术与领域知识、领域技术的融合、提升,是创新也是挑战。

数据挖掘的任务包括频繁项集挖掘、关联规则挖掘、聚类、分类、特异数据挖掘和时间序列挖掘等。数据挖掘的过程一般包括以下可能重复的过程[25]

1)数据清洗:删除噪声数据和不一致数据。

2)数据集成:将多个数据源进行合并整理。

3)数据挑选:从数据库中选出与分析任务相关的数据。

4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。

5)数据挖掘:执行挖掘过程,获取数据模式。

6)模式评估:评估挖掘出模式的有效性。

7)知识表示:利用可视化和知识表示技术将挖掘结果呈现给用户。

数据挖掘的对象数据形式可能是关系数据库、数据仓库、事务数据库、对象关系数据库、多媒体数据库、时间空间数据库、文本文件、数据流及Web等[25]。典型的数据挖掘系统构架如图2.1所示[25]

图2.1 典型的数据挖掘系统构架