首页 理论教育数据挖掘的研究对象和范围

数据挖掘的研究对象和范围

【摘要】:数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。

数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的,因此数据挖掘所得到的信息应具备先前未知性、有效性和实用性三个特征。

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

数据挖掘可以针对任何类型的数据库进行,既包括传统的关系数据库,也包括非数据库组织的文本数据库、Web数据库以及复杂的多媒体数据库等[5]

1.关系数据库

关系数据库具有坚实的数据基础、统一的组织结构、完整的规范化理论和一体化的查询语言等优点,是当前数据挖掘最重要、最流行、信息最丰富的数据源,是人们进行数据挖掘研究的主要形式之一。

2.数据仓库

数据仓库是数据库技术发展的高级阶段,它是面向主题的、集成的、内容相对稳定的、随时间变化的数据集合,可以用来支持管理决策的制定。数据仓库允许将各种应用系统、多个数据库集成在一起,为统一的历史数据分析提供坚实的平台。

数据挖掘需要有良好的数据组织和“纯净”的数据,数据的质量直接影响到数据挖掘的效果,而数据仓库的特点恰恰最符合数据挖掘的要求。它从各类数据源中抓取数据,经过清洗、集成、选择、转换等处理,为数据挖掘所需要的高质量数据提供了保证。可以说,数据仓库为数据挖掘准备了良好的数据源,数据挖掘为数据仓库提供了有效的分析处理手段。因此,随着数据仓库与数据挖掘的协调发展,数据仓库必然成为数据挖掘的最佳环境

3.文本数据库

文本数据库所记载的内容均为文字,这些文字并不是简单的关键词,而是长句子、段落甚至全文。文本数据库多数为非结构化的,也有些是半结构化的,如HTML、E-mail等。Web网页也是文本信息,由众多的Web网页组成的数据库就是最大的文本数据库。当然,如果文本数据具有良好的结构,也可以使用关系数据库来实现。

4.复杂类型的数据库

以复杂类型的数据库是指非单纯文本的数据库或能够表示动态序列数据的数据库,主要有以下几类[6]

(1)空间数据库:主要指存储空间信息的数据库,其中数据可能以光栅格式提供,也可能用矢量图形数据表示。例如,地理信息数据库、卫星图像数据库、城市地下管道、下水道以及各类地下建筑分布数据库等。对空间数据库的挖掘可以为城市规划、生态规划、道路修建提供决策支持。

(2)时序数据库:主要用于存放与时间相关的数据,它可以用来反映随时间变化的即时数据或不同时间发生的不同事件,例如连续存放即时的股票交易信息、卫星轨道信息等。对时序数据的挖掘可以发现数据随时间的发展趋势、事物的演变过程和隐藏属性,这些信息对事件的计划、决策和预警是非常有用的。

(3)多媒体数据库:主要指用于存放图像、声音和视频信息的数据库。随着多媒体技术的发展以及相关研究(如可视化信息检索虚拟现实技术)的进步,多媒体数据库也逐渐普及并应用于许多重要研究领域。目前,多媒体数据的挖掘主要集中在对图像数据的检索和匹配上,随着研究的深入将会拓展到对声音、视频信息的挖掘。