首页 理论教育数据挖掘中存在的主要问题

数据挖掘中存在的主要问题

【摘要】:如果数据挖掘系统是交互的,数据挖掘结果的表示和显示这一点便尤为重要。从数据库角度来讲,有效性和可规模性是数据挖掘系统实现的关键问题。以上问题是数据挖掘技术未来发展的主要挑战。

本书介绍了数据挖掘的主要问题,包括挖掘技术、用户界面、性能和各种数据类型。

1.数据挖掘技术和用户界面问题

该问题反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、特定的挖掘和知识显示。

(1)在数据库中挖掘不同类型的知识:由于不同的用户可能对不同类型的知识感兴趣,数据挖掘系统应当覆盖广阔的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析。这些任务可能以不同的方式使用相同的数据库,并需要开发大量的数据挖掘技术。

(2)多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特殊地,类似于OLAP在数据上做的那样,应当通过交互的方式在数据空间和知识空间下钻、上卷、挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。

(3)结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式、在不同的抽象层表示。关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现模式的兴趣度。

(4)数据挖掘查询语言和特定的数据挖掘:关系查询语言(如SQL)允许用户进行特定的数据提取查询。类似地,需要开发高级数据挖掘查询语言,使用户通过说明分析任务的相关数据集、领域知识、所挖掘的数据类型以及被发现的模式必须满足条件和兴趣度限制,描述特定的数据挖掘任务。将这种语言与数据库查询语言集成,对数据挖掘起着重要的作用。

(5)数据挖掘结果的表示和显示:发现的知识应当用高级语言、可视化表示形式或其他表示形式表示,使知识易于理解,能够直接被人使用。如果数据挖掘系统是交互的,数据挖掘结果的表示和显示这一点便尤为重要。这要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线。

(6)处理噪声和不完全数据:数据库中可能存在噪声、异常或信息不全的数据。这些数据可能搞乱分析过程,导致数据与所构造的算法模型过拟合,使发现模式的精确性变差。需要采用处理数据噪声的数据清洗方法和数据分析方法,以及发现和分析例外情况的局外者挖掘方法。

(7)模式评估——兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定的用户,许多模式不是有趣的,它们表示平凡或缺乏新颖性的知识。关于开发模式兴趣度的评估技术,特别是对于给定用户类,基于用户的信赖或期望,评估模式价值的主观度量,仍然存在一些挑战。使用兴趣度度量,进而发现过程和压缩搜索空间,是一个活跃的研究领域。

2.性能问题

性能问题包括数据挖掘算法的有效性、可规模性和并行处理

(1)数据挖掘算法的有效性和可规模性:为了有效地从数据库中的大量数据提取信息,数据挖掘算法必须是有效的和可规模化的,即对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的。从数据库角度来讲,有效性和可规模性是数据挖掘系统实现的关键问题。前面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可规模性。

(2)并行、分布和增量挖掘算法:许多数据库中大容量数据的广泛分布和一些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这些算法将数据划分成部分,这些部分可以并行处理,然后合并每部分的结果。此外,有些数据挖掘过程的高花费导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必重新挖掘全部数据。这种算法渐增地进行知识更新,修正和加强先前已发现的知识。

3.关于数据库类型的多样性问题

(1)关系的和复杂的数据类型处理:由于关系数据库和数据仓库已经广泛使用,因此对它们开发有效的数据挖掘系统是重要的。数据库中包含复杂的数据对象、超文本多媒体数据、空间数据、时间数据、事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望用一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统,即对于不同类型的数据有不同的数据挖掘系统。

(2)由异种数据库和全球信息系统挖掘信息:局域和广域(如Internet)计算机网络连接了许多数据源,形成了庞大的、分布的和异种的数据库。从具有不同数据语义的结构的、半结构的和无结构的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异种数据库中的数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异种数据库信息交换和协同操作的性能。Web挖掘发现关于Web连接、Web使用和Web动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性的领域。

以上问题是数据挖掘技术未来发展的主要挑战。在近年来的数据挖掘研究和开发中,一些挑战已经得到解决,而另一些挑战仍处于研究阶段。