【摘要】:4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。
E.Knorr等将知识发现的任务归为4类[109]:
1)探查依赖关系。
2)辨识类别。
3)描述类别。
4)探查例外或特异数据。
前3类任务对应的基础是频繁项挖掘,第4类的基础是稀有项。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。特异数据一般认为是由测量或操作的严重失误引起的,如在登记年龄的数据中出现了某人800岁的误记。这样的特异数据在进行数据分析前是应尽量清除掉或减少其影响。而“一些人的噪声是另一些人的信号”[108],在另一些场合,清除特异数据会丢失隐藏的和有意义的信息,如在金融领域使用信用卡的特异消费可能是欺诈行为。在这些应用中,发现特异数据成为挖掘的目标。
Muneaki Ohshima和Ning Zhong等人认为数据(属性值)只被少数对象拥有,并且与其他数据显著不同,则这些数据是特异的(peculiar)[101]。Hawkins将特异数据定义为:“如果一个值与其他值差距很大,以至让人怀疑它是由不同的机制产生的,这个值是特异值(outlier)”[105]。虽然没有统一的概念,但特异数据被公认有两个特征:稀少和与其他数据的差距大。
典型的特异数据挖掘算法有以下几种:
1)基于统计的。
2)基于密度的局部特异数据挖掘方法。
3)基于距离的全局特异数据挖掘方法。

图2.15 无一致分布数据集示例
另外,还有一些文献研究基于数据挖掘中间结果的特异识别,如利用分类关联规则来识别特异的类别等[113]。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。因为现实数据的分布特性往往不是已知的,而根据数据来计算分布特性是相当复杂的;并且,有些现实的数据集没有一致的分布状态,例如如图2.15所示的数据集。所以基于统计的方法的应用很受限制。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。基于距离的全局特异数据挖掘方法将在第3章介绍。
相关推荐