首页 理论教育基于距离的全局特异数据挖掘概念和方法探讨

基于距离的全局特异数据挖掘概念和方法探讨

【摘要】:Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。

Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。以下将概略阐述此构架的思想和基本概念,细节内容请参考文献[101]。

首先,特异数据挖掘有4个基本问题要考虑:

1)对于一个关系数据集,特异分析有两个层次:属性层次和记录层次。

2)对于多个关系集,要考虑它们的主、外键关系。

3)要选择合适的方式来表达结果模式。

4)要考虑算法效率

给定一个数据集D,D是由属性和记录组成的二维关系表。对其中特异数据的挖掘分为两个层次:挖掘每个属性中的特异数据(Attribute-level)和挖掘特异记录(Record-level)。设数据集D有n个记录{X1,X2,…,Xn}、m个属性{a1,a2,…,am},其结构如表3.1所示。

表3.1 数据集D结构示意表

对属性层次,表3.1中的任一属性xij,其特异因子(peculiar factor)记为PF(xij),用式(3.1)来计算。式中,d(xij-xkj)表示属性xij和xkj间的距离,α默认值为0.5,可根据需要调节。

一个阈值pj由式(3.2)来定义。式中,γ的默认值为1,可根据需要调节。其中,Mj和σj分别代表aj所有PF值的均值和标准差。当PF(xij)≥pj时,称xij是特异的。

Pj=Mj+γ×σj (3.2)

对记录层次,记录Xi的特异因子记为RPF(Xi)由式(3.3)计算。式中,βj是属性aj的权,默认值全部取1。

一个阈值pr由式(3.4)定义。式中γ的取值类似于式(3.2)。当RPF(Xi)≥Pr时,称Xi是特异的。

Pr=RPF均值+γ×RPF的标准差 (3.4)

可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d(xij-xkj)是后续计算的基础。对不同特征的属性,距离的算法不同,说明如下:

(1)当aj是非主键属性时

1)当aj是数值型属性,并且没有其他的背景知识可用时,aj中不同值的距离可由式(3.5)计算:

d(xij-xkj)=|xij-xkj| (3.5)

由式(3.1)、式(3.3)和式(3.5)可以看出,不同数值属性的计量单位会对RPF有不均衡的影响。为避免这些影响,可以将属性值先进行标准化,再计算距离。一种简单的标准化方法是将属性值转化成无纲量的变量。设x1j,…,xnj是属性aj的全部得值。Mj是它们的平均值,σj是它们的标准差。那么,可以用式(3.6)将每个值进行标准化。

那么式(3.5)就可转化为:

对于属性层次,是否将属性值进行了标准化并不影响PF值的序列关系,对应值是否是特异的判断也就没有影响。基于此,也可以在计算出PF后,将PF标准化,来代替属性层次的标准化。这样做的好处是可以不考虑属性的类型。PF标准化的公式可采用式(3.8)。其中,Mj和σj的意义与式(3.2)中相同。而在式(3.3)中利用标准化后的PF值(称PF′)计算RPF。

2)当aj是符号型属性,并且没有其他的背景知识可用时,简单地设置相同符号间距离为0,不同符号间距离为1。

3)当aj是符号型属性,并且有背景知识可用时,按背景知识计算属性值间的距离。

4)当aj是日期型时,可以用两日期值的间隔作为其距离。

(2)当aj是主键或外键属性时

1)如果aj是数据集D的主键,那么它只是每个记录的标识,对计算属性或记录的特异性没有意义。

2)如果aj是数据集D的外键,那么它是另一数据集的主键,可以把它在主键数据集中的RPF值作为在本数据集中的属性值。

由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。给定一个数据集D,可以计算每个属性的特异因子以及每个记录的特异因子,并且可根据阈值p和pr判断它们的特异性。将找出一个数据集D中特异的属性和特异记录的过程总结为算法,为叙述方便,称其为PecuFind算法,如图3.1所示。PecuFind算法采用的是标准化PF的方法,采用属性值标准化的算法可以依此类推。

图3.1 PecuFind算法