设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。以下将概略阐述此构架的思想和基本概念,细节内容请参考文献[101]。
首先,特异数据挖掘有4个基本问题要考虑:
1)对于一个关系数据集,特异分析有两个层次:属性层次和记录层次。
2)对于多个关系集,要考虑它们的主、外键关系。
3)要选择合适的方式来表达结果模式。
给定一个数据集D,D是由属性和记录组成的二维关系表。对其中特异数据的挖掘分为两个层次:挖掘每个属性中的特异数据(Attribute-level)和挖掘特异记录(Record-level)。设数据集D有n个记录{X1,X2,…,Xn}、m个属性{a1,a2,…,am},其结构如表3.1所示。
表3.1 数据集D结构示意表
对属性层次,表3.1中的任一属性xij,其特异因子(peculiar factor)记为PF(xij),用式(3.1)来计算。式中,d(xij-xkj)表示属性xij和xkj间的距离,α默认值为0.5,可根据需要调节。
一个阈值pj由式(3.2)来定义。式中,γ的默认值为1,可根据需要调节。其中,Mj和σj分别代表aj所有PF值的均值和标准差。当PF(xij)≥pj时,称xij是特异的。
Pj=Mj+γ×σj (3.2)
对记录层次,记录Xi的特异因子记为RPF(Xi)由式(3.3)计算。式中,βj是属性aj的权,默认值全部取1。
一个阈值pr由式(3.4)定义。式中γ的取值类似于式(3.2)。当RPF(Xi)≥Pr时,称Xi是特异的。
Pr=RPF均值+γ×RPF的标准差 (3.4)
可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d(xij-xkj)是后续计算的基础。对不同特征的属性,距离的算法不同,说明如下:
(1)当aj是非主键属性时
1)当aj是数值型属性,并且没有其他的背景知识可用时,aj中不同值的距离可由式(3.5)计算:
d(xij-xkj)=|xij-xkj| (3.5)
由式(3.1)、式(3.3)和式(3.5)可以看出,不同数值属性的计量单位会对RPF有不均衡的影响。为避免这些影响,可以将属性值先进行标准化,再计算距离。一种简单的标准化方法是将属性值转化成无纲量的变量。设x1j,…,xnj是属性aj的全部得值。Mj是它们的平均值,σj是它们的标准差。那么,可以用式(3.6)将每个值进行标准化。
那么式(3.5)就可转化为:
对于属性层次,是否将属性值进行了标准化并不影响PF值的序列关系,对应值是否是特异的判断也就没有影响。基于此,也可以在计算出PF后,将PF标准化,来代替属性层次的标准化。这样做的好处是可以不考虑属性的类型。PF标准化的公式可采用式(3.8)。其中,Mj和σj的意义与式(3.2)中相同。而在式(3.3)中利用标准化后的PF值(称PF′)计算RPF。
2)当aj是符号型属性,并且没有其他的背景知识可用时,简单地设置相同符号间距离为0,不同符号间距离为1。
3)当aj是符号型属性,并且有背景知识可用时,按背景知识计算属性值间的距离。
4)当aj是日期型时,可以用两日期值的间隔作为其距离。
(2)当aj是主键或外键属性时
1)如果aj是数据集D的主键,那么它只是每个记录的标识,对计算属性或记录的特异性没有意义。
2)如果aj是数据集D的外键,那么它是另一数据集的主键,可以把它在主键数据集中的RPF值作为在本数据集中的属性值。
由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。给定一个数据集D,可以计算每个属性的特异因子以及每个记录的特异因子,并且可根据阈值p和pr判断它们的特异性。将找出一个数据集D中特异的属性和特异记录的过程总结为算法,为叙述方便,称其为PecuFind算法,如图3.1所示。PecuFind算法采用的是标准化PF的方法,采用属性值标准化的算法可以依此类推。
图3.1 PecuFind算法
有关数据挖掘算法及在视频分析中的应用的文章
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
E.Knorr和R.Ng等在文献[109]中同时提出了一种基于网格构架的挖掘DB-outlier的方法。首先,全部的数据空间被分割成边长为l的网格。①如果Cx,y中的对象数>k,那么Cx,y中的所有对象均不是特异对象。M.M.Breuning等认为文献[106]中关注一个对象是否是特异的,而很多的应用中,给出一个对象的特异程度值更有意义。从[定义2.7]和[定义2.8]出发,M.M.Breuning等定义了一个度量对象p的特异程度的因子Local Outlier Factor,记为LOF[106]。......
2023-06-16
基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2023-06-16
数据挖掘就是综合应用一系列先进的技术从大量数据中提取人们感兴趣的信息和知识,它们是隐含的、事先未知且潜在有用的概念、规则、规律及模式等。这个概念诠释了数据挖掘的3个要点:数据挖掘要处理的数据量是巨大的。因此,高效率常常是数据挖掘算法研究的目标。4)数据转换:数据要被转换和整理,使其符合挖掘程序的格式。图2.1典型的数据挖掘系统构架......
2023-06-16
常用的数据挖掘方法有四大类,分别对应四个问题,这四个问题是数据挖掘的基础,分别是聚类挖掘、分类挖掘、关联模式挖掘和异常值检测。1)K最近邻分类算法K最近邻分类算法可以说是整个数据挖掘分类技术中最简单的方法。目前,数据挖掘领域有大量的聚类算法。......
2023-06-21
对服刑人员进行危险性评估主要是指对服刑人员的人身危险性进行评估,进而对服刑人员未来是否有暴力、自杀、脱逃等危险性行为进行预测。目前,危险性评估技术的应用主要集中在监狱内对服刑人员进行危险性评估、监狱外服刑人员的危险性评估。将服刑人员危险性评估定义为通过一定的技术对服刑人员重新犯罪或者实施其他犯罪行为的可能进行预测,从而为控制这些危险提供根据。......
2023-07-31
Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。......
2023-11-08
相关推荐