4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
E.Knorr和R.Ng等在文献[109]中同时提出了一种基于网格构架的挖掘DB-outlier的方法。首先,全部的数据空间被分割成边长为l的网格。称在x行和y列的单元格为Cx,y,依据式(2.26)和式(2.27)定义其L1邻居和L2邻居。
L1(Cx,y)={Cu,v|u=x±1,v=y±1,Cu,v≠Cx,y} (2.26)
L2(Cx,y)={Cu,v|u=x±3,v=y±3,Cu,v≠Cx,y} (2.27)
根据[定义2.7],给定一正整数k,E.Knorr和R.Ng等提出的算法根据[性质2.3]编制。
【性质2.3】①如果Cx,y中的对象数>k,那么Cx,y中的所有对象均不是特异对象。②如果Cx,y∪L1(Cx,y)中的对象数>k,那么Cx,y中的所有对象均不是特异对象。③如果Cx,y∪L1(Cx,y)∪L2(Cx,y)中的对象数≤k,那么每一个Cx,y∪L1(Cx,y)∪L2(Cx,y)中对象均是特异对象。
可以看出,此方法将对象VS对象的处理过程简化为单元-by-单元的处理过程,从而获得了时间效率。令|D|=N,每个点的属性维数为α,此方法总的时间复杂度为O(c2+N)。其中,c是一个与维数及每维划分的格数有关的常数。
M.M.Breuning等认为文献[106]中关注一个对象是否是特异的,而很多的应用中,给出一个对象的特异程度值更有意义。从[定义2.7]和[定义2.8]出发,M.M.Breuning等定义了一个度量对象p的特异程度的因子Local Outlier Factor,记为LOF(p)[106]。令|D|=N,每个点的属性维数为α,计算每个点LOF(p)的时间复杂度是O(αN2)。He Zengyou等人提出了一种基于聚类的方法,提出了CBLOF(Cluster-Based Local Outlier Factor)因子及计算算法,其时间复杂度降低到O(N)[107]。
有关数据挖掘算法及在视频分析中的应用的文章
4)探查例外或特异数据。在数据集中,一些数据或对象与其中其他数据或对象显著不同,则称为特异数据或特异对象。在这些应用中,发现特异数据成为挖掘的目标。其中,基于统计的方法,主要是利用数据的分布特性计算特异数据的特征,采用不一致检验的方法挖掘数据。2)和3)的方法均从数据本身出发挖掘特异数据,本章将介绍基于密度的局部特异数据挖掘方法的思想和主要算法。......
2023-06-16
基于密度的局部特异数据挖掘方法的文献一般基于两个基本概念:k-distance和DB-outlier。显然,k-distance越大,p点附近的点密度越低,p的特异程度越高。从而确定了这类方法与统计方法的一致性。正态分布的特异定义DefNormal:p是特异的,当且仅当,此定义将正态分布中与均值距离不小于3的对象称为是特异的。说明了当参数μ=3时,泊松分布的特异数据界定。泊松分布的特异数据定义DefPoisson为:p是特异的,当且仅当,p≥8。......
2023-06-16
Zhong Ning等人提出了一种基于距离的全局特异数据挖掘的构架[101]。其中,Mj和σj分别代表aj所有PF值的均值和标准差。Pr=RPF均值+γ×RPF的标准差(3.4)可以看出,此构架是基于距离的,并且找到的特异数据是全局的。从式(3.1)得出,属性xij和xkj间的距离d是后续计算的基础。由前述可知,此构架可以处理各类属性值,并且可以处理多个相关数据集的特异挖掘问题。......
2023-06-16
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
常用的数据挖掘方法有四大类,分别对应四个问题,这四个问题是数据挖掘的基础,分别是聚类挖掘、分类挖掘、关联模式挖掘和异常值检测。1)K最近邻分类算法K最近邻分类算法可以说是整个数据挖掘分类技术中最简单的方法。目前,数据挖掘领域有大量的聚类算法。......
2023-06-21
对服刑人员进行危险性评估主要是指对服刑人员的人身危险性进行评估,进而对服刑人员未来是否有暴力、自杀、脱逃等危险性行为进行预测。目前,危险性评估技术的应用主要集中在监狱内对服刑人员进行危险性评估、监狱外服刑人员的危险性评估。将服刑人员危险性评估定义为通过一定的技术对服刑人员重新犯罪或者实施其他犯罪行为的可能进行预测,从而为控制这些危险提供根据。......
2023-07-31
Weka工具的关联规则挖掘过程如图2-3所示。图2-4Weka选择函数设置Apriori算法的参数如下:car如果设为真,则会挖掘类关联规则而不是全局关联规则。delta以此数值为迭代递减单位,不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。设置对规则进行排序的度量依据,可以是置信度、提升度、杠杆率、确信度。在Weka中设置了几个类似置信度的度量来衡量规则的关联程度,它们分别是,①Lift:P(A,B)/Lift=1时表示A和B独立。......
2023-11-08
航拍图像拼接技术是当前机器视觉领域的一个研究热点,已经被广泛应用于地理信息系统、地质灾害监测、城市规划和战场态势评估等许多方面。但是,由于是在飞行器上对地面场景的俯视拍摄,所以又有其自身的特点和难点,比如飞行器姿态变化导致的航拍视角改变、飞行器升降造成的图像分辨率不同、天气状况对图像质量的影响等。该方法比较适合于全景图像拼接。......
2023-06-28
相关推荐