首页 理论教育聚类算法与特异性发现算法的比较

聚类算法与特异性发现算法的比较

【摘要】:聚类分析发现强相关的对象组,而特异检测发现不与其他对象强相关的对象。图3.8K-means聚类方法与CpecuFind发现特异数据能力ROC曲线K-means聚类;CpecuFind表3.6K-means与CpecuFind发现特异数据能力ROC曲线面积对比上述对比说明,只简单地以簇类大小和对象与类心距离来评估对象的特异程度结果很粗糙,其评价特异数据的能力远不如Cpecu Find方法。

聚类分析发现强相关的对象组,而特异检测发现不与其他对象强相关的对象。因此,聚类在一定程度上可以用于特异检测[97]

利用聚类来发现特异数据,自然的想法是将小而远离其他簇的簇中数据判定为特异数据。理论上讲,任何聚类技术均可以利用,而且,聚类效果好的算法,发现特异数据的能力好。但这类方法对簇个数的选择很敏感,并且特异因子的得分也很难确定。虽然,把一组对象看做特异数据与将单个为象判定为特异数据在本质上只是从个体扩展到类。如果要评价小簇中对象的特异程度,在聚类后,还应评估对象属于簇的程度。一般可以用对象与簇中心的距离来表示对象属于簇的程度,也可以用对象到簇的质心的相对距离来衡量。相对距离是对象到其簇质心的距离与簇中所有点到质心的距离的中位数之比,其值可以调整松散簇与紧致簇的密度差别。利用第3.3.2节中的数据集50+500,按欧氏距离进行K-means聚类,聚类数设为15。将聚类结果按类的大小从小到大排序,在同一聚类中对象按与类中心距离由大到小排序,得到一序列,希望其可以代表对象的特异程度从大到小的序列。根据对象的真实类别设小类(攻击类)为正类,大类(正常类)为负类,绘制此序列的ROC曲线,其与同数据集的CpecuFind算法的ROC曲线对比如图3.8所示,其曲线下面积的对比如表3.6所示。

图3.8 K-means聚类方法与CpecuFind发现特异数据能力ROC曲线

(a)K-means聚类;(b)CpecuFind

表3.6 K-means与CpecuFind发现特异数据能力ROC曲线面积对比

上述对比说明,只简单地以簇类大小和对象与类心距离来评估对象的特异程度结果很粗糙,其评价特异数据的能力远不如Cpecu Find方法。

【定义3.1】基于聚类的群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。

【定义3.2】(文献[97]中的定义10.8)说明,聚类创建数据的模型,但特异数据会扭曲该模型,直接以聚类结果来表征特异程度不能让人满意。