设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2025-09-29
K-Means算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,首先把每个点(也称为数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代地进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小或达到指定的迭代次数[2]。
算法9.1 K-Means聚类
(1)选择一些类/组,并随机初始化它们各自的中心点,中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(中心点的数量)。
(2)计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。
(3)计算每一类的中心点作为新的中心点。
(4)重复以上步骤,直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点,然后选择运行结果最好的一个[3]。
基本原理:假设簇划分为(C1,C2,…,Ck),我们的目标是最小化平方误差E:(https://www.chuimin.cn)
式中,μi为簇Ci的均值向量,有时也称为质心,其表达式为
直接求式(9.2)的最小值并不容易,需要采用启发式的迭代方法。K-Means采用的启发式方式很简单,用下面一组图就可以形象地描述。
图9-1(a)表达了初始的数据集,假设k=2。在图9-2(b)中,首先随机选择两个k类所对应的类别质心,即图中的红色质心和蓝色质心;然后分别求样本中所有点到这两个质心的距离,并标记每个样本的类别为与该样本距离最小的质心的类别。如图9-1(c)所示,经过计算样本与红色点质心和蓝色点质心的距离,我们得到了所有样本点的第一轮迭代后的类别。此时,对当前标记为红色和蓝色的点分别求其新的质心。如图9-1(d)所示,新的红色质心和蓝色质心的位置已经发生了变动。图9-1(e)、 (f)重复了在图9-1(c)、(d)的过程,即将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的两个类别如图9-1(f)所示。
图9-1 K-Means的启发式方式(见彩插)
相关文章
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2025-09-29
聚类的定义与待处理对象特征有关。聚类的方法很多,不同的方法对于同一数据集聚类的结果可能不同。根据层次分解形式的方式,层次聚类方法可划分为凝聚的层次聚类和分裂的层次聚类方法。绝大多数层次聚类方法属于这一类,它们的不同表现在簇内与簇间相似度的定义不同。目前,一般将基于层次的聚类方法和其他聚类技术进行集成以形成多阶段聚类,从而提高聚类质量。它是一种结构辅助聚类的方法,在大型数据库中的速度和伸缩性较好。......
2025-09-29
对纽约市交通事故进行空间热点分析时,选用聚类和异常值分析法对计算出的结果进行挖掘。H区域为西35大街和36大街在第五大道与第六大道中间的路段,从中午12时至下午5时,此区域为交通事故黑点路段。......
2025-09-29
如果后件“C”只有类别值,自然可以想到使用此规则进行分类。典型的关联规则分类算法有CBA、CMAR和CPAR[99]。CBA是由Liu B等人提出的,是最早的也是最简单的关联规则分类算法[99]。在一些典型的分类数据集的测试中,CBA算法的实验精度高于C 4.5。但与CMAR不同的是,CPAR只选择每组中的“最好的”K个规则进行分类计算。可见,关联规则分类算法是一类基于规则的算法,其基础是频繁项目的与运算。......
2025-09-29
活性聚能战斗部技术为高效打击和毁伤钢筋混凝土类硬目标开辟了新途径。也就是说,活性聚能战斗部用于打击轨条砦、桥梁桥墩、大坝水坝等本体功能型硬目标时,可显著发挥爆裂毁伤优势。......
2025-09-29
图3.5类杆流活性聚能侵彻体化学能分布式释放过程虽然各微元速度梯度较类射流活性聚能侵彻体明显更小,但类杆流活性聚能侵彻体在运动及成形过程中不断拉伸延长,在t2时刻,长度为L2。在继续拉伸过程中,类杆流活性聚能侵彻体逐渐形成,整体密度降低,且由外至内、由头部至尾部,密度均逐渐下降。在空间尺度上,类射流活性聚能侵彻体不断拉伸、运动。......
2025-09-29
与此同时,活性聚能侵彻体后部杵体形成,变形过程中温度继续升高,由于未到达激活弛豫时间,未发生反应。图3.2类射流活性聚能侵彻体化学能分布式释放计算模型根据类射流活性聚能侵彻体的形状,其可分为头部、中部及杵体3部分。式即类射流活性聚能侵彻体化学能随时间分布释放模型。在空间尺度上,类射流活性聚能侵彻体不断拉伸、运动。......
2025-09-29
相关推荐