Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
聚类分析发现强相关的对象组,而特异检测发现不与其他对象强相关的对象。因此,聚类在一定程度上可以用于特异检测[97]。
利用聚类来发现特异数据,自然的想法是将小而远离其他簇的簇中数据判定为特异数据。理论上讲,任何聚类技术均可以利用,而且,聚类效果好的算法,发现特异数据的能力好。但这类方法对簇个数的选择很敏感,并且特异因子的得分也很难确定。虽然,把一组对象看做特异数据与将单个为象判定为特异数据在本质上只是从个体扩展到类。如果要评价小簇中对象的特异程度,在聚类后,还应评估对象属于簇的程度。一般可以用对象与簇中心的距离来表示对象属于簇的程度,也可以用对象到簇的质心的相对距离来衡量。相对距离是对象到其簇质心的距离与簇中所有点到质心的距离的中位数之比,其值可以调整松散簇与紧致簇的密度差别。利用第3.3.2节中的数据集50+500,按欧氏距离进行K-means聚类,聚类数设为15。将聚类结果按类的大小从小到大排序,在同一聚类中对象按与类中心距离由大到小排序,得到一序列,希望其可以代表对象的特异程度从大到小的序列。根据对象的真实类别设小类(攻击类)为正类,大类(正常类)为负类,绘制此序列的ROC曲线,其与同数据集的CpecuFind算法的ROC曲线对比如图3.8所示,其曲线下面积的对比如表3.6所示。
图3.8 K-means聚类方法与CpecuFind发现特异数据能力ROC曲线
(a)K-means聚类;(b)CpecuFind
表3.6 K-means与CpecuFind发现特异数据能力ROC曲线面积对比
上述对比说明,只简单地以簇类大小和对象与类心距离来评估对象的特异程度结果很粗糙,其评价特异数据的能力远不如Cpecu Find方法。
【定义3.1】基于聚类的群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。
【定义3.2】(文献[97]中的定义10.8)说明,聚类创建数据的模型,但特异数据会扭曲该模型,直接以聚类结果来表征特异程度不能让人满意。
有关数据挖掘算法及在视频分析中的应用的文章
Spark MLlib中的K-means算法使用Map分布式读取数据集,并存储在内存里。计算时,用Map键值对表示随机挑选出来的k个聚类中心,Spark的驱动器节点负责把数据发送到各个工作节点,以实现具体的计算任务。Spark MLlib不同于传统的机器学习工具,它提供了简单易用的API,特别是Spark能够高效地处理大数据,并且在迭代计算时具有较强的优势。......
2023-11-21
RNN算法对标准层次聚类的合并准则和相似度度量做了相应的改进,从而降低了其复杂度,使其更适用于大规模的数据集。当合并最近邻对得到一个新的簇时,需要重新计算该簇与其他各个簇的相似度,如果通过平均值的距离来度量两个簇的距离,其计算复杂度仅为O,但是由于本书采用的是平均距离,则需要通过更为有效的方法进一步降低复杂度。对于低维数据,还可以通过更为有效的最近邻搜索技术进一步降低复杂度。......
2023-06-28
Mean-Shift聚类是一个基于滑窗的算法,其目的是尝试找到数据点密集的区域。算法9.2M ean-Shift聚类确定滑动窗口半径r,以随机选取的中心点为C、半径为r的圆形滑动窗口开始滑动。Mean-Shift聚类的优点如下:不同于K-Means算法,均值漂移聚类算法不需要知道有多少类/组。基于密度的算法相比于K-Means受均值影响较小。Mean-Shift聚类的缺点:窗口半径r的选择可能是不重要的。......
2023-06-21
算法9.1K-Means聚类选择一些类/组,并随机初始化它们各自的中心点,中心点是与每个数据点向量长度相同的位置。K-Means采用的启发式方式很简单,用下面一组图就可以形象地描述。图9-1K-Means的启发式方式(见彩插)......
2023-06-21
图9-2DBSCAN基本概念(见彩插)图9-3“直接密度可达”和“密度可达”概念示意描述根据前面基本概念的描述知道:由于有标记的各点M、P、O和R的Eps近邻均包含三个以上的点,因此它们都是核对象;M是从P“直接密度可达”;而Q则是从M“直接密度可达”;基于上述结果,Q是从P“密度可达”;但P从Q无法“密度可达”(非对称)。......
2023-06-21
设某一属性的所有值的数据集为S,其平均值为Smean。根据这些想法,提出一种基于聚类的全局特异数据挖掘方法。构架仍由挖掘特异属性和挖掘特异记录两个层次构成。从原则上讲可以采用任何基于距离的聚类算法对S进行聚类,采用的聚类算法的效果好,可以减少后续的计算量。图3.2SimC聚类算法可以看出,k是控制聚类半径Cd的。现在根据式(3.9)计算每个类的特异因子,记为CPF。显然,CPF越小的类,其中的元素是特异数据的可能性越小。......
2023-06-16
图9-4K-Means不适用的情况高斯混合模型具有比K-Means更好的灵活性。使用GMM,需要假设数据点是高斯分布,相对于环形的数据而言,这个假设的严格程度与均值相比弱很多。因此,每个高斯分布会被分配到单一的聚类簇。基于这些概率,我们为高斯分布计算了一组新的参数,这样就可以最大化集群中数据点的概率。......
2023-06-21
在COPA方法的基础上,Tibshirani等人在2007年提出的OS方法引入了分位数做启发式规则附加表达值,进行差异表达基因检测。由于差异估算中用正常组样本中值代替了全部数据的中值,ORT方法比COPA方法和OS方法恰当地估计了两组数据的差异。COPA方法和OS方法随差异数目的增加,性能有所降低。Lian在2008年提出的MOST方法隐性地考虑了差异基因表达强度临界值所有可能的取值,通过确定其统计量最大值来确定阈值,从而检测差异表达基因。......
2023-11-21
相关推荐