首页 理论教育Mean-Shift聚类算法详解

Mean-Shift聚类算法详解

【摘要】:Mean-Shift聚类是一个基于滑窗的算法,其目的是尝试找到数据点密集的区域。算法9.2M ean-Shift聚类确定滑动窗口半径r,以随机选取的中心点为C、半径为r的圆形滑动窗口开始滑动。Mean-Shift聚类的优点如下:不同于K-Means算法,均值漂移聚类算法不需要知道有多少类/组。基于密度的算法相比于K-Means受均值影响较小。Mean-Shift聚类的缺点:窗口半径r的选择可能是不重要的。

Mean-Shift聚类是一个基于滑窗的算法,其目的是尝试找到数据点密集的区域。应用领域包括计算机视觉和图像处理中的聚类分析[4]。它是一个基于质心的算法,即它的目标是通过更新中心点候选者定位每个组或类的中心点,将中心点候选者更新为滑窗内点的均值。这些候选滑窗之后会在后处理阶段被过滤来减少邻近的重复点,最后形成了中心点的集合和它们对应的组。

算法9.2 M ean-Shift聚类

(1)确定滑动窗口半径r,以随机选取的中心点为C、半径为r的圆形滑动窗口开始滑动。均值漂移类似一种爬山算法,在每一次迭代中向密度更高的区域移动,直到收敛。

(2)每一次滑动到新的区域,计算滑动窗口内的均值来作为中心点,滑动窗口内点的数量为窗口内的密度。在每一次移动中,窗口会向密度更高的区域移动。

(3)移动窗口,计算窗口内的中心点以及窗口内的密度,直到没有方向在窗口内可以容纳更多的点,即一直移动到圆内密度不再增加为止。

(4)步骤(1) ~(3)会产生很多个滑动窗口,当多个滑动窗口重叠时,保留包含最多点的窗口,然后根据数据点所在的滑动窗口进行聚类[5]

Mean-Shift聚类的优点如下:

(1)不同于K-Means算法,均值漂移聚类算法不需要知道有多少类/组。

(2)基于密度的算法相比于K-Means受均值影响较小。

Mean-Shift聚类的缺点:窗口半径r的选择可能是不重要的。