首页 理论教育DBSCAN算法的原理及优化探究

DBSCAN算法的原理及优化探究

【摘要】:DBSCAN通过检查数据集中每点的Eps邻域来搜索簇,如果点p的Eps邻域包含的点多于minPts个,则创建一个以p为核心对象的簇。DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。当没有新的点添加到任何簇时,该过程结束。算法9.3DBSCAN算法输入:数据集D;给定点在邻域内成为核心对象的最小邻域点数:minPts;邻域半径:Eps;输出:簇集合。标记所有对象为unvisited。重复步骤~,直至没有标记为unvisited的对象。

(1)DBSCAN通过检查数据集中每点的Eps邻域来搜索簇,如果点p的Eps邻域包含的点多于minPts个,则创建一个以p为核心对象的簇。

(2)DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并。

(3)当没有新的点添加到任何簇时,该过程结束。

算法9.3 DBSCAN算法

输入:数据集D;给定点在邻域内成为核心对象的最小邻域点数:minPts;邻域半径:Eps;

输出:簇集合。

(1)标记所有对象为unvisited。

(2)随机选择一个unvisited对象p,标记p为visited。

(3)如果p的ε-邻域内至少有minPts个对象,则创建一个新簇C,并把p添加到C。

(4)令N为p的ε-邻域中的对象集合,对于N中的每个点p′,如果p′是unvisited则标记p′为visited;如果p′的ε-邻域至少有minPts个对象,则把这些对象添加到N;如果p′不是任何簇的成员,把p′添加到C,遍历所有的p′输出C。

(5)如果p的ε-邻域内没有MinPts个对象,则标记p为噪声。

(6)重复步骤(2)~(5),直至没有标记为unvisited的对象。