本站所有资源均为高质量资源,各种姿势下载。
这篇文章提出了一种创新的聚类算法,其核心思想是通过识别数据空间中密度峰值点来自动发现簇中心。该算法摆脱了传统K-means需要预设簇数量的限制,属于一种非参数的聚类方法。
算法的核心流程可以分为三个关键步骤:
首先需要计算每个数据点的局部密度,这通常通过统计给定半径内相邻点的数量来实现。密度计算可以采用截断核或高斯核两种方式,前者是硬性计数而后者采用加权计数。
其次需要计算每个点到更高密度点的最小距离。对于密度最高的点,这个距离会被特殊处理(通常设为最大值)。这一步帮助算法识别那些同时具有高密度和相对孤立性的点作为候选簇中心。
最后通过绘制决策图(密度-距离图)来人工或自动识别簇中心,并完成剩余点的分配。点分配过程采用一种类似水流走向的机制,每个非中心点会被分配到最近的更高密度点所属的簇。
该算法在复杂形状数据集上表现优异,能自动发现任意形状的簇,且对噪声点具有较好的鲁棒性。其密度峰值的思想后来也成为许多改进算法的理论基础。