本站所有资源均为高质量资源,各种姿势下载。
K-means和K-medoids是两种经典的聚类算法,常用于无监督学习场景。这两种算法都通过迭代优化的方式将数据样本划分为K个簇,但核心差异在于中心点的选取策略。
K-means算法采用均值作为簇中心,计算效率高但对异常值敏感。其流程通常包含:随机初始化K个中心点,计算每个样本到中心的距离并归类,重新计算各簇的均值作为新中心,重复直至收敛。算法输出类标、最终聚类中心和迭代次数,适合处理数值型数据分布均匀的场景。
K-medoids算法改进在于选取实际样本点作为中心(medoids),增强对噪声的鲁棒性。其实现步骤类似,但中心更新时需遍历簇内样本,选择能使总距离最小的代表点。由于涉及距离矩阵计算,时间复杂度高于K-means,适用于需要排除离群点影响的数据集,如基因表达分析或消费行为分类。
MATLAB实现时需注意:初始中心选择影响收敛速度,可结合kmeans++优化;迭代终止条件常设为中心点变化阈值或最大迭代次数。两种算法均需预先指定K值,可通过肘部法则或轮廓系数评估最佳聚类数。