本站所有资源均为高质量资源,各种姿势下载。
聚类是一种无监督学习技术,用于将数据集中的样本划分为若干组(称为“簇”),使得同一簇内的样本彼此相似,而不同簇的样本差异较大。它广泛应用于客户分群、图像分割、异常检测等领域,无需预先标注数据,仅依靠样本间的距离或相似度自动完成分组。
核心概念包括: 距离度量(如欧氏距离、余弦相似度)决定样本间的相似性计算方式; 聚类算法(如K-Means、层次聚类、DBSCAN)提供不同的分组策略; 评估指标(如轮廓系数、肘部法则)帮助验证聚类效果。
聚类的结果高度依赖于算法选择和参数调优,需结合业务场景权衡簇的粒度与解释性。