基于PSO与QPSO优化的K-MEANS聚类算法研究及乳腺癌预测分析
项目介绍
本项目针对传统K-MEANS聚类算法对初始聚类中心敏感、容易陷入局部最优解的缺陷,提出并实现了两种基于群体智能优化算法的改进方案:粒子群优化(PSO)K-MEANS与量子行为粒子群优化(QPSO)K-MEANS。项目以乳腺癌预测分析为背景,通过全局搜索算法寻找最优的一组聚类质心,从而提高乳腺癌辅助诊断的准确率和稳定性。系统提供了一个完整的算法框架,包括数据加载、预处理、三种算法执行、性能指标评估及结果的可视化分析。
功能特性
- 多算法集成:系统集成了标准K-MEANS、PSO优化K-MEANS以及QPSO优化K-MEANS三种算法,支持横向性能对比。
- 自动化数据处理:具备成熟的数据预处理流程,包括特征选择、0-1正规化处理,以及针对无监督学习的标签自动对齐逻辑。
- 健壮的仿真环境:内置数据集兼容性检查,若原始数据集缺失,系统能够自动生成符合乳腺癌特征分布的仿真数据,确保算法逻辑的演示完整性。
- 全面的性能评估:支持从收敛速度(SSE下降曲线)、分类准确率(Accuracy)、召回率(Recall)、F1-Score等多个维度评估模型优劣。
- 直观的可视化界面:提供降维后的聚类分布图、算法收敛对比图以及混淆矩阵,便于直观观察分类效果。
系统要求
- 软件环境:MATLAB 2018b 或更高版本。
- 必备工具箱:Statistics and Machine Learning Toolbox(用于调用kmeans、pca、gscatter、confusionchart等函数)。
实现逻辑说明
- 数据准备模块
系统首先尝试加载外部高维数据集。若环境不具备特定数据集,则通过随机种子生成包含两类(模拟良性与恶性)的仿真数据集。随后,利用Min-Max标准化将所有特征映射到[0, 1]区间,以消除特征量纲对欧氏距离计算的影响。
- 算法核心模块
- 标准K-MEANS:作为基准模型,调用系统内置函数,通过5次重复实验取最优结果,以减少随机初始化带来的不确定性。
- PSO-KMEANS:将K个聚类中心的所有维度展开为一维粒子向量。通过初始化种群,利用惯性权重、个体认知因子和社会经验因子不断更新粒子的速度和位置。适应度函数定义为所有样本到其所属簇中心的平方误差和(SSE)。
- QPSO-KMEANS:基于量子力学理论,取消了传统PSO的速度向量,引入平均最佳位置(mbest)作为约束。粒子位置根据收缩扩张系数(alpha)进行更新,该系数随迭代次数线性减小,从而平衡算法的全局探索和局部开发能力。
- 评估与统计模块
由于聚类是无监督过程,生成的标签(1或2)可能与原始标签相反。系统通过标签对齐函数,比较两种排列方式的准确率,自动选择匹配度最高的映射关系。之后,计算混淆矩阵各参数,得出最终的分类指标。
- 可视化输出模块
系统生成三张核心图表:一是收敛过程对比图,展示PSO与QPSO在迭代过程中SSE值的下降趋势;二是聚类结果分布图,通过PCA主成分分析将高维特征投影至二维空间进行着色展示;三是混淆矩阵图,定量化展现各算法在二分类任务中的漏诊与误诊情况。
关键算法与实现细节
- 适应度计算
在所有改进算法中,每个粒子代表一组聚类中心。系统通过分配样本到最近中心、计算样本与中心点的欧氏距离平方和来计算粒子的适应度值,最小化SSE即为优化目标。
- PSO速度与位置更新
实现中采用固定惯性权重0.8,学习因子均为1.5。粒子在更新后会被应用边界约束,确保生成的聚类中心坐标始终在[0, 1]的数据域内。
- QPSO量子更新机制
区别于传统位置更新,QPSO通过计算群体的平均个体极值中心,结合随机掩码(mask)生成新的位置分布。公式使用了自然对数分布模型,使粒子在解空间内具备更强的随机跳出能力,有效解决了K-MEANS在处理复杂分布数据时易陷入局部极小的难题。
- 性能指标函数
指标评价函数通过比对真实标签与预测标签,精确计算真正例(TP)、真负例(TN)、假正例(FP)和假负例(FN),从而推导出反映分类准确性的核心数值。