基于PNN、SMOTE与BP-AdaBoost的类别不平衡分类算法实现与对比分析系统
项目介绍
本项目针对机器学习中常见的类别不平衡分类问题,实现了三种主流的解决方案。系统集成了概率神经网络(PNN)、合成少数类过采样技术(SMOTE)以及基于反向传播神经网络的AdaBoost集成学习算法,提供完整的数据预处理、模型训练、性能评估和可视化分析功能。通过对比不同算法在不平衡数据集上的表现,为实际应用场景中的算法选择提供科学参考。
功能特性
- 多算法集成:同时支持PNN、SMOTE+BP神经网络和BP-AdaBoost三种主流不平衡分类算法
- 完整工作流:从数据加载、预处理到模型训练、评估和可视化的全流程支持
- 全面评估体系:提供准确率、召回率、F1分数、AUC值等多维度性能指标
- 丰富可视化:包含混淆矩阵热力图、ROC曲线对比图、类别分布对比图等多种可视化结果
- 参数优化:内置模型参数自动优化功能,确保各算法达到最佳性能
- 预测服务:支持对新样本进行类别预测并输出概率分布结果
使用方法
数据准备
准备CSV或MAT格式的二维数值矩阵数据文件,要求:
- 每一行代表一个样本
- 每一列代表一个特征
- 最后一列为类别标签
- 数据集中至少包含两个类别
- 存在明显的类别分布不平衡现象(少数类样本占比低于20%)
运行步骤
- 将数据文件放置在指定目录下
- 配置相关参数(如数据路径、算法选择等)
- 运行主程序启动分析流程
- 查看生成的性能报告和可视化结果
- 获取模型参数详情和预测结果文件
结果输出
系统将生成以下输出内容:
- 算法性能报告(评估指标表格)
- 分类结果可视化图表
- 模型参数详情及训练过程收敛曲线
- 新样本预测结果文件(MAT格式)
系统要求
软件环境
- MATLAB R2018b或更高版本
- 需要安装Statistics and Machine Learning Toolbox
- 建议安装Deep Learning Toolbox以获得最佳性能
硬件建议
- 内存:至少8GB RAM(处理大型数据集建议16GB以上)
- 硬盘空间:至少1GB可用空间
- CPU:支持AVX指令集的多核处理器
文件说明
主程序文件整合了系统的核心功能,包括数据读取与验证、预处理流程控制、三种算法的训练与评估执行、多维度性能指标计算与对比、各类可视化结果的生成与导出,以及预测功能的统一接口管理。该文件作为整个系统的调度中心,协调各模块协同工作,确保分析流程的完整性和结果的一致性。