基于统计学的鸢尾花数据集特征选择与可视化分类系统
本系统是一款基于 MATLAB 平台开发的综合性数据分析工具,旨在演示统计学方法在机器学习预处理阶段的核心价值。系统通过对经典的鸢尾花(Iris)数据集进行深度挖掘,利用定量统计指标评估特征重要性,并以此为基础执行降维、分类建模及多维可视化展示。
项目核心功能特性
- 全自动化统计评估: 系统能够自动加载数据并对花萼长度、花萼宽度、花瓣长度、花瓣宽度四个特征进行分布分析。
- 多维度相关性检测: 基于 Pearson 相关系数生成特征热力图,直观揭示特征间的冗余程度。
- 显著性驱动的特征选择: 利用方差分析(ANOVA)量化各特征对样本类别的区分能力,自动筛选最具代表性的特征子集。
- 高维空间可视化: 实现三维特征空间的样本分布展示,并自动适应特征评分结果。
- 决策边界绘制: 动态生成经过特征优化后的分类决策区域图,可视化分类器的判别逻辑。
系统运行逻辑与实现细节
系统遵循从“原始数据处理”到“特征工程”再到“模型可视化”的逻辑流程,具体实现步骤如下:
1. 数据初步探索与统计分析
系统首先导入 Fisher Iris 数据集,并利用箱型图(Boxplot)按物种类别对四个物理特征进行分组统计。这一步旨在直观观察不同类别在各特征维度的中位数、离散程度及异常值情况。
2. 特征相关性分析
系统计算四个特征之间的相关系数矩阵,并将其转化为带有数值标注的热力图。通过此分析,可以识别出高度相关的特征(如花瓣长度与花瓣宽度),为后续消除特征冗余提供统计学依据。
3. 基于 ANOVA 的特征评分机制
这是系统的核心逻辑之一。系统对每个特征分别执行单因素方差分析(One-way ANOVA),计算:
- F 值 (F-statistic): 衡量组间差异与组内差异的比值,F 值越大表示该特征区分物种的能力越强。
- P 值 (P-value): 检验特征在统计学上的显著性。
系统根据 F 值进行归一化处理,计算出各特征的“评分贡献度百分比”,并据此自动筛选得分最高的前 2 个和前 3 个特征。
4. 高维特征空间映射
系统提取统计评分最高的前三个特征,调用自定义的散点绘制算法在三维空间中描绘数据分布。通过三维旋转视角和不同形状/颜色的标记,直观展示 Setosa、Versicolor 和 Virginica 三类品种在高得分特征空间中的聚类效果。
5. 线性判别分类与决策边界生成
基于筛选出的最优特征子集(Top-2 特征),系统构建线性判别分析(LDA)分类器。实现逻辑包括:
- 空间网格化: 在二维特征范围内创建精细的坐标网格。
- 类别预测: 利用训练好的 LDA 模型对网格中的每个点进行预测。
- 区域着色: 将预测的字符标签转换为数值索引,利用等高线填充技术(Contourf)绘制出不同类别的决策区域,并将原始样本点叠加其上,评价分类边界的准确性。
6. 特征重要性汇总
系统最后生成一张柱状图,直观展示四个特征在区分物种任务中的量化贡献度。
关键算法与技术要点分析
- 方差分析 (ANOVA): 用于定量评价特征的判别效力,避免了主观选择特征的盲目性。
- 线性判别分析 (LDA): 该算法旨在寻找最能区分不同类别的投影方向,在特征经过筛选后,其分类界限更加清晰。
- 网格采样预测法: 这是一种经典的可视化技术,通过对特征空间进行高密度采样,将抽象的数学模型转化为直观的几何边界。
- 数据降维思想: 系统展示了如何从 4 维空间通过统计评估降至 2 维或 3 维,同时保持极高的分类辨识度。
使用方法
- 确保计算机已安装 MATLAB 软件。
- 将该脚本文件放置在 MATLAB 当前工作目录下。
- 直接运行主函数。
- 系统将自动在命令行窗口输出特征统计评分数据,并弹出五张分析图表:
* 特征分布箱型图
* 相关性矩阵热力图
* 三维空间分布图
* 分类决策边界图
* 特征贡献度汇总柱状图
系统要求
- 软件环境: MATLAB R2016b 或更高版本。
- 工具箱支持: 需要安装 Statistics and Machine Learning Toolbox(统计与机器学习工具箱),用于执行 ANOVA 分类器训练及相关统计计算。