基于粗糙集理论的连续属性离散化系统
项目介绍
本项目针对粗糙集理论在处理连续型数据时的局限性,提供了一套完整的属性离散化解决方案。在粗糙集系统的知识发现过程中,等价关系的建立依赖于离散的符号值。本系统通过将连续属性空间划分为有限个离散区间,将原始实数值映射为整数索引,从而为后续的属性约简、规则提取和知识推理提供标准化的数据基础。
功能特性
- 多策略离散化算法:集成了非监督(等宽、等频)与监督(MDLP)三类主流离散化方法,适应不同分布特征的数据集。
- 粗糙集一致性评估:引入正域(Positive Region)和依赖度指标,量化评价离散化方案对原始决策能力的保留程度。
- 递归MDLP优化:基于信息熵和最小描述长度原则,自动确定最优断点数量与位置,平衡区间数量与分类精度。
- 全方位可视化:系统自动生成断点分布散点图与离散后频数直方图,直观展示离散化前后的数据形态变化。
系统要求
- 软件环境:MATLAB R2016b 或更高版本。
- 工具箱需求:Statistics and Machine Learning Toolbox(用于执行分位数计算、散点图绘制及基本统计函数)。
算法实现逻辑
系统的执行流程严格遵循数据科学标准标准:
1. 数据准备与预处理
系统以经典 Fisher Iris 数据集作为基准,提取 4 个连续条件属性与 1 个分类决策属性。预处理阶段将文本分类标签转化为数值编码,为后续的数学计算做准备。
2. 核心离散化算法
- 等宽法:根据属性的取值范围(最大值与最小值的差),将其均匀划分为指定数量的区间。
- 等频法:利用分位数计算断点,确保每个采样区间内包含的样本数量大致相等,能够有效处理长尾分布数据。
- MDLP法:这是一种监督离散化算法。它首先寻找决策类发生变化的潜在断点,通过计算信息增益来选择最佳切分位置,并基于最小描述长度原则(考虑类别数、样本数及信息熵变化)作为递归终止条件,自动实现最优切分。
3. 粗糙集评估指标
评估模块通过计算条件属性对决策属性的诱导划分,识别出属于正域(即能够被确定推导出决策结果)的样本。离散化质量由一致性(正式占比)和区间总数共同衡量。
4. 结果展示与绘图
系统输出对比报告,并针对 MDLP 算法通过多子图模式展示:
- 上层子图:原始属性分布图,平行虚线标注了算法计算出的所有最优断点。
- 下层子图:离散化后的状态图,以直方图形式展示各区间内样本的分布密度。
实现细节分析
信息熵计算
系统内置了香农熵计算函数,通过统计标签分布概率并结合对数运算,度量数据集的纯度,这是 MDLP 算法的核心基础。
递归切分逻辑
在监督学习离散化中,系统采用了深度优先的递归策略。每一层递归都会扫描所有可能的切分点,计算信息增益。只有当增益超过 MDLP 定义的阈值时,该切分才被接受并继续向下搜索,这有效防止了过度离散化。
正域一致性度量
这是粗糙集理论的核心。系统通过对比条件属性构成的等价类与决策属性构成的等价类,计算出不产生冲突的样本集合。一致性越接近 1,说明离散化后的数据越能完整保留原始数据的决策信息。
边界修正
在区间映射过程中,系统采用了微小的偏移处理(eps),确保原始数据中的最大值能够被正确归入最后一个离散区间,避免了索引越界或数据遗漏。
使用方法
- 确保所有脚本文件位于同一工作目录下。
- 在 MATLAB 命令行窗口直接运行主入口函数。
- 系统将自动加载 Iris 数据集并依次执行三种离散化策略。
- 在控制台查看“离散化方案对比报告”,分析不同算法的依赖度和区间数。
- 观察弹出的可视化窗口,分析各属性断点的分布科学性。