本站所有资源均为高质量资源,各种姿势下载。
本项目是一款基于图论和流形学习理论的MATLAB半监督分类分析工具。该工具针对现实中常见的“少量标注数据+海量未标注数据”的应用环境设计,旨在降低人工标注成本。其核心通过构建高斯核亲和矩阵(Affinity Matrix),将特征空间转换到图结构,并利用标签扩散机制实现信息的自动化预测转换。
本项目以标签传播(Label Propagation)和标签扩散(Label Spreading)理论为核心。系统将每个数据样本识别为图中的一个节点,节点间的连边权重由高斯核函数定义的相似度决定。该工具不仅能够高效地对未标注样本进行类别预测,还能通过可视化手段深入剖析数据的流形分布特征、算法迭代收敛过程以及预测结果的置信度。
理论支撑深厚:核心算法实现严格遵循 Zhu and Ghahramani (2002) 以及 Zhou et al. (2004) 等学者的经典论文公式。 非线性流形处理:通过构建动态图结构,能够有效识别并分类如双弧形(Moons)等复杂的非线性数据分布。 完善的可视化监控:内置四象限分析视图,涵盖原始数据分布、迭代收敛曲线、分类结果图及预测置信度热力图。 参数高度可调:支持自定义高斯核宽度、正则化参数、收敛精度及最大迭代次数,适应不同密度的数据集。 自动性能评估:具备对未标注样本分类准确率的自动统计与分析功能。
核心处理过程分为以下六个阶段:
第一阶段:模拟数据生成 主程序预设生成双弧形(Moons)非线性分布数据,共有400个样本点。通过随机掩码技术,仅保留5%的样本标签作为已知输入,其余充当待预测的未标注样本。
第二阶段:环境参数配置 定义算法的核心控制变量,包括用于高斯核的 Sigma(设为0.2)、正则化扩散因子 Alpha(设为0.9)、最大迭代步数(500次)以及 Frobenius 范数收敛阈值(1e-6)。
第三阶段:亲和矩阵构建 通过计算样本间的欧氏距离平方,利用指数函数将其转换为高斯权重矩阵。公式实现严格移除自环(Self-loop),确保信息仅在不同节点间流动。
第四阶段:标签扩散算法核心 依据全局和局部一致性理论,构建对称归一化的拉普拉斯算子。该步骤先计算度矩阵及其逆平方根,生成对称算子矩阵 S。初始标签矩阵被转化为 One-hot 编码形式,参与迭代更新计算。
第五阶段:迭代优化过程 在循环中采用经典公式 F = alpha * S * F + (1 - alpha) * Y 进行传播。这种方式确保了标签信息在图结构上平滑扩散的同时,保持了对原始标注数据的忠诚度。每步迭代均计算矩阵范数差异以监控收敛性。
第六阶段:结果预测与验证 通过对最终概率矩阵 F 进行行向最大值提取(Argmax),确定样本所属类别,并同步导出软标签的强度作为预测置信度。
一、流形结构捕捉 程序利用高斯核函数对特征空间进行映射,W = exp(-||x_i - x_j||^2 / (2 * sigma^2))。通过这种方式,算法能够捕获隐藏在低维空间中的高维流形结构,这对于非线性可分的数据集至关重要。
二、正则化扩散平衡 算法中 Alpha 参数的设计至关重要。在每一轮迭代中,(1 - alpha) * Y_fixed 部分充当了正则化项,它强制性地拉回初始标注位置,防止已知标签在多次迭代后由于数值漂移而丢失其原始信息。
三、收敛准则 系统采用 F-范数计算相邻两次迭代间的残差。当残差低于 1e-6 时判定为收敛。这种设计保证了算法在大规模复杂图结构下的计算效率,避免无谓的代数计算。
四、置信度评估机制 最终的可视化分析第四象限展示了预测置信度分布。该置信度反映了节点在图中受周围邻居影响的强度,通常位于流形中心和密集区域的节点具有更高的置信度。