本项目主要开发一套用于近红外光谱(NIR)和化学计量学分析的样本自动划分系统,旨在解决建模前训练集(校正集)与测试集(验证集)分配不均导致模型性能下降的问题。项目详细实现了两种核心的样本选择算法:Kennard-Stone (KS) 算法和SPXY (Sample Set Partitioning based on joint x-y distances) 算法。KS算法基于光谱特征矩阵(X变量)的欧氏距离,通过迭代选择空间中距离最远的样本点,确保选出的训练集能以此最大化地覆盖样本的光谱差异空间,适用于光谱变异较大的场景。SPXY算法作为KS算法的改良版,引入了标准化后的理化性质值(Y变量)计算联合距离,确保划分后的训练集不仅在光谱空间分布均匀,在目标属性空间(如浓度、密度等)也具有良好的代表性,从而提高回归模型的预测精度及鲁棒性。除了核心算法,项目还提供了随机划分(Random Selection)功能作为基准对照。系统具备完整的数据流处理能力,包括数据的归一化预处理、距离矩阵的高效计算、迭代选择过程的自动化执行以及最终结果的可视化验证。可视化模块利用主成分分析(PCA)技术,将高维光谱数据降维后在二维或三维空间绘制散点图,用不同颜色标记训练集和测试集,直观展示样本分布的均匀程度,辅助用户判断划分方案的有效性。