本站所有资源均为高质量资源,各种姿势下载。
组合模型是机器学习中提升预测性能的重要方法,其核心思想是通过整合多个基学习器的结果来获得比单一模型更优的泛化能力。本章重点探讨了三种典型范式:
委员会机制(Committees) 通过平均多个独立训练的模型预测结果(如Bagging)来降低方差。这种朴素集成方式假设基学习器误差互不相关,但实际中常通过引入随机性(如数据子采样、特征扰动)逼近该条件。
Boosting与AdaBoost Boosting通过顺序训练模型,使后续模型聚焦于前序模型预测错误的样本,最终加权投票。AdaBoost是其经典实现,通过指数损失函数调整样本权重,在每一轮迭代中强化误分类样本的重要性,最终组合弱分类器形成强分类器。其理论保证在于能逐步降低训练误差上界。
决策树与条件混合模型 决策树本身具有天然的分段组合特性,通过递归划分特征空间实现预测。条件混合模型(如专家混合)更进一步,引入门控网络动态选择子模型,允许不同区域由不同模型主导,从而处理输入空间的非平稳性。这类模型的关键在于如何平衡分工的细化程度与过拟合风险。
这些方法共同体现了"分而治之"的思想,通过模型的多样性弥补单模型的局限性。实际选择时需权衡计算成本、数据特性及需求精度——例如Boosting对噪声敏感但通常精度更高,而随机化方法(如随机森林)并行性好且抗过拟合。