Multiple Additive Neural Networks for Structured and Unstructured Data

📄 Multiple Additive Neural Networks for Structured and Unstructured Data #表格数据预测 #梯度提升 #浅层神经网络 #胶囊网络 #抗过拟合 ✅ 7.0/10 | 前50% | #表格数据预测 | #梯度提升 | #浅层神经网络 #胶囊网络 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 中 👥 作者与机构 第一作者:Jannis Mohr(波鸿应用科学大学跨学科应用人工智能与数据科学研究所) 通讯作者:未说明(论文未明确指定) 作者列表:Jannis Mohr(波鸿应用科学大学跨学科应用人工智能与数据科学研究所)、Jörg Frochte(波鸿应用科学大学跨学科应用人工智能与数据科学研究所) 💡 毒舌点评 亮点在于系统性地将浅层神经网络(包括胶囊网络)整合进梯度提升框架,并设计了一套专门的防过拟合启发式与连续学习机制,使其在多个结构化数据基准上取得了稳定优于XGBoost的表现。短板在于所使用的神经网络结构过于简单(仅3层8个神经元),且防过拟合启发式(如Algorithm 2)的描述存在逻辑模糊之处,连续学习的评估也仅在一个数据集上进行,说服力有限。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及公开模型权重。 数据集:使用了多个公开基准数据集(自行车共享、SARCOS、CT Scan、MSD、UCI心脏病、澳大利亚降雨、泰坦尼克号、希格斯玻色子、MNIST、CIFAR-10),论文中说明了部分数据集来源。 Demo:未提及。 复现材料:论文给出了算法伪代���(Algorithm 1, 2, 3)、网络结构(3层8神经元)、损失函数、以及部分实验的超参数范围。但缺少完整的训练脚本、配置文件和预训练检查点。 论文中引用的开源项目:明确提到了使用XGBoost作为基线进行对比。 📌 核心摘要 要解决什么问题:传统梯度提升框架(如XGBoost)主要使用决策树作为基学习器,虽然在结构化数据上强大,但存在过拟合风险,且难以扩展到非结构化数据(如图像)。本文旨在提出一个更通用、更稳健、支持连续学习的集成学习框架。 方法核心是什么:提出“多重加性神经网络”(MANN),将梯度提升中的基学习器从决策树替换为“几乎浅层”的神经网络。核心流程是迭代地训练一系列小型神经网络来拟合当前模型的残差(伪残差),并将其输出加权累加到最终预测中。同时,引入了一套双层防过拟合启发式机制(在单个神经网络训练中使用早停,在整体迭代中监控验证集误差),并设计了架构导向的连续学习方法。 与已有方法相比新在哪里:相比传统GBDT,MANN使用神经网络作为基学习器,天然支持更丰富的数据类型。相比单个深度神经网络(MLP),MANN通过加法模型和内置的防过拟合机制,降低了调参难度并提升了鲁棒性。论文还首次将胶囊网络作为基学习器引入梯度提升框架,用于图像分类。 主要实验结果如何:在多个结构化数据集(回归/分类)和图像分类基准上,MANN的性能优于或持平于XGBoost和浅层MLP等基线。例如,在自行车共享回归任务中,MANN的RMSE为56,低于XGBoost的62;在Higgs Boson分类中,MANN准确率为85%,高于XGBoost的83%。连续学习实验显示,MANN能有效适应新数据分布(RMSE从128降至79)。图像分类上,MANN+胶囊网络在MNIST(99.1%)和CIFAR-10(91.8%)上均略优于标准CNN和单一胶囊网络。关键实验结果表格见“详细分析”部分。 实际意义是什么:为表格数据提供了一个比XGBoost更易用(超参数不敏感)、更支持持续数据流的集成学习新选项。其将非结构化数据处理(通过胶囊网络)纳入统一框架的尝试,展示了方法的通用潜力。 主要局限性是什么:1)所使用的基学习器(浅层MLP/胶囊网络)结构固定且简单,可能限制了模型表达能力的上限;2)防过拟合启发式(特别是Algorithm 2的触发条件)表述不够严谨,可能影响复现;3)连续学习和胶囊网络的实验评估相对单薄,缺乏更深入的分析和更广泛的对比;4)未提供代码,降低了可复现性。 🏗️ 模型架构 MANN是一个迭代式的加法模型,整体架构如下: ...

2026-04-30 · 更新于 2026-05-19 · 2 min · 297 words