Random Cloud: Finding Minimal Neural Architectures Without Training
📄 Random Cloud: Finding Minimal Neural Architectures Without Training #模型架构搜索 #训练无关方法 #神经网络剪枝 #超参数优化 ✅ 7.0/10 | 前50% | #模型架构搜索 | #训练无关方法 | #神经网络剪枝 #超参数优化 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 中 👥 作者与机构 第一作者:Javier Gil Blázquez(未说明所属机构) 通讯作者:未说明(仅提供了邮箱 javgil@proton.me) 作者列表:Javier Gil Blázquez(未说明机构) 💡 毒舌点评 这篇论文提出了一个有趣且大胆的想法:用一群“随机蒙的”网络来定位最小架构,完全跳过了耗时的全网训练,思路值得肯定,计算效率上的优势在小数据集上也得到了验证(Sonar数据集快了近1倍)。然而,其核心理论支撑略显薄弱,仅用sigmoid输出范围来解释随机网络的分类能力过于牵强;并且方法在MNIST等高维任务上立刻“现原形”,暴露了其对低维特征工程或简单任务的依赖,离真正解决通用架构搜索问题还有距离。 🔗 开源详情 代码:提供了代码仓库链接:https://github.com/Jastxz/random-cloud。 模型权重:未提及公开训练好的模型权重。 数据集:实验使用了公开的分类数据集,但论文中未说明数据集的具体获取方式或预处理脚本。 Demo:未提供在线演示。 复现材料:论文给出了详细的算法描述(Algorithm 1)、关键超参数(N, θ, n_elim)的取值范围、实验设置(数据集划分、评估指标)和统计检验方法,提供了良好的复现基础。 论文中引用的开源项目:论文未提及依赖的其他特定开源项目或模型。方法本身基于标准的PyTorch/TensorFlow等框架,但未指明。 📌 核心摘要 问题:寻找适用于特定任务的最小神经网络拓扑结构,传统方法(如训练后剪枝、神经架构搜索)计算成本高昂,通常需要至少两次完整训练。 方法核心:提出“随机云”方法。首先生成N个权重随机初始化的网络;在不进行任何训练(仅前向传播)的情况下评估其在训练集上的分类准确率;然后,对表现超过阈值的网络,逐步移除其最后隐藏层的神经元(每次移除n_elim个),并重新评估,直到无法再缩减;最终,选择在缩减过程中达到的最高准确率所对应的最小网络结构,仅对该结构进行一次完整的反向传播训练(精炼阶段)。 与已有方法相比新在哪里:与传统“训练-剪枝-再训练”的范式不同,该方法是预训练结构剪枝,在训练前通过“随机探索+渐进缩减”发现最小拓扑,完全避免了训练庞大的初始网络。与训练无关的神经架构搜索相比,它不是从预定义搜索空间中选择架构,而是动态地“雕刻”出最小架构。 主要实验结果:在7个分类数据集上,该方法在6个上匹配或超越了幅值剪枝和随机剪枝基线。在Sonar数据集上优势最显著:准确率比幅值剪枝高4.9个百分点(p=0.017),同时参数减少87.2%。计算成本方面,在4/5个数据集中,该方法比完整训练更快(0.67-0.94倍时间),而剪枝基线总是更慢(1.5-1.8倍时间)。 数据集 方法 测试准确率(%) 参数减少率 Breast Cancer 幅值剪枝 97.3 -74.4% 随机剪枝 97.3 随机云 97.3 Sonar 幅值剪枝 78.0 -87.2% 随机剪枝 69.8 随机云 80.5 Ionosphere 幅值剪枝 87.1 -81.0% 随机剪枝 88.0 随机云 90.0 Adult Income 幅值剪枝 84.4 -49.9% 随机剪枝 84.4 随机云 85.0 Iris 幅值剪枝 100.0 -41.2% 随机剪枝 100.0 随机云 100.0 Wine 幅值剪枝 94.4 -55.6% 随机剪枝 94.4 随机云 94.4 Opt. Digits 幅值剪枝 95.0 -62.2% 随机剪枝 95.4 随机云 95.9 表1:论文中提供的主要实验结果。最佳剪枝结果以粗体标出。 ...