神经网络剪枝

📄 Random Cloud: Finding Minimal Neural Architectures Without Training #模型架构搜索 #训练无关方法 #神经网络剪枝 #超参数优化 ✅ 7.0/10 | 前50% | #模型架构搜索 | #训练无关方法 | #神经网络剪枝 #超参数优化 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度中 👥 作者与机构第一作者：Javier Gil Blázquez（未说明所属机构）通讯作者：未说明（仅提供了邮箱 javgil@proton.me）作者列表：Javier Gil Blázquez（未说明机构） 💡 毒舌点评这篇论文提出了一个有趣且大胆的想法：用一群“随机蒙的”网络来定位最小架构，完全跳过了耗时的全网训练，思路值得肯定，计算效率上的优势在小数据集上也得到了验证（Sonar数据集快了近1倍）。然而，其核心理论支撑略显薄弱，仅用sigmoid输出范围来解释随机网络的分类能力过于牵强；并且方法在MNIST等高维任务上立刻“现原形”，暴露了其对低维特征工程或简单任务的依赖，离真正解决通用架构搜索问题还有距离。 🔗 开源详情代码：提供了代码仓库链接：https://github.com/Jastxz/random-cloud。模型权重：未提及公开训练好的模型权重。数据集：实验使用了公开的分类数据集，但论文中未说明数据集的具体获取方式或预处理脚本。 Demo：未提供在线演示。复现材料：论文给出了详细的算法描述（Algorithm 1）、关键超参数（N, θ, n_elim）的取值范围、实验设置（数据集划分、评估指标）和统计检验方法，提供了良好的复现基础。论文中引用的开源项目：论文未提及依赖的其他特定开源项目或模型。方法本身基于标准的PyTorch/TensorFlow等框架，但未指明。 📌 核心摘要问题：寻找适用于特定任务的最小神经网络拓扑结构，传统方法（如训练后剪枝、神经架构搜索）计算成本高昂，通常需要至少两次完整训练。方法核心：提出“随机云”方法。首先生成N个权重随机初始化的网络；在不进行任何训练（仅前向传播）的情况下评估其在训练集上的分类准确率；然后，对表现超过阈值的网络，逐步移除其最后隐藏层的神经元（每次移除n_elim个），并重新评估，直到无法再缩减；最终，选择在缩减过程中达到的最高准确率所对应的最小网络结构，仅对该结构进行一次完整的反向传播训练（精炼阶段）。与已有方法相比新在哪里：与传统“训练-剪枝-再训练”的范式不同，该方法是预训练结构剪枝，在训练前通过“随机探索+渐进缩减”发现最小拓扑，完全避免了训练庞大的初始网络。与训练无关的神经架构搜索相比，它不是从预定义搜索空间中选择架构，而是动态地“雕刻”出最小架构。主要实验结果：在7个分类数据集上，该方法在6个上匹配或超越了幅值剪枝和随机剪枝基线。在Sonar数据集上优势最显著：准确率比幅值剪枝高4.9个百分点（p=0.017），同时参数减少87.2%。计算成本方面，在4/5个数据集中，该方法比完整训练更快（0.67-0.94倍时间），而剪枝基线总是更慢（1.5-1.8倍时间）。数据集方法测试准确率(%) 参数减少率 Breast Cancer 幅值剪枝 97.3 -74.4% 随机剪枝 97.3 随机云 97.3 Sonar 幅值剪枝 78.0 -87.2% 随机剪枝 69.8 随机云 80.5 Ionosphere 幅值剪枝 87.1 -81.0% 随机剪枝 88.0 随机云 90.0 Adult Income 幅值剪枝 84.4 -49.9% 随机剪枝 84.4 随机云 85.0 Iris 幅值剪枝 100.0 -41.2% 随机剪枝 100.0 随机云 100.0 Wine 幅值剪枝 94.4 -55.6% 随机剪枝 94.4 随机云 94.4 Opt. Digits 幅值剪枝 95.0 -62.2% 随机剪枝 95.4 随机云 95.9 表1：论文中提供的主要实验结果。最佳剪枝结果以粗体标出。 ...