时间编码 | 语音/音乐/音频论文速递

📄 Directly Trained Spiking Neural Networks with Adaptive Phase Coding #音频分类 #时间编码 #脉冲神经网络 ✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Huaxu He（广东智能科学技术研究院，河南大学）通讯作者：Yang Liu（河南大学计算机与信息工程学院），Chio-In IEONG（广东智能科学技术研究院）作者列表：Huaxu He（广东智能科学技术研究院，河南大学）、Zhixing Hou（广东智能科学技术研究院）、Mingkun Xu（广东智能科学技术研究院）、Yongsheng Huang（广东智能科学技术研究院）、Yang Liu（河南大学计算机与信息工程学院）、Chio-In IEONG（广东智能科学技术研究院） 💡 毒舌点评亮点：论文提出的“自适应相位编码”机制概念清晰、实现简洁，且巧妙地通过“层间时间打乱”消融实验，为“网络是否真的在利用时间信息”这一核心假设提供了直接证据，这在SNN可解释性研究中很有价值。短板：创新深度有限，本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子；实验部分未能与近年来涌现的多种直接训练SNN方法（如SLTT、GLIF等）进行公平、全面的对比，削弱了其宣称的“改进”的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。论文使用的数据集（CIFAR10/100， DVS-Gesture， SHD）均为公开标准数据集。 Demo：未提及。复现材料：论文提供了一些关键设置（骨干网络名称、时间步数、APC参数初始化及约束策略），但缺少完整的训练脚本、配置文件和详细参数。论文中引用的开源项目：论文引用了QKFormer [19]作为骨干网络，这是构建在其上的一个开源SNN模型。其他引用多为通用SNN研究。 📌 核心摘要本文旨在解决直接训练的脉冲神经网络（SNN）在利用脉冲时间信息方面的不足，现有方法大多退化为等效的速率编码，限制了SNN处理时序信息和实现低功耗的潜力。为此，论文提出了“自适应相位编码”（APC）机制，其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数（β_t, λ_t），用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同，APC使网络能在端到端训练中自主学习每个时间步的重要性，并且该参数被扩展至每个层的每个通道，以实现更精细的时序调制。实验结果表明，在静态数据集CIFAR-10/100上，APC能将脉冲发放率降低约20%，同时精度仅下降约0.85%；在时序数据集DVS-Gesture和SHD上，APC显著提升了分类精度，分别提高了1.73%和17.76%，其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明，APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块，能提升其在时序任务上的性能。主要局限性在于，在静态数据集上精度略有下降，且实验验证的骨干网络和任务类型相对单一。 🏗️ 模型架构本文并未提出一个新的整体网络架构，而是提出了一种对标准漏积放电（LIF）神经元模型的增强方法，该方法可以作为一种通用模块嵌入到现有的SNN架构中。 ...