Directly Trained Spiking Neural Networks with Adaptive Phase Coding

📄 Directly Trained Spiking Neural Networks with Adaptive Phase Coding #音频分类 #时间编码 #脉冲神经网络 ✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Huaxu He(广东智能科学技术研究院,河南大学) 通讯作者:Yang Liu(河南大学计算机与信息工程学院),Chio-In IEONG(广东智能科学技术研究院) 作者列表:Huaxu He(广东智能科学技术研究院,河南大学)、Zhixing Hou(广东智能科学技术研究院)、Mingkun Xu(广东智能科学技术研究院)、Yongsheng Huang(广东智能科学技术研究院)、Yang Liu(河南大学计算机与信息工程学院)、Chio-In IEONG(广东智能科学技术研究院) 💡 毒舌点评 亮点:论文提出的“自适应相位编码”机制概念清晰、实现简洁,且巧妙地通过“层间时间打乱”消融实验,为“网络是否真的在利用时间信息”这一核心假设提供了直接证据,这在SNN可解释性研究中很有价值。 短板:创新深度有限,本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子;实验部分未能与近年来涌现的多种直接训练SNN方法(如SLTT、GLIF等)进行公平、全面的对比,削弱了其宣称的“改进”的说服力。 📌 核心摘要 本文旨在解决直接训练的脉冲神经网络(SNN)在利用脉冲时间信息方面的不足,现有方法大多退化为等效的速率编码,限制了SNN处理时序信息和实现低功耗的潜力。为此,论文提出了“自适应相位编码”(APC)机制,其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数(β_t, λ_t),用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同,APC使网络能在端到端训练中自主学习每个时间步的重要性,并且该参数被扩展至每个层的每个通道,以实现更精细的时序调制。实验结果表明,在静态数据集CIFAR-10/100上,APC能将脉冲发放率降低约20%,同时精度仅下降约0.85%;在时序数据集DVS-Gesture和SHD上,APC显著提升了分类精度,分别提高了1.73%和17.76%,其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明,APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块,能提升其在时序任务上的性能。主要局限性在于,在静态数据集上精度略有下降,且实验验证的骨干网络和任务类型相对单一。 🏗️ 模型架构 本文并未提出一个新的整体网络架构,而是提出了一种对标准漏积放电(LIF)神经元模型的增强方法,该方法可以作为一种通用模块嵌入到现有的SNN架构中。 基础组件:LIF神经元模型 功能:模拟生物神经元的积分-发放过程。 结构:其动力学由三个公式描述(对应论文公式(1)-(3))。核心是膜电位H[t]的累积:它由上一时刻的膜电位V[t-1]衰减后,加上当前时刻的输入电流I[t]构成。当H[t]超过阈值Vth时,神经元发放脉冲S[t]=1,随后膜电位重置。 数据流:输入电流I[t]由上一层在t时刻的输出脉冲S[t]经过权重w变换得到。 核心创新:自适应相位编码(APC)机制 功能:在不改变LIF基本结构的前提下,为网络注入学习时序编码的能力。 结构与数据流:APC对LIF公式进行了一项关键修改(对应公式(7)): H[t] = λ_learn^t V[t-1] + β_learn^t I[t] 这里,λ_learn^t和β_learn^t是可学习参数,且下标t表示它们是时间步相关的。这意味着网络可以为每个时间步分配不同的权重:β_learn^t控制当前时刻输入电流I[t]的重要性(即该时间步脉冲的权重),λ_learn^t控制上一时刻膜电位记忆的衰减程度。 关键设计选择与动机: 解耦:论文首先指出标准LIF中(1-λ)与λ强相关,通过解耦(公式(5))使输入电流权重独立可调。 时间步依赖:进一步引入时间步索引t到参数中(公式(7)),灵感来自固定规则的相位编码,但将其变为可学习的,使网络能自适应地发现最优的时序编码策略。 通道维度扩展:为了更精细的控制,这些时间步相关的参数被扩展到每一层的每个通道(即每个特征图有自己的一套λ_learn^t和β_learn^t)。对于没有通道维度的1D输入,会先折叠为2D以适用。 收益:该机制使网络能够自主决定在哪个时间步赋予脉冲更大的“重要性”,从而摆脱对速率编码的依赖,主动利用时间信息。实验证明,这在时序数据上能大幅提升性能。 💡 核心创新点 自适应时间步权重学习:提出APC机制,将相位编码中固定的时间步脉冲权重(如2^{-t})替换为可学习参数β_learn^t。这是与以往编码方案的根本区别,将时间编码从“人工设计”转变为“端到端学习”。 细粒度的通道级时间调制:将可学习的时间步参数从神经元级扩展到网络层的每个通道。这允许网络在不同的特征通道上学习不同的时序编码策略,提供了远比神经元级参数更丰富的时序表示能力,是提升性能的关键(消融实验已证明)。 提出“层间时间打乱”分析方法:为验证SNN是否真正在利用时间信息,提出了一个有效的分析工具:在层与层之间打乱脉冲的时间顺序。如果网络依赖速率编码,打乱影响小;如果依赖时间编码,打乱性能会显著下降。这为评估直接训练SNN的内部表征提供了新视角。 🔬 细节详述 训练数据: 静态图像:CIFAR-10, CIFAR-100。未说明预处理和数据增强,可能沿用QKFormer设置。 时序事件:DVS-Gesture(手势识别), SHD(Heidelberg Spiking Dataset, 语音数字识别)。未说明具体预处理。 损失函数:未说明,可能使用标准的交叉熵损失,与QKFormer一致。 训练策略: 骨干网络:对于图像和DVS数据集,使用QKFormer架构(一种基于注意力机制的SNN)。对于SHD数据集,使用5层MLP。 时间步设置:静态图像:4步; DVS-Gesture:16步; SHD:250步。 优化器/学习率:未说明,应与QKFormer原始设置一致。 训练轮数/批次大小:未说明。 关键超参数: APC参数初始化:所有λ_learn^t和β_learn^t初始化为1。 参数约束:在训练时序数据集(DVS, SHD)时,将APC参数约束在[-1, 1]范围内以确保稳定。静态数据集上无此约束。 训练硬件:未提供。 推理细节:未提供。 正则化/稳定技巧:上述APC参数约束是保证稳定训练的关键技巧。 📊 实验结果 主要基准结果: 论文报告了APC相对于基线(标准LIF神经元)的性能变化。 ...

2026-04-29

Spike-Driven Low-Power Speech Bandwidth Extension

📄 Spike-Driven Low-Power Speech Bandwidth Extension #语音增强 #脉冲神经网络 #低功耗 #流式处理 🔥 8.0/10 | 前25% | #语音增强 | #脉冲神经网络 | #低功耗 #流式处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Donghyun Kim (Department of Electronic Engineering, Hanyang University, Seoul, Republic of Korea) 通讯作者:Joon-Hyuk Chang† (Department of Electronic Engineering, Hanyang University, Seoul, Republic of Korea) 作者列表:Donghyun Kim (Hanyang University), Sangho Han (Hanyang University), Joon-Hyuk Chang (Hanyang University) 💡 毒舌点评 亮点:模型在效率上实现了质变,参数量仅为最强对比模型(AP-BWE)的约1/20,能耗降低了约93%,将语音带宽扩展任务拉入了“毫焦耳”时代。短板:在生成质量的“天花板”上并未超越现有最佳ANN模型,甚至在最重要的PESQ和ESTOI指标上落后约0.5分,表明SNN在捕获复杂生成任务的感知细节上可能仍有瓶颈。 ...

2026-04-29

Spiking Attention Network: A Hybrid Neuromorphic Approach to Underwater Acoustic Localization and Zero-Shot Adaptation

📄 Spiking Attention Network: A Hybrid Neuromorphic Approach to Underwater Acoustic Localization and Zero-Shot Adaptation #声源定位 #脉冲神经网络 #注意力机制 #零样本 #鲁棒性 ✅ 7.0/10 | 前25% | #声源定位 | #脉冲神经网络 | #注意力机制 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Quoc Thinh Vo (Drexel University, Department of Electrical and Computer Engineering) 通讯作者:David K. Han (Drexel University, Department of Electrical and Computer Engineering) 作者列表:Quoc Thinh Vo (Drexel University, Department of Electrical and Computer Engineering), David K. Han (Drexel University, Department of Electrical and Computer Engineering) 💡 毒舌点评 本文的亮点在于将生物启发的脉冲神经网络(SNN)与成熟的ResNet、Conformer架构混合,用于处理原始水声信号,避免了传统方法繁琐的特征预处理,并展示了在零样本设置下的出色泛化能力;但短板在于其核心的LIF神经元模型相对简化,且所有实验均基于单一数据集(SWellEx-96),在更多样、更复杂海洋环境下的普适性有待进一步验证。 ...

2026-04-29

Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 💡 毒舌点评 亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。 📌 核心摘要 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。 主要实验结果: 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段: 特征提取阶段:使用预训练的SeLaVi模型作为音频(Aenc)和视觉(Venc)编码器的初始化,提取初始特征。同时,每种模态还有一个独立的脉冲时序特征提取(STFE)模块,用于从原始特征中直接提取时间动态信息。 跨模态时间-语义融合阶段: 每种模态(音频a、视觉v)的编码器输出C_m与STFE输出的时序特征S_m通过交叉注意力(CA) 融合,生成时间-语义联合表示 Fts_m。这步旨在将原始特征与捕捉到的时序动态进行初步结合。 核心时序建模阶段: STFE模块:内部包含多个SNN块。每个块由线性层、批归一化和可学习三元脉冲神经元(LTS) 构成。LTS将膜电位映射为{-α, 0, α}三元输出,相比传统二进制脉冲,信息表示更丰富。STFE不使用平均池化,而是保留所有时间步的特征为3D张量,以避免信息丢失。 时空融合模块(STFM):接收STFE输出的3D时序特征张量,通过时间局部注意力(沿时间轴滑动卷积核)和通道局部注意力(沿特征维度操作),联合建模时间上的局部运动模式和特征通道间的语义相关性,得到融合特征F_{i,j}。 增强时序Spikeformer(ETS):这是一个改进的脉冲自注意力模块。它首先对输入进行脉冲层和线性投影得到Q, K, V。然后用1D卷积层分别处理Q, K, V,以自适应整合相邻时间步的信息。之后调整计算顺序为先计算K和V的关系,再与Q交互,并用脉冲神经元替换Softmax,最终输出。 最终融合与投影阶段:将前两个阶段得到的Fts_a, Fts_v和ETS融合的音频-视觉时序特征S_av输入一个跨模态Transformer,生成最终的音视频联合表示Ots_av。最后,通过投影层和重构层将该表示映射到与文本特征对齐的语义空间。 图1:STEN架构示意图。图中显示了特征提取、STFE、STFM(橙色模块)和ETS(蓝色模块)的流程,以及最终跨模态Transformer的整合。关键创新在于蓝色模块中ETS的计算顺序调整(先KV后Q)和STFM的联合时空建模。 ...

2026-04-29

WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices

📄 WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices #音频分类 #脉冲神经网络 #边缘计算 #生物启发计算 #时频分析 ✅ 7.5/10 | 前25% | #音频分类 | #脉冲神经网络 | #边缘计算 #生物启发计算 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Bin Liu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室) 通讯作者:Wenjuan Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室,邮箱:wenjuan.li@ia.ac.cn) 作者列表:Bin Liu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Wenjuan Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Bing Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Chunfeng Yuan(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Kun Shang(广东省无创脑机接口多模态重点实验室)、Shaobing Gao(四川大学计算机科学与技术学院)、Weiming Hu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室) 💡 毒舌点评 这篇论文的亮点在于其高度原创的“生物启发式”架构设计,将小波变换、脉冲神经网络与双通路处理有机结合,为解决音频分类在边缘设备上的部署难题提供了新颖且有效的思路,参数效率指标(1.9M参数达95.91%准确率)极具吸引力。但其短板也很明显:一是实验仅在多个中小型数据集上验证,缺乏对更大规模、更复杂真实场景的测试,且所有模型均为“从头训练”,未能与当前主流的预训练范式进行公平对比,削弱了其结论的普适性;二是虽然声称面向边缘部署,但未提供在实际嵌入式设备(如STM32、RISC-V)上的功耗与延迟实测数据,效率分析仍停留在FLOPs和模拟器层面。 📌 核心摘要 要解决的问题:在IoT和边缘计算背景下,音频分类模型面临高性能(大参数)与低资源(有限算力/内存)之间的根本矛盾。现有模型要么参数冗余无法部署,要么压缩后精度下降显著。 方法核心:提出WaveSpikeNet,一种受人类听觉系统启发的轻量级架构。其核心包括:(1) 可学习离散小波变换(LDWT)进行任务自适应的频率分解;(2) 模仿听觉皮层“腹侧-背侧”通路的双通路异构处理架构,分别使用传统的残差块处理低频稳态特征,使用简化的Leaky Integrate-and-Fire(LIF)脉冲神经网络处理高频瞬态特征;(3) 多级注意力融合模块进行有效整合。 与已有方法相比新在哪里:首次成功地将可学习小波变换、脉冲神经网络和多级注意力机制融合用于音频分类。与传统的同质化(如全卷积)或均匀压缩方法不同,它通过生物启发的异构处理(低频CNN,高频SNN)来提升参数效率,而非简单地减少参数量。 主要实验结果:在UrbanSound8K数据集上,Base模型(1.9M参数)达到95.91%准确率,超越参数量为其4倍多的ResNetSE(7.8M参数,95.07%),参数效率(准确率/参数量)显著提升。在ESC-50、GTZAN等数据集上也从头训练取得有竞争力的结果。在AudioSet上,以约35倍少于CNN14的参数量,取得了更高的mAP(0.234 vs 0.221)。消融实验验证了双通路设计、可学习小波和脉冲机制的有效性。 实际意义:为在资源受限的边缘设备(如树莓派)上部署高性能音频分类模型提供了一种有前景的新架构,可能推动智能传感在智能家居、工业监测等领域的应用。 主要局限性:(1) 缺乏在真实物理边缘设备上的功耗、延迟等硬件指标实测;(2) 所有实验均为从头训练,未能与当前主流的预训练-微调范式进行对比,其性能上限和泛化能力有待进一步验证;(3) 论文未提供代码、模型权重等开源材料,可复现性存疑。 🏗️ 模型架构 WaveSpikeNet的整体架构(如图2所示)是一个端到端的音频分类模型,输入为梅尔频谱图,输出为类别预测。其流程和组件如下: ...

2026-04-29