Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning
📄 Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning #音视频 #脉冲神经网络 #零样本 #音频分类 #多模态模型 ✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院) 💡 毒舌点评 亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用公开数据集(VGGSound, UCF101, ActivityNet),未提及额外数据。 Demo:未提供在线演示。 复现材料:提供了主要超参数(见03.细节详述),但缺少优化器、学习率调度、数据预处理/增强细节、完整训练配置文件等。 论文中引用的开源项目:引用了预训练模型SeLaVi[17](“Labelling unlabelled videos from scratch with multi-modal self-supervision”),但未提供其具体开源链接。 总体开源情况:论文中未提及开源计划。 📌 核心摘要 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。 主要实验结果: 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。 🏗️ 模型架构 STEN的整体架构如图1所示。其处理流程可分为四个主要阶段: ...