Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation
📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation #音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示 ✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Chengzhi Li(北京理工大学计算机学院) 通讯作者:Ping Jian(北京理工大学计算机学院) 作者列表:Chengzhi Li(北京理工大学计算机学院)、Heyan Huang(北京理工大学计算机学院)、Ping Jian(北京理工大学计算机学院)、Yanghao Zhou(北京理工大学计算机学院) 💡 毒舌点评 亮点:论文的“先看后听”直觉式框架设计非常巧妙,将人类感知顺序转化为模型中的“时序视觉提示”模块,有效提升了弱监督下的音频理解精度,是解决该问题的一个新颖且合理的思路。短板:作为一篇方法论论文,开源信息的完全缺失是硬伤,极大削弱了其可复现性和对社区的即时贡献,也与顶级会议推动可重复研究的目标背道而驰。 📌 核心摘要 本文旨在解决音视频语义分割(AVSS) 任务中标注成本高昂的问题。为此,作者首次提出了弱监督音视频语义分割(WSAVSS) 任务,仅使用视频级标签训练模型,以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐(PCAS) 框架,其核心包含两个模块:1)“先看后听” 模块,利用视觉特征作为提示来增强帧级音频理解;2)“先听后分割” 模块,通过实例级和令牌级的渐进式对比学习,实现从粗到细的跨模态对齐。与已有方法相比,新在:首次定义WSAVSS任务;首次在音视频分割中引入“视觉提示”来指导音频理解;设计了新颖的渐进式跨模态对比学习框架。实验结果显示,在弱监督设置下,PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线(例如,在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU)。在更难的AVSS子集上,PCAS甚至达到了与全监督方法相竞争的性能(52.2 F-score, 42.07 mIoU)。其实际意义在于能够以低成本获取高质量的音视频语义分割数据,推动该技术的应用。主要局限性在于论文未开源代码,部分训练细节不完整,且实验主要在AVSS相关数据集上进行,泛化性有待进一步验证。 关键实验结果表格 表1:弱监督方法在AVS-S4和AVS-MS3上的性能对比 ...