视觉提示 | 语音/音频论文速递

📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation #音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示 ✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Chengzhi Li（北京理工大学计算机学院）通讯作者：Ping Jian（北京理工大学计算机学院）作者列表：Chengzhi Li（北京理工大学计算机学院）、Heyan Huang（北京理工大学计算机学院）、Ping Jian（北京理工大学计算机学院）、Yanghao Zhou（北京理工大学计算机学院） 💡 毒舌点评亮点：论文的“先看后听”直觉式框架设计非常巧妙，将人类感知顺序转化为模型中的“时序视觉提示”模块，有效提升了弱监督下的音频理解精度，是解决该问题的一个新颖且合理的思路。短板：作为一篇方法论论文，开源信息的完全缺失是硬伤，极大削弱了其可复现性和对社区的即时贡献，也与顶级会议推动可重复研究的目标背道而驰。 🔗 开源详情论文中未提及任何开源计划、代码仓库链接、预训练模型权重或数据集获取方式。也未提供在线演示（Demo）。虽然文中提到了依赖的基线方法（如AST）和工具（如Dense CRF），但并未给出其具体使用的开源实现版本。因此，复现该工作需要读者自行实现所有模块并调试训练流程，门槛较高。 📌 核心摘要本文旨在解决音视频语义分割（AVSS）任务中标注成本高昂的问题。为此，作者首次提出了弱监督音视频语义分割（WSAVSS）任务，仅使用视频级标签训练模型，以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐（PCAS）框架，其核心包含两个模块：1）“先看后听” 模块，利用视觉特征作为提示来增强帧级音频理解；2）“先听后分割” 模块，通过实例级和令牌级的渐进式对比学习，实现从粗到细的跨模态对齐。与已有方法相比，新在：首次定义WSAVSS任务；首次在音视频分割中引入“视觉提示”来指导音频理解；设计了新颖的渐进式跨模态对比学习框架。实验结果显示，在弱监督设置下，PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线（例如，在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU）。在更难的AVSS子集上，PCAS甚至达到了与全监督方法相竞争的性能（52.2 F-score， 42.07 mIoU）。其实际意义在于能够以低成本获取高质量的音视频语义分割数据，推动该技术的应用。主要局限性在于论文未开源代码，部分训练细节不完整，且实验主要在AVSS相关数据集上进行，泛化性有待进一步验证。 ...