ICASSP 2026 - 音视频实例分割
共 1 篇论文
| 排名 | 论文 | 评分 | 分档 |
|---|---|---|---|
| 🥇 | Learning What to Hear: Boosting Sound-Source Association for | 7.5分 | 前25% |
📋 论文详情
🥇 Learning What to Hear: Boosting Sound-Source Association for Robust Audiovisual Instance Segmentation
✅ 7.5/10 | 前25% | #音视频实例分割 | #查询学习 | #多模态模型 #注意力机制
👥 作者与机构
- 第一作者:Jinbae Seo(Yonsei University)
- 通讯作者:Jiyoung Lee(School of AI and Software, Ewha Womans University),Kwanghoon Sohn(Yonsei University, Korea Institute of Science and Technology (KIST))
- 作者列表:Jinbae Seo(Yonsei University)、Hyeongjun Kwon(Yonsei University)、Kwonyoung Kim(Yonsei University)、Jiyoung Lee(Ewha Womans University)、Kwanghoon Sohn(Yonsei University & KIST)
💡 毒舌点评
这篇论文精准地指出了现有音视频实例分割(AVIS)方法中“视觉偏见”的核心痛点(均匀加法融合和纯视觉训练目标),并用两个直观且有效的模块(交叉注意力的查询生成与序数回归的计数监督)予以解决,实验增益明确。然而,其创新性相对局部,本质上是AVISM框架的“插件式”改进,且最大性能提升(Swin-L骨干)仍依赖于更强的预训练视觉模型,未能完全摆脱对视觉主导性的依赖。
📌 核心摘要
- 问题:现有音视频实例分割方法存在“视觉偏见”,因为音频特征被均匀地加到所有查询上,导致查询无法特化于不同声源;同时,纯视觉的监督目标(掩码和分类损失)会使查询收敛于任意显著视觉对象,而非发声对象。
- 方法核心:提出音视频实例分割框架ACVIS,包含两个关键组件:(1)音频中心查询生成器:用交叉注意力替代简单的加法融合,使每个查询能选择性关注音频信号中的不同模式,生成带有声源特异性先验的查询;(2)声音感知序数计数损失:通过一个可学习的计数令牌,以序数回归的方式显式监督模型预测发声对象的数量,强制单调一致性,防止训练过程中退化为仅依赖视觉信息。
- 创新点:相较于基线方法AVISM,ACVIS用音频条件化的查询生成取代均匀融合,并引入了额外的、显式的音频中心约束(计数监督),以更好地保持音视频平衡。
- 实验结果:在AVISeg基准测试上,使用ResNet-50骨干和IN+COCO预训练时,相比基线AVISM,ACVIS在mAP上提升1.64(45.04→46.68),HOTA上提升0.60(64.52→65.12),FSLA上提升2.06(44.42→46.48)。消融实验证明音频中心查询生成器和SAOC损失是互补的,且SAOC损失优于标准交叉熵损失。在多发声源帧(FSLAm)上提升尤为显著(+3.82)。
- 实际意义:提升了模型在复杂、多声源场景(如拥挤房间、乐器合奏)中准确分割和跟踪发声对象的能力,减少了掩码粘连和身份互换。
- 主要局限性:论文未深入探讨当发声对象数量超过预设的最大计数(K_max)或静默对象数量极大时的性能边界;其改进高度依赖于基线框架AVISM,且最强性能依赖于更强大的视觉骨干(如Swin-L)。