📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation
#音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示
✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中
👥 作者与机构
- 第一作者:Chengzhi Li(北京理工大学计算机学院)
- 通讯作者:Ping Jian(北京理工大学计算机学院)
- 作者列表:Chengzhi Li(北京理工大学计算机学院)、Heyan Huang(北京理工大学计算机学院)、Ping Jian(北京理工大学计算机学院)、Yanghao Zhou(北京理工大学计算机学院)
💡 毒舌点评
亮点:论文的“先看后听”直觉式框架设计非常巧妙,将人类感知顺序转化为模型中的“时序视觉提示”模块,有效提升了弱监督下的音频理解精度,是解决该问题的一个新颖且合理的思路。短板:作为一篇方法论论文,开源信息的完全缺失是硬伤,极大削弱了其可复现性和对社区的即时贡献,也与顶级会议推动可重复研究的目标背道而驰。
📌 核心摘要
本文旨在解决音视频语义分割(AVSS) 任务中标注成本高昂的问题。为此,作者首次提出了弱监督音视频语义分割(WSAVSS) 任务,仅使用视频级标签训练模型,以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐(PCAS) 框架,其核心包含两个模块:1)“先看后听” 模块,利用视觉特征作为提示来增强帧级音频理解;2)“先听后分割” 模块,通过实例级和令牌级的渐进式对比学习,实现从粗到细的跨模态对齐。与已有方法相比,新在:首次定义WSAVSS任务;首次在音视频分割中引入“视觉提示”来指导音频理解;设计了新颖的渐进式跨模态对比学习框架。实验结果显示,在弱监督设置下,PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线(例如,在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU)。在更难的AVSS子集上,PCAS甚至达到了与全监督方法相竞争的性能(52.2 F-score, 42.07 mIoU)。其实际意义在于能够以低成本获取高质量的音视频语义分割数据,推动该技术的应用。主要局限性在于论文未开源代码,部分训练细节不完整,且实验主要在AVSS相关数据集上进行,泛化性有待进一步验证。
关键实验结果表格
表1:弱监督方法在AVS-S4和AVS-MS3上的性能对比
| 方法 | 主干网络 | AVS-S4 F-score | AVS-S4 mIoU | AVS-MS3 F-score | AVS-MS3 mIoU |
|---|---|---|---|---|---|
| AVS (ws) [3] | ResNet-50 | 24.99 | 12.63 | 15.72 | 8.76 |
| CAM [11] | ResNet-50 | 27.88 | 19.26 | 19.83 | 12.65 |
| EZ-VSL [12] | ResNet-50 | 35.70 | 29.40 | 27.31 | 23.58 |
| C2AM [13] | ResNet-50 | 36.55 | 30.87 | 29.58 | 25.33 |
| WS-AVS [10] | ResNet-50 | 51.76 | 34.13 | 46.87 | 30.85 |
| PCAS (Ours) | ResNet-50 | 68.5 | 56.41 | 51.7 | 45.76 |
| PCAS (Ours) | ViT-base | 74.2 | 60.50 | 60.0 | 46.04 |
表2:与全监督方法在AVS-Semantic上的性能对比
| 训练设置 | 方法 | 主干网络 | F-score | mIoU |
|---|---|---|---|---|
| 全监督 | COMBO [6] | PVT-v2 | 46.1 | 42.1 |
| 弱监督 | PCAS (Ours) | PVT-v2 | 44.6 | 36.30 |
| 弱监督 | PCAS (Ours) | ViT-base | 52.2 | 42.07 |
🏗️ 模型架构
PCAS的整体架构(如图1所示)旨在模拟“看-听-分割”的感知过程,分为“Looking-before-Listening”和“Listening-before-Segmentation”两大阶段。

Looking-before-Listening (表示学习阶段):
- 输入:一帧视频图像和对应的一段音频(转换为梅尔频谱)。
- 视觉编码器(ViT):处理视频帧,输出三部分特征:全局分类令牌
v_cls、语义令牌v_sem(池化后的patch特征)以及所有patch令牌v_th。 - 音频编码器(如AST):处理音频,但其输入序列被增强。它接收原始的音频令牌,并顺序插入来自对应视频帧的视觉语义令牌
v_sem作为提示令牌(Prompt Tokens)。 - 时序视觉提示(TVP):这是本模块的核心。通过将
v_sem作为提示注入音频序列,模型被强制在理解音频时“先看”视觉线索,从而获得更精确的帧级音频理解能力。 - 输出:增强后的音频编码器输出一个语义令牌
a_sem,代表经过视觉引导的音频理解结果。
Listening-before-Segmentation (对齐与分割阶段):
- 输入:来自上一阶段的视觉令牌
v_cls,v_sem,v_th和音频令牌a_sem。 - 跨模态对比(CMC):这是一个实例级(全局)对比学习模块。它计算
a_sem、v_sem和v_cls两两之间的余弦相似度,并使用视频级标签构建监督对比损失(公式1),将不同模态的全局语义特征拉近到共享空间。这相当于“先听”懂音频的全局类别。 - 令牌级对比(CMPC & CMCC):这是细粒度对齐模块,利用CMC生成的相似度矩阵作为伪标签。
- CMPC (图2):计算每个视觉patch令牌
v_th与音频语义令牌a_sem的相似度,生成patch级的正负标签,然后进行对比学习,迫使模型将发声区域的视觉特征与音频特征对齐。 - CMCC:对比全局分类令牌
v_cls与局部裁剪分类令牌,鼓励全局令牌关注发声区域。
- CMPC (图2):计算每个视觉patch令牌
- 分割头:经过充分的“听”之后,模型利用对齐后的特征,结合类激活映射(CAM)生成伪标签,训练一个分割头(Segment Head)来输出最终的语义分割掩码(Seg. Mask)。
- 输入:来自上一阶段的视觉令牌
💡 核心创新点
- 定义新任务WSAVSS:首次明确提出使用视频级标签进行音视频语义分割的任务,旨在解决AVSS标注成本过高的问题,为该领域开辟了新的研究方向。
- 提出“时序视觉提示”(TVP)机制:受人类“先看后听”感知顺序启发,创造性地将视觉特征作为提示令牌插入音频编码过程,有效增强了弱监督条件下模型对帧级音频事件的定位和理解能力。
- 设计渐进式跨模态对比对齐框架:结合实例级(CMC)和令牌级(CMPC、CMCC)对比学习,实现了从粗(全局类别)到细(像素级区域)的渐进式跨模态语义对齐,确保模型在分割前已充分理解音视频内容。
- 在弱监督下取得与全监督方法可比的性能:在AVSS数据集的子集上,PCAS(ViT-base)的性能(42.07 mIoU)超越了大多数全监督方法,展示了该弱监督范式的巨大潜力。
🔬 细节详述
- 训练数据:
- 数据集:AVS数据集(包括AVS-S4, AVS-MS3, AVS-Semantic子集)。论文未提及具体样本数量。
- 预处理:视频帧调整为
10×3×448×448(AVSS子集) 或5×3×224×224(其他)。音频统一裁剪为10秒,并转换为对数梅尔滤波器组(fbank)特征。
- 损失函数:总损失由多个部分组成(论文未明确给出权重):
- CMC损失:基于视频级标签的跨模态对比交叉熵损失(公式1)。
- CMPC损失:基于patch级伪标签的对比损失(公式2)。
- CMCC损失:基于局部-全局分类令牌对比的InfoNCE损失(公式3)。
- 分割损失:使用CAM生成的伪标签监督分割头,具体损失函数未说明(通常为交叉熵损失)。
- 训练策略:
- 优化器:Adam。
- 训练轮数:9个epoch,其中2个epoch为warmup。
- 学习率:论文提及两个模块的学习率分别为0.0012和0.0006,但未说明对应模块。
- 其他:未说明batch size、学习率调度策略(如衰减)。
- 关键超参数:
- 主干网络:ResNet-50, ViT-base, PVT-v2。
- 温度参数τ:在CMCC损失(公式3)中使用,具体数值未说明。
- 阈值:在CMPC中用于分配正负标签,具体数值未说明。
- 训练硬件:论文中未提及。
- 推理细节:使用Dense CRF对预测掩码进行后处理以细化边界。其他推理设置未说明。
- 正则化/技巧:论文中未提及如Dropout、数据增强等具体技巧。
📊 实验结果
主要对比实验:
与弱监督基线在AVS-S4和AVS-MS3上的对比(表1):PCAS(Ours)在F-score和mIoU上全面超越了所有列出的弱监督方法。以ViT-base为例,在AVS-S4上比最强基线WS-AVS高出22.44分(F-score)和26.37分(mIoU),提升幅度巨大。
与全监督方法在AVS-Semantic上的对比(表2):这是一个更具挑战性的设置。弱监督的PCAS(PVT-v2)性能与部分全监督方法(如AVS)接近,而PCAS(ViT-base)的F-score和mIoU甚至超越了所有列出的全监督方法,取得了竞争性的结果。
消融实验:
- Looking-before-Listening模块消融(表3):加入TVP(即使用视觉提示)后,音频分类任务的准确率(以F1等指标衡量)在所有数据集上均大幅提升,例如在AVS-S4上从0.481提升至0.880,证明了视觉提示的关键作用。
表3:Looking-before-Listening消融结果
| 消融设置 | AVS-S4 | AVS-MS3 | AVSS |
|---|---|---|---|
| AST | 0.481 | 0.205 | 0.158 |
| AST + TVP | 0.880 | 0.293 | 0.627 |
- Listening-before-Segmentation模块消融(表4):在AVSS数据集上,逐步加入CMC、CMPC、CMCC模块均能带来性能提升。完整模型(PCAS)达到了最佳的52.2 F-score和42.07 mIoU。其中CMPC模块贡献最为显著。
表4:Listening-before-Segmentation消融结果(AVSS数据集)
| 消融设置 | CMC | CMPC | CMCC | F-score | mIoU |
|---|---|---|---|---|---|
| w/o CMC, CMPC & CMPC | 0.367 | 25.318 | |||
| w/o CMC & CMPC | ✓ | 0.453 | 35.386 | ||
| w/o CMC & CMCC | ✓ | 0.477 | 37.485 | ||
| w/o CMPC & CMCC | ✓ | ✓ | 0.458 | 35.623 | |
| w/o CMPC | ✓ | ✓ | 0.484 | 38.158 | |
| w/o CMCC | ✓ | ✓ | 0.500 | 39.506 | |
| w/o CMC | ✓ | ✓ | 0.480 | 37.785 | |
| PCAS | ✓ | ✓ | ✓ | 0.522 | 42.074 |
可视化结果:
- 特征可视化(图3):t-SNE图显示,未经CMC对齐时,不同模态(
v_cls,v_sem,a_sem)的特征分布在不同区域;经CMC对齐后,同类别的多模态特征聚集在一起,证明了CMC在全局语义对齐上的有效性。 - 案例研究(图4 & 图5):
图4显示,与WS-AVS等基线方法相比,PCAS生成的掩码在物体边界(如人的肩膀、猎豹的耳朵和腿)上更准确、更完整。
图5展示了PCAS在更复杂的多物体AVSS场景中的表现,能够将不同的音频类别映射到对应的图像区域。
⚖️ 评分理由
- 学术质量:6.0/7:创新性好,提出新任务和新模块(TVP、渐进式对齐);技术路线正确,实验设计合理,包含充分的对比和消融实验,结果可信。扣分在于:作为首篇WSAVSS论文,与之直接对比的强基线较少;部分训练超参数和实现细节缺失,影响技术深度的评判。
- 选题价值:1.5/2:选题前沿(弱监督音视频理解)且目标明确(降低标注成本),具有较好的理论意义和实际应用潜力,对音视频、多模态学习社区有参考价值。但任务本身仍相对小众。
- 开源与复现加成:-0.5/1:论文未开源任何代码、模型或提供详细的复现实操指��(如完整训练脚本、配置文件),这是重大缺陷,严重阻碍了社区验证和跟进。
🔗 开源详情
论文中未提及任何开源计划、代码仓库链接、预训练模型权重或数据集获取方式。也未提供在线演示(Demo)。虽然文中提到了依赖的基线方法(如AST)和工具(如Dense CRF),但并未给出其具体使用的开源实现版本。因此,复现该工作需要读者自行实现所有模块并调试训练流程,门槛较高。