📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation

#音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示

✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习

学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中

👥 作者与机构

第一作者：Chengzhi Li（北京理工大学计算机学院）
通讯作者：Ping Jian（北京理工大学计算机学院）
作者列表：Chengzhi Li（北京理工大学计算机学院）、Heyan Huang（北京理工大学计算机学院）、Ping Jian（北京理工大学计算机学院）、Yanghao Zhou（北京理工大学计算机学院）

💡 毒舌点评

亮点：论文的“先看后听”直觉式框架设计非常巧妙，将人类感知顺序转化为模型中的“时序视觉提示”模块，有效提升了弱监督下的音频理解精度，是解决该问题的一个新颖且合理的思路。短板：作为一篇方法论论文，开源信息的完全缺失是硬伤，极大削弱了其可复现性和对社区的即时贡献，也与顶级会议推动可重复研究的目标背道而驰。

🔗 开源详情

论文中未提及任何开源计划、代码仓库链接、预训练模型权重或数据集获取方式。也未提供在线演示（Demo）。虽然文中提到了依赖的基线方法（如AST）和工具（如Dense CRF），但并未给出其具体使用的开源实现版本。因此，复现该工作需要读者自行实现所有模块并调试训练流程，门槛较高。

📌 核心摘要

本文旨在解决音视频语义分割（AVSS）任务中标注成本高昂的问题。为此，作者首次提出了弱监督音视频语义分割（WSAVSS）任务，仅使用视频级标签训练模型，以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐（PCAS）框架，其核心包含两个模块：1）“先看后听” 模块，利用视觉特征作为提示来增强帧级音频理解；2）“先听后分割” 模块，通过实例级和令牌级的渐进式对比学习，实现从粗到细的跨模态对齐。与已有方法相比，新在：首次定义WSAVSS任务；首次在音视频分割中引入“视觉提示”来指导音频理解；设计了新颖的渐进式跨模态对比学习框架。实验结果显示，在弱监督设置下，PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线（例如，在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU）。在更难的AVSS子集上，PCAS甚至达到了与全监督方法相竞争的性能（52.2 F-score， 42.07 mIoU）。其实际意义在于能够以低成本获取高质量的音视频语义分割数据，推动该技术的应用。主要局限性在于论文未开源代码，部分训练细节不完整，且实验主要在AVSS相关数据集上进行，泛化性有待进一步验证。

关键实验结果表格

表1：弱监督方法在AVS-S4和AVS-MS3上的性能对比

方法	主干网络	AVS-S4 F-score	AVS-S4 mIoU	AVS-MS3 F-score	AVS-MS3 mIoU
AVS (ws) [3]	ResNet-50	24.99	12.63	15.72	8.76
CAM [11]	ResNet-50	27.88	19.26	19.83	12.65
EZ-VSL [12]	ResNet-50	35.70	29.40	27.31	23.58
C2AM [13]	ResNet-50	36.55	30.87	29.58	25.33
WS-AVS [10]	ResNet-50	51.76	34.13	46.87	30.85
PCAS (Ours)	ResNet-50	68.5	56.41	51.7	45.76
PCAS (Ours)	ViT-base	74.2	60.50	60.0	46.04

表2：与全监督方法在AVS-Semantic上的性能对比

训练设置	方法	主干网络	F-score	mIoU
全监督	COMBO [6]	PVT-v2	46.1	42.1
弱监督	PCAS (Ours)	PVT-v2	44.6	36.30
弱监督	PCAS (Ours)	ViT-base	52.2	42.07

🏗️ 模型架构

PCAS的整体架构（如图1所示）旨在模拟“看-听-分割”的感知过程，分为“Looking-before-Listening”和“Listening-before-Segmentation”两大阶段。

图1: 模型架构总览

Looking-before-Listening (表示学习阶段)：
- 输入：一帧视频图像和对应的一段音频（转换为梅尔频谱）。
- 视觉编码器（ViT）：处理视频帧，输出三部分特征：全局分类令牌 v_cls、语义令牌 v_sem（池化后的patch特征）以及所有patch令牌 v_th。
- 音频编码器（如AST）：处理音频，但其输入序列被增强。它接收原始的音频令牌，并顺序插入来自对应视频帧的视觉语义令牌 v_sem 作为提示令牌（Prompt Tokens）。
- 时序视觉提示（TVP）：这是本模块的核心。通过将 v_sem 作为提示注入音频序列，模型被强制在理解音频时“先看”视觉线索，从而获得更精确的帧级音频理解能力。
- 输出：增强后的音频编码器输出一个语义令牌 a_sem，代表经过视觉引导的音频理解结果。
Listening-before-Segmentation (对齐与分割阶段)：
- 输入：来自上一阶段的视觉令牌 v_cls, v_sem, v_th 和音频令牌 a_sem。
- 跨模态对比（CMC）：这是一个实例级（全局）对比学习模块。它计算 a_sem、v_sem 和 v_cls 两两之间的余弦相似度，并使用视频级标签构建监督对比损失（公式1），将不同模态的全局语义特征拉近到共享空间。这相当于“先听”懂音频的全局类别。
- 令牌级对比（CMPC & CMCC）：这是细粒度对齐模块，利用CMC生成的相似度矩阵作为伪标签。
  - CMPC (图2)：计算每个视觉patch令牌 v_th 与音频语义令牌 a_sem 的相似度，生成patch级的正负标签，然后进行对比学习，迫使模型将发声区域的视觉特征与音频特征对齐。
  - CMCC：对比全局分类令牌 v_cls 与局部裁剪分类令牌，鼓励全局令牌关注发声区域。
- 分割头：经过充分的“听”之后，模型利用对齐后的特征，结合类激活映射（CAM）生成伪标签，训练一个分割头（Segment Head）来输出最终的语义分割掩码（Seg. Mask）。

💡 核心创新点

定义新任务WSAVSS：首次明确提出使用视频级标签进行音视频语义分割的任务，旨在解决AVSS标注成本过高的问题，为该领域开辟了新的研究方向。
提出“时序视觉提示”（TVP）机制：受人类“先看后听”感知顺序启发，创造性地将视觉特征作为提示令牌插入音频编码过程，有效增强了弱监督条件下模型对帧级音频事件的定位和理解能力。
设计渐进式跨模态对比对齐框架：结合实例级（CMC）和令牌级（CMPC、CMCC）对比学习，实现了从粗（全局类别）到细（像素级区域）的渐进式跨模态语义对齐，确保模型在分割前已充分理解音视频内容。
在弱监督下取得与全监督方法可比的性能：在AVSS数据集的子集上，PCAS（ViT-base）的性能（42.07 mIoU）超越了大多数全监督方法，展示了该弱监督范式的巨大潜力。

🔬 细节详述

训练数据：
- 数据集：AVS数据集（包括AVS-S4, AVS-MS3, AVS-Semantic子集）。论文未提及具体样本数量。
- 预处理：视频帧调整为 10×3×448×448 (AVSS子集) 或 5×3×224×224 (其他)。音频统一裁剪为10秒，并转换为对数梅尔滤波器组（fbank）特征。
损失函数：总损失由多个部分组成（论文未明确给出权重）：
- CMC损失：基于视频级标签的跨模态对比交叉熵损失（公式1）。
- CMPC损失：基于patch级伪标签的对比损失（公式2）。
- CMCC损失：基于局部-全局分类令牌对比的InfoNCE损失（公式3）。
- 分割损失：使用CAM生成的伪标签监督分割头，具体损失函数未说明（通常为交叉熵损失）。
训练策略：
- 优化器：Adam。
- 训练轮数：9个epoch，其中2个epoch为warmup。
- 学习率：论文提及两个模块的学习率分别为0.0012和0.0006，但未说明对应模块。
- 其他：未说明batch size、学习率调度策略（如衰减）。
关键超参数：
- 主干网络：ResNet-50, ViT-base, PVT-v2。
- 温度参数τ：在CMCC损失（公式3）中使用，具体数值未说明。
- 阈值：在CMPC中用于分配正负标签，具体数值未说明。
训练硬件：论文中未提及。
推理细节：使用Dense CRF对预测掩码进行后处理以细化边界。其他推理设置未说明。
正则化/技巧：论文中未提及如Dropout、数据增强等具体技巧。

📊 实验结果

主要对比实验：

与弱监督基线在AVS-S4和AVS-MS3上的对比（表1）：PCAS（Ours）在F-score和mIoU上全面超越了所有列出的弱监督方法。以ViT-base为例，在AVS-S4上比最强基线WS-AVS高出22.44分（F-score）和26.37分（mIoU），提升幅度巨大。
与全监督方法在AVS-Semantic上的对比（表2）：这是一个更具挑战性的设置。弱监督的PCAS（PVT-v2）性能与部分全监督方法（如AVS）接近，而PCAS（ViT-base）的F-score和mIoU甚至超越了所有列出的全监督方法，取得了竞争性的结果。

消融实验：

Looking-before-Listening模块消融（表3）：加入TVP（即使用视觉提示）后，音频分类任务的准确率（以F1等指标衡量）在所有数据集上均大幅提升，例如在AVS-S4上从0.481提升至0.880，证明了视觉提示的关键作用。

表3：Looking-before-Listening消融结果

消融设置	AVS-S4	AVS-MS3	AVSS
AST	0.481	0.205	0.158
AST + TVP	0.880	0.293	0.627

Listening-before-Segmentation模块消融（表4）：在AVSS数据集上，逐步加入CMC、CMPC、CMCC模块均能带来性能提升。完整模型（PCAS）达到了最佳的52.2 F-score和42.07 mIoU。其中CMPC模块贡献最为显著。

表4：Listening-before-Segmentation消融结果（AVSS数据集）

消融设置	CMC	CMPC	CMCC	F-score	mIoU
w/o CMC, CMPC & CMPC				0.367	25.318
w/o CMC & CMPC	✓			0.453	35.386
w/o CMC & CMCC		✓		0.477	37.485
w/o CMPC & CMCC	✓		✓	0.458	35.623
w/o CMPC	✓		✓	0.484	38.158
w/o CMCC	✓	✓		0.500	39.506
w/o CMC		✓	✓	0.480	37.785
PCAS	✓	✓	✓	0.522	42.074

可视化结果：

特征可视化（图3）：t-SNE图显示，未经CMC对齐时，不同模态（v_cls, v_sem, a_sem）的特征分布在不同区域；经CMC对齐后，同类别的多模态特征聚集在一起，证明了CMC在全局语义对齐上的有效性。
案例研究（图4 & 图5）：图4显示，与WS-AVS等基线方法相比，PCAS生成的掩码在物体边界（如人的肩膀、猎豹的耳朵和腿）上更准确、更完整。图5展示了PCAS在更复杂的多物体AVSS场景中的表现，能够将不同的音频类别映射到对应的图像区域。

⚖️ 评分理由

学术质量：6.0/7：创新性好，提出新任务和新模块（TVP、渐进式对齐）；技术路线正确，实验设计合理，包含充分的对比和消融实验，结果可信。扣分在于：作为首篇WSAVSS论文，与之直接对比的强基线较少；部分训练超参数和实现细节缺失，影响技术深度的评判。
选题价值：1.5/2：选题前沿（弱监督音视频理解）且目标明确（降低标注成本），具有较好的理论意义和实际应用潜力，对音视频、多模态学习社区有参考价值。但任务本身仍相对小众。
开源与复现加成：-0.5/1：论文未开源任何代码、模型或提供详细的复现实操指��（如完整训练脚本、配置文件），这是重大缺陷，严重阻碍了社区验证和跟进。

← 返回 ICASSP 2026 论文分析

📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文