📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing
#音频事件检测 #多模态模型 #跨模态 #弱监督学习
📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv
学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度 高
👥 作者与机构
- 第一作者:Huilai Li(北京邮电大学智能工程与自动化学院)
- 通讯作者:Jianqin Yin(北京邮电大学智能工程与自动化学院)
- 作者列表:
- Huilai Li(北京邮电大学智能工程与自动化学院)
- Xiaomeng Di(国家电网有限公司)
- Ying Xing(北京邮电大学智能工程与自动化学院)
- Yonghao Dang(北京邮电大学人工智能学院)
- Yiming Wang(北京邮电大学智能工程与自动化学院)
- Jianqin Yin(北京邮电大学智能工程与自动化学院,通讯作者)
💡 毒舌点评
这篇论文精准地切中了现有弱监督音视频视频解析(AVVP)方法的一个痛点:在追求多模态融合时,反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手,试图“补课”增强单模态表示,思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果,尤其是伪标签质量的提升令人印象深刻。然而,其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型(CLIP/CLAP)特征质量的启发式增强手段,阈值敏感且易引入噪声(尤其在视觉模态),其“创新”更偏向于针对特定数据集的精巧工程调优,而非对弱监督学习本身方法论的突破。整体看,这是一篇扎实、完整的系统性工作,但理论深度和方法的普适性有提升空间。
📌 核心摘要
- 要解决的问题:弱监督音视频视频解析(AVVP)任务中,现有方法主要沿着两个方向发展:生成高质量伪标签以提供更细粒度的跨模态监督,或设计更复杂的AVVP模型架构以增强多模态融合。然而,由于音频和视觉信号通常未对齐,准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合,而未能充分引导和保留单模态语义,导致生成的伪标签噪声较大,最终视频解析性能次优。
- 方法核心:提出增强单模态表示(EAR)框架,旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段,引入基于单模态特征相似性的标签迁移方法,将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注,为生成器提供显式的单模态监督;同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段,采用软约束方式,设计非对称音/视觉驱动融合模块和多事件关系建模模块,在融合过程中保护单模态语义信息。
- 与已有方法相比新在哪里:明确将“增强单模态表示”作为提升AVVP的核心目标,而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注,这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。
- 主要实验结果:
- 在AVVP基准LLP数据集上,EAR在伪标签生成和最终解析性能上均达到SOTA。
- 使用VGGish+ResNet特征时,整体平均性能(Event Level Avg.)比当前SOTA方法UWAV高0.9%,达到63.7%;使用CLIP+CLAP特征时,高1.2%,达到67.4%。
- 生成的伪标签质量(测试集平均性能)比VALOR和UWAV分别高出3.8%和2.9%。
- 大量的消融实验验证了标签迁移(LM)、非对称融合(AMDF)、多事件关系建模(ERM)以及各损失函数的有效性。
- 实际意义:为弱监督时序定位任务(如AVVP、动作定位)提供了一种新的视角,即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值,可作为未来AVVP研究的强基线。
- 主要局限性:基于相似性的标签迁移是启发式的,其有效性高度依赖于预训练模型(CLIP/CLAP)的特征质量和相似度阈值的设定。特别是在视觉模态,相似的视觉片段可能包含不同事件,导致迁移的标签引入噪声,这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及模型权重链接。
- 数据集:
- UnAV-100:用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接,但可通过其原始论文[13]中提供的项目页面获取信息。
- LLP (Look, Listen, and Parse):用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接,但该数据集为AVVP任务的标准评测集,可通过其原始论文[46]获取信息。
- Demo:论文中未提及。
- 复现材料:论文的补充材料(Supplementary Material) 提供了训练配置、损失函数细节、参数消融实验结果等信息,可用于复现。论文中提到生成的细粒度伪标签将公开发布,但未提供发布时的具体链接。
- 论文中引用的开源项目:
- CLIP:用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接: https://github.com/openai/CLIP
- CLAP:用于提取音频和文本特征的预训练模型。论文中给出了其论文链接(作为其开源实现的间接指代): https://arxiv.org/abs/2206.04769
- ResNet-152:用于提取视觉特征的预训练骨干网络。
- 3D ResNet:用于提取视觉特征的预训练骨干网络。
- VGGish:用于提取音频特征的预训练骨干网络。
🏗️ 方法概述和架构
图2:EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练,Stage 2在目标数据集(LLP)上生成伪标签,Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。
整体流程概述 本文提出的EAR框架是一个多阶段流水线系统,旨在同时优化弱监督AVVP任务中的伪标签生成和最终解析模型。整个过程分为三个主要阶段:(1) 伪标签生成器预训练:利用带有密集音视频事件定位标签的大规模DAVE数据集(UnAV-100),通过提出的新方法预训练一个能够感知单模态和多模态事件的伪标签生成器;(2) 目标数据集伪标签生成:将预训练好的生成器冻结,应用于仅有视频级标签的目标AVVP数据集(LLP),生成细粒度的、模态特定的段级伪标签;(3) 弱监督AVVP模型训练:使用生成的伪标签和提出的软约束架构,在目标数据集上训练最终的AVVP模型。
主要组件/模块详解
相似性单模态标签迁移模块:
- 功能:在Stage 1的预训练数据准备阶段,为单模态(音频/视觉)事件生成监督标签。其核心思想是:在单模态特征空间中高度相似的片段,很可能包含相同的事件。
- 内部结构/实现:首先使用冻结的CLIP和CLAP模型提取DAVE数据集中T’个片段的单模态特征
G_m^p ∈ R^{T'×D'_m}(其中m∈{A,V})。然后,计算片段间特征的余弦相似度矩阵S_m^p ∈ R^{T'×T'}。通过设置阈值μ_m得到高相似度掩码M_m^p,从而得到筛选后的相似度矩阵Ŝ_m^p = M_m^p ⊙ S_m^p。接着,通过矩阵乘法Y_ms^p = Ŝ_m^p · Y_AV^p,将已有的音视频事件标签Y_AV^p ∈ R^{T'×C'}(C’为DAVE数据集事件类别数)根据相似度“迁移”或“分配”到其他片段,生成单模态标签Y_ms^p。为解决迁移过程中可能出现的重复标注问题(导致值大于1),进行了后处理:对重复标注根据其出现次数取平均,而原始标签为1的位置保持不变。最终,采用软标签,其中相似度值本身作为置信度分数,以减少预训练时的噪声。 - 输入输出:输入是单模态特征和音视频事件标签;输出是为每个片段生成的软单模态事件标签
Y_ms^p。
伪标签生成器:
- 功能:接收单模态和多模态标签监督,学习时序感知能力,最终为LLP数据集生成伪标签。
- 内部结构/实现:采用非对称时序建模架构。单模态特征
G_m^p先经过单模态Transformer块进行时序建模,得到时序感知特征G_m,t^p(公式3)。同时,静态特征G_m^p也保留。然后,将动态时序感知特征与静态特征通过逐元素乘积进行非对称组合,分别计算音视频事件概率P_AV1^p = P_V,t^p ⊙ P_A^p(公式6)和P_AV2^p = P_A,t^p ⊙ P_V^p(公式7)。最终的损失函数(公式8)同时包含对音视频事件的BCE损失和对迁移得到的单模态事件的BCE损失,并通过超参数λ_A和λ_V控制单模态监督的权重。 - 输入输出:输入是单模态特征和文本特征;输出是预测的音视频、音频、视觉事件概率。
软约束音视频视频解析模型:
- 功能:接收伪标签监督,以“软约束”方式建模单模态和多模态事件,实现最终的音频、视觉、音视频事件解析与定位。
- 内部结构/实现:包含两个关键子模块:
- 非对称音/视觉驱动融合:对输入特征进行单模态时序建模得到
F_m,t(公式10)。然后,用动态音频特征F_A,t作为查询,去关注静态视觉特征F_V中的相关信息,得到增强的音频特征F_A,t'(公式11);反之亦然(公式12)。这种非对称设计被视为一种软约束,防止一种模态的语义信息在融合时过度干扰另一种模态。 - 多事件关系建模:首先对上一步得到的特征进行交叉聚合得到音/视觉事件特征
F_AV,F_VA(公式13,14)。然后,通过多层(M层)关系建模层(MM层),交替使用卷积层和基于邻接矩阵A_i的关系矩阵R,同时建模单模态事件间(如R_A^i,R_V^i)和跨模态事件间(如R_AV^i)的依赖关系(公式15)。这也被视为一种语义层面的软约束,鼓励模型关注事件间的共现关系。
- 非对称音/视觉驱动融合:对输入特征进行单模态时序建模得到
- 输入输出:输入是音频和视觉特征;输出是最终的音频事件概率
P_A和视觉事件概率P_V,通过逻辑运算可得P_AV。
组件间的数据流与交互 数据流是单向的、分阶段的。Stage 1中,标签迁移模块生成单模态标签,与原始音视频标签一起监督伪标签生成器的训练。Stage 2中,冻结的生成器对目标数据集特征进行前向推理,输出伪标签。Stage 3中,伪标签作为监督信号,输入到软约束解析模型中,该模型内部先进行非对称特征融合,再进行多事件关系建模,最后输出预测结果用于计算损失和更新模型。各阶段模型独立,无循环反馈。
关键设计选择及动机
- 非对称架构:在伪标签生成器和解析模型中都采用“动态-静态”特征的非对称组合。动机是强化模型对经过时序建模的动态特征(更富含事件信息)的关注,同时利用静态特征作为基底,提供一种软约束,避免模态间信息的直接“硬融合”导致相互污染。
- 软约束:区别于一些方法中严格的特征解耦或多分支隔离,EAR采用更灵活的“非对称融合”和“关系建模”来施加约束。动机是在弱监督条件下,完全解耦可能损失互补信息,而软约束能在促进单模态建模的同时,保留必要的跨模态交互。
- 标签迁移用于预训练:动机是解决现有DAVE预训练数据缺乏单模态标签,导致生成器对单模态事件学习不足的问题。这是一种利用无监督相似性从强监督(音视频标签)中挖掘弱监督(单模态标签)信号的策略。
架构图/流程图 除了图2(总览图),论文中的图1(b)也直观对比了以往方法与EAR在伪标签生成器预训练和AVVP模型架构上的核心区别。以往方法在生成器预训练和模型架构中都强调跨模态直接交互或对称融合,而EAR在生成器中强调时序感知和单模态监督,在模型中强调非对称融合和关系建模,更注重单模态信息的独立建模与保护。
图1(b):对比图。左侧显示以往方法在预训练(仅有音视频事件标签)和模型架构(对称或直接的跨模态融合)上的特点;右侧显示EAR方法的特点,即在预训练中加入单模态事件标签和非对称时序建模,在模型中采用非对称驱动融合和多事件关系建模。
专业术语解释
- 弱监督音视频视频解析 (AVVP):任务要求在仅有视频级别、模态无关标签的训练数据下,识别出视频中出现的音频事件、视觉事件以及音视频事件,并定位它们的时间边界。
- 单模态事件 / 多模态事件:单模态事件指仅出现在音频(如“说话声”)或仅出现在视觉(如“汽车驶过”)中的事件;多模态(音视频)事件指同时在音频和视觉中出现且语义相关的事件(如“打网球”同时有击球声和画面)。
- 伪标签:指由模型(如预训练好的生成器)在训练阶段为数据生成的、用于监督训练的临时标签。在弱监督学习中,常用来为缺乏精细标注的数据提供监督信号。
- 软约束:指在模型设计或损失函数中施加的、相对宽松的约束条件,旨在引导模型朝着某个方向学习,而不是强制硬性地满足某种严格条件。例如,本论文中的非对称融合可以视为对模态交互的一种软约束,关系建模是对事件共现模式的一种软约束。
💡 核心创新点
- 提出增强单模态表示的统一框架:明确将“增强单模态表示”作为提升弱监督AVVP的核心目标,从伪标签生成和模型架构两个层面协同设计解决方案,这是对现有方法主要关注多模态融合或伪标签质量的思路的补充和深化。
- 基于相似性的单模态标签迁移方法:为解决预训练数据缺乏单模态标签的问题,提出一种利用单模态特征相似性将音视频事件标签迁移为单模态事件标签的启发式方法。之前局限:DAVE预训练数据仅有音视频事件标注,生成器对单模态事件学习不足,伪标签有噪声。如何起作用:通过在高相似性片段间共享标签,为生成器提供了额外的单模态监督信号。收益:消融实验显示,加入此方法(LM)能显著提升生成伪标签的质量(见表IV)。
- 非对称音/视觉驱动融合模块:在AVVP模型中设计一种非对称的交叉注意力融合结构,用一个模态的时序感知特征去查询另一个模态的原始静态特征。之前局限:传统的对称或直接融合可能让一种模态的语义信息过度干扰另一种模态。如何起作用:该模块被视为一种“软约束”,让融合过程更依赖于单模态的动态特征,保护了单模态语义。收益:消融实验表明,该模块(AMDF)比基线的对称融合结构(如HAN)性能更好(见表VIII)。
- 多事件关系建模模块:设计一个专门建模事件间(包括单模态内和跨模态)依赖关系的模块。之前局限:现有模型可能仅在特征层面融合,缺乏对高层事件共现语义的显式建模。如何起作用:通过可学习的邻接矩阵和多层交互,在语义空间中捕获如“闪电常伴雷声”这类事件关联,这也是一种约束,引导模型理解事件间的合理共现。收益:消融实验(表IX)和可视化(图4,5)证明了该模块的有效性和可解释性。
📊 实验结果
主要对比实验 论文在标准AVVP基准LLP数据集上,使用两套不同的特征提取骨干网络(VGGish+ResNet 和 CLIP+CLAP)与现有方法进行了全面对比。
表1:使用VGGish+ResNet特征的AVVP性能对比(Event Level Avg.)
| 方法 | Segment-Level Avg. | Event-Level Avg. | Overall Avg. |
|---|---|---|---|
| HAN [46] | 54.0 | 48.0 | 51.0 |
| VALOR [26] | 63.2 | 55.9 | 60.5 |
| UWAV [25] | 65.9 | 57.4 | 62.8 |
| EAR (Ours) | 66.5 | 58.5 | 63.7 |
| 表1显示,EAR在整体平均性能上优于所有基线,比次优的UWAV高出0.9个百分点。 |
表2:使用CLIP+CLAP特征的AVVP性能对比(Event Level Avg.)
| 方法 | Segment-Level Avg. | Event-Level Avg. | Overall Avg. |
|---|---|---|---|
| TeMTG [5] | 69.8 | 62.2 | 66.1 |
| UWAV [25] | 68.9 | 62.4 | 66.2 |
| EAR (Ours) | 69.8 | 63.9 | 67.4 |
| 表2显示,在使用更强特征时,EAR的优势依然明显,整体平均性能比次优的UWAV高出1.2个百分点。 |
伪标签质量评估 表3:在LLP测试集上生成的伪标签准确度对比
| 方法 | Segment-Level Avg. | Event-Level Avg. | Overall Avg. |
|---|---|---|---|
| VALOR [26] | 72.0 | 68.0 | 69.4 |
| UWAV [25] | 72.8 | 69.0 | 70.3 |
| EAR (Ours) | 75.1 | 72.9 | 73.2 |
| 表3显示,EAR生成的伪标签质量显著优于现有方法,整体平均性能比UWAV高出2.9个百分点。 |
关键消融实验 表4:伪标签生成器消融研究(VGGish+ResNet特征,Overall Avg.)
| 方法 | Overall Avg. |
|---|---|
| UWAV生成器 | 70.3 |
| UWAV生成器 + LM | 70.8 |
| EAR w/o LM (仅非对称结构) | 72.1 |
| EAR (完整) | 73.2 |
| 表4显示,单独使用非对称结构(EAR w/o LM)比UWAV基线提升1.8个百分点;再加入标签迁移(LM)后,性能进一步提升1.1个百分点,证明了两个创新点各自的有效性和协同作用。 |
表7:AVVP模型软约束模块消融研究(VGGish+ResNet特征,Event Level Avg.)
| AMDF | ERM | Overall Avg. |
|---|---|---|
| × | ✓ | 62.3 |
| ✓ | × | 62.8 |
| ✓ | ✓ | 63.7 |
| 表7显示,同时包含非对称融合(AMDF)和多事件关系建模(ERM)的完整模型性能最佳,比去除任一模块的版本高出0.9-1.4个百分点。 |
表8:AMDF模块不同结构对比研究(VGGish+ResNet特征,Overall Avg.)
| Method | Overall Avg. |
|---|---|
| MSA+MCA | 62.7 |
| HAN | 63.0 |
| AMDF(Ours) | 63.7 |
| 表8显示,提出的AMDF结构优于其他对比结构。 |
表9:ERM模块不同结构对比研究(VGGish+ResNet特征,Overall Avg.)
| Method | Overall Avg. |
|---|---|
| Attention | 62.1 |
| ERM A/V-AV | 63.4 |
| ERM w/o A/V | 62.8 |
| ERM w/o AV | 63.1 |
| ERM (Ours) | 63.7 |
| 表9显示,提出的ERM结构(同时建模单模态和跨模态事件关系)性能最佳。 |
图表结果描述
图3:定性比较。左列示例中,EAR正确检测到UWAV漏检的视觉事件“汽车”(蓝色框)。右列示例中,EAR的检测结果在时间和类别上都更接近真实值(GT),而UWAV漏检了多个事件。这直观展示了EAR在单模态事件感知上的优势。
图4:学习到的单模态事件依赖可视化。图中显示,音频事件如“Acoustic_guitar”与“Cheering”、“Violin_fiddle”有强关联,而“Clapping”与“Chainsaw”关联最弱,这符合常识。视觉事件间的关联普遍较弱。这验证了多事件关系建模模块能学习到合理的语义关系。
🔬 细节详述
- 训练数据:
- 预训练数据集:UnAV-100 (DAVE),包含10,790个视频,总时长超126小时,100个事件类别,30,059个音视频事件。
- 目标数据集:Look, Listen, and Parse (LLP),包含11,849个视频片段(每个10秒),25个类别。训练集仅提供视频级标签,验证集和测试集提供段级、模态特定标签用于评估。
- 损失函数:
- 预训练损失 (公式8):
L_pre = BCE(P_AV1^p, Y_AV^p) + BCE(P_AV2^p, Y_AV^p) + λ_A * BCE(P_A,t^p, Y_As^p) + λ_V * BCE(P_V,t^p, Y_Vs^p)。包含两个音视频事件损失项和两个单模态事件损失项,λ_A=0.05, λ_V=0.15。 - AVVP训练损失 (公式16):
L = L_mix^A + L_mix^V + L_soft^A + L_soft^V + L_video。其中L_soft是带类别不平衡加权的段级伪标签监督BCE损失;L_mix是不确定性感知的特征混合正则化损失;L_video是视频级标签BCE损失。具体公式见附录S-VI-B。
- 预训练损失 (公式8):
- 训练策略:
- 优化器:AdamW。
- 批大小:64。
- 训练轮数:80 epochs,其中前10 epochs为warmup。
- 学习率调度:余弦退火。峰值学习率
1e-4,最小学习率伪标签生成器为1e-5,AVVP模型为5e-6。
- 关键超参数:
- 相似性阈值:
μ_A=0.98,μ_V=0.95。 - 多事件关系建模层数:
M=3。 - 混合正则化Beta分布参数
α:未在正文中明确给出具体值,需查附录或代码。 - 类别不平衡加权超参数
W:未在正文中明确给出具体值,需查附录或代码。
- 相似性阈值:
- 训练硬件:单块NVIDIA RTX 3090 GPU(24GB显存)。
- 推理细节:未说明特殊推理策略,应为标准前向传播。
- 正则化技巧:使用了不确定性感知的特征混合(Uncertainty-aware Mixup)作为自监督正则化。
⚖️ 评分理由
创新性:2.0/3 论文的问题定位准确,指出了现有AVVP方法忽视单模态表示的关键缺陷。提出的统一框架“增强单模态表示”具有清晰的新颖性。具体方法上,基于相似性的标签迁移和非对称软约束融合并非从零提出的全新技术,但针对AVVP任务的组合和应用具有洞察力和区分度。创新点成立,但核心的标签迁移方法本质上是启发式的,理论深度有限。
技术严谨性:1.5/2 方法设计逻辑清晰,数学表述基本严谨。标签迁移模块有明确的数学公式(1-2)和详细的后处理描述。非对称融合和关系建模也有相应的注意力机制和邻接矩阵公式。然而,存在以下问题:1) 基于全局特征相似性的标签迁移是启发式方法,其噪声控制高度依赖阈值设定,论文承认了视觉模态的噪声问题,但未提出更鲁棒的机制;2) 多事件关系建模中的邻接矩阵学习过程描述略简,未充分讨论其收敛性与稳定性。
实验充分性:1.6/2 实验非常充分,是论文的一大亮点。1) 基线全面,涵盖了几乎所有主流AVVP方法。2) 消融实验系统且详细,分别验证了伪标签生成器(表IV, V, VI)和AVVP模型(表VII, VIII, IX)中各组件的有效性。3) 对生成的伪标签本身进行了独立评估(表III, S-XI),提供了直接证据。4) 进行了参数敏感性分析(表S-XVIII, S-XIX, S-XX)。主要不足在于所有实验仅在单一基准LLP数据集上进行,缺乏在更复杂场景(如长视频、多事件密集重叠)下的泛化性验证。
清晰度:0.7/1
论文整体写作清晰,组织结构合理。图表(特别是图2和图1b)有效地辅助了方法理解。符号定义基本一致。但存在一些细节缺失:1) 关键公式(如公式15中的R操作)的实现细节(如具体卷积核大小、邻接矩阵初始化与更新方式)未在正文展开;2) 混合正则化的超参数 α 和类别不平衡权重超参数 W 未在正文给出;3) 部分缩略语(如MMIL)首次出现时未解释。这些细节可能需要查阅附录或代码才能完全复现。
影响力:0.8/1 该工作对AVVP这一特定垂直领域有明确的推动作用,提出的“单模态增强”思路可能启发其他弱监督时序定位任务。生成的高质量伪标签具有开源潜力,可作为后续研究的基线。然而,AVVP任务本身相对小众,应用场景(视频理解、人机交互)的直接商业价值有限,因此影响力的广度受到一定限制。
可复现性:0.4/1
论文提供了相当多的训练细节和超参数设置,并在附录中给出了补充实验。主要缺陷是:1) 未提及代码开源计划,这严重影响了可复现性;2) 关键超参数(如 α, W)未完全公开;3) 依赖CLIP/CLAP等外部模型,但未提供��征提取脚本或预处理细节。在当前状态下,完全复现该工作存在较大挑战。
🚨 局限与问题
论文明确承认的局限:
- 基于相似性的标签迁移会引入噪声,特别是在视觉模态。因为CLIP和CLAP编码器关注全局信息,对细节不敏感,导致相似的视觉片段可能包含不同事件。作者认为使用具有多尺度分析能力的编码器可能缓解此问题。
- EAR在视觉模态上的性能提升不如音频模态明显,归因于视觉标签迁移带来的噪声干扰。
审稿人发现的潜在问题:
- 标签迁移方法的鲁棒性与理论支撑:该方法是启发式的,其效果高度依赖于相似度阈值
μ_m的设定和预训练特征的质量。虽然进行了超参数搜索(表S-XVIII),但缺乏更深入的理论分析或更鲁棒的噪声过滤机制来评估其可靠性边界。对于语义模糊或特征区分度低的事件,迁移错误标签的风险较高。 - 模型架构的比较与简化空间:非对称融合和多事件关系建模增加了模型的复杂性。虽然消融实验证明了其有效性,但并未与其他更简单的、旨在增强单模态表示的基线(例如,对单模态分支施加更强的正则化或对比学习)进行充分比较,以证明当前架构复杂性的必要性。
- 实验评估的局限性:所有实验均在单一基准LLP数据集上进行。AVVP领域缺乏更广泛、更多样的测试基准,这使得结论的泛化性难以完全验证。论文未在更复杂的场景(如长视频、多事件密集重叠)中测试方法的鲁棒性。
- 对强特征的依赖:在使用CLIP+CLAP特征时性能大幅提升,这表明EAR的性能上限在很大程度上被上游基础模型所设定。论文并未探讨在更轻量或传统特征(如VGGish+ResNet)下,这些软约束模块的增益是否依然显著,以及方法对特征提取器选择的敏感性。
- 结论的强度:论文声称EAR在伪标签生成和AVVP性能上“均达到SOTA”,这一结论在LLP数据集上成立,但需要更广泛的实验来支持其泛化能力。此外,将“增强单模态表示”作为AVVP性能提升的核心论断,目前主要基于实验证据,缺乏更深入的理论分析。