弱监督学习

EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing

📄 EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing #音频事件检测 #多模态模型 #跨模态 #弱监督学习 📝 5.8/10 | 前25% | #音频事件检测 | #多模态模型 | #跨模态 #弱监督学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Huilai Li（北京邮电大学智能工程与自动化学院）通讯作者：Jianqin Yin（北京邮电大学智能工程与自动化学院）作者列表： Huilai Li（北京邮电大学智能工程与自动化学院） Xiaomeng Di（国家电网有限公司） Ying Xing（北京邮电大学智能工程与自动化学院） Yonghao Dang（北京邮电大学人工智能学院） Yiming Wang（北京邮电大学智能工程与自动化学院） Jianqin Yin（北京邮电大学智能工程与自动化学院，通讯作者） 💡 毒舌点评这篇论文精准地切中了现有弱监督音视频视频解析（AVVP）方法的一个痛点：在追求多模态融合时，反而可能损害了对单模态事件本身准确感知的能力。提出的EAR框架从伪标签生成器预训练和最终解析模型两个阶段入手，试图“补课”增强单模态表示，思路清晰且有实效。实验上确实在AVVP基准上取得了当前最佳结果，尤其是伪标签质量的提升令人印象深刻。然而，其核心的“基于相似性的标签迁移”本质上是一种依赖外部预训练模型（CLIP/CLAP）特征质量的启发式增强手段，阈值敏感且易引入噪声（尤其在视觉模态），其“创新”更偏向于针对特定数据集的精巧工程调优，而非对弱监督学习本身方法论的突破。整体看，这是一篇扎实、完整的系统性工作，但理论深度和方法的普适性有提升空间。 📌 核心摘要要解决的问题：弱监督音视频视频解析（AVVP）任务中，现有方法主要沿着两个方向发展：生成高质量伪标签以提供更细粒度的跨模态监督，或设计更复杂的AVVP模型架构以增强多模态融合。然而，由于音频和视觉信号通常未对齐，准确解析视频根本上依赖于对单模态事件的精确感知。这些多模态聚焦的策略过度强调跨模态融合，而未能充分引导和保留单模态语义，导致生成的伪标签噪声较大，最终视频解析性能次优。方法核心：提出增强单模态表示（EAR）框架，旨在同时优化伪标签生成器和AVVP模型。(1) 在伪标签生成器预训练阶段，引入基于单模态特征相似性的标签迁移方法，将大规模DAVE数据集上的音视频事件标注转化为伪单模态事件标注，为生成器提供显式的单模态监督；同时采用非对称时序建模架构以更好地聚焦于单模态事件的动态关系。(2) 在AVVP模型训练阶段，采用软约束方式，设计非对称音/视觉驱动融合模块和多事件关系建模模块，在融合过程中保护单模态语义信息。与已有方法相比新在哪里：明确将“增强单模态表示”作为提升AVVP的核心目标，而非仅仅关注多模态融合或跨模态对齐。具体的实现手段——基于相似性的标签迁移和软约束模型架构——旨在更协调地平衡单模态与多模态事件的关注，这与以往主要关注对称融合或忽略单模态独立建模的方法有本质区别。主要实验结果：在AVVP基准LLP数据集上，EAR在伪标签生成和最终解析性能上均达到SOTA。使用VGGish+ResNet特征时，整体平均性能（Event Level Avg.）比当前SOTA方法UWAV高0.9%，达到63.7%；使用CLIP+CLAP特征时，高1.2%，达到67.4%。生成的伪标签质量（测试集平均性能）比VALOR和UWAV分别高出3.8%和2.9%。大量的消融实验验证了标签迁移（LM）、非对称融合（AMDF）、多事件关系建模（ERM）以及各损失函数的有效性。实际意义：为弱监督时序定位任务（如AVVP、动作定位）提供了一种新的视角，即通过显式增强单模态表示来提升整体性能。其生成的高质量伪标签具有公开共享的价值，可作为未来AVVP研究的强基线。主要局限性：基于相似性的标签迁移是启发式的，其有效性高度依赖于预训练模型（CLIP/CLAP）的特征质量和相似度阈值的设定。特别是在视觉模态，相似的视觉片段可能包含不同事件，导致迁移的标签引入噪声，这解释了为何论文中视觉模态的性能提升不如音频模态明显。方法性能上限受上游预训练模型特征提取能力制约。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集： UnAV-100：用于伪标签生成器预训练的密集音视频事件定位数据集。论文中未提供直接下载链接，但可通过其原始论文[13]中提供的项目页面获取信息。 LLP (Look, Listen, and Parse)：用于评估音视频视频解析性能的基准数据集。论文中未提供直接下载链接，但该数据集为AVVP任务的标准评测集，可通过其原始论文[46]获取信息。 Demo：论文中未提及。复现材料：论文的补充材料（Supplementary Material）提供了训练配置、损失函数细节、参数消融实验结果等信息，可用于复现。论文中提到生成的细粒度伪标签将公开发布，但未提供发布时的具体链接。论文中引用的开源项目： CLIP：用于提取视觉和文本特征的预训练模型。论文中给出了其GitHub仓库链接： https://github.com/openai/CLIP CLAP：用于提取音频和文本特征的预训练模型。论文中给出了其论文链接（作为其开源实现的间接指代）： https://arxiv.org/abs/2206.04769 ResNet-152：用于提取视觉特征的预训练骨干网络。 3D ResNet：用于提取视觉特征的预训练骨干网络。 VGGish：用于提取音频特征的预训练骨干网络。 🏗️ 方法概述和架构图2：EAR框架总览。Stage 1利用DAVE数据集进行伪标签生成器的预训练，Stage 2在目标数据集（LLP）上生成伪标签，Stage 3使用生成的伪标签和软约束模型进行AVVP训练。图中清晰展示了数据从原始视频到特征提取、标签迁移、伪标签生成、再到最终解析模型训练的完整流水线。 ...

DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content

📄 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content #多模态模型 #音频事件检测 #对比学习 #知识蒸馏 #弱监督学习 🔥 8.0/10 | 前25% | #音频事件检测 | #对比学习 #知识蒸馏 | #多模态模型 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Song Xiao (中国科学技术大学，北京电子科学和技术学院) 通讯作者：Xu Ji (中国科学技术大学) 作者列表：Song Xiao（中国科学技术大学，北京电子科学和技术学院）、Xu Ji（中国科学技术大学，北京电子科学和技术学院）、Haodong Yan（西安电子科技大学）、Xinyue Yu（中国科学技术大学） 💡 毒舌点评论文的核心亮点在于其双分支自蒸馏架构，巧妙地利用一个更稳定的视觉分支来“教导”多模态分支，有效缓解了弱监督场景下音频噪声和模态不平衡问题。然而，作为一篇顶会论文，其核心方法（瓶颈融合、混合头部注意力）的理论深度和新意略显不足，更多是工程技巧的有效组合与验证，对比学习部分的马氏距离度量也相对常规。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/Sphnix-box/DBFT-SD。模型权重：论文中未提及是否提供预训练模型权重下载。数据集：论文中使用了XD-Violence数据集，但未说明其获取方式或是否公开提供。 Demo：论文中未提及提供在线演示。复现材料：论文提供了部分训练细节（优化器、学习率、批大小、epoch数、硬件、Dropout率、关键自蒸馏超参数）。论文中引用的开源项目：未明确列出依赖的开源工具或模型，但特征提取使用了I3D/CLIP (视觉) 和 VGGish (音频)。 📌 核心摘要本文针对弱监督下大规模在线音视频敏感内容（如暴力、色情）检测的挑战，提出了动态瓶颈融合Transformer（DBFT）及其自蒸馏变体DBFT-SD。要解决的核心问题是现有方法中多模态信息融合效率低、弱监督标签噪声大以及模态间不平衡导致性能受限。方法核心是：1）在DBFT中，设计了包含动态路由的混合头部注意力机制和瓶颈融合Transformer，实现自适应的模态内与模态间特征聚合；2）在DBFT-SD中，引入一个仅使用视觉特征的辅助分支，通过基于余弦调度器的权重移动平均自蒸馏，将视觉分支的稳定知识迁移至多模态分支，并结合基于马氏距离的对比学习来增强关键帧的判别力。与已有方法相比，新在提出了整合动态注意力、瓶颈融合和自蒸馏的端到端多模态检测框架，能更好地处理噪声和模态不平衡。主要实验在XD-Violence数据集上进行，DBFT-SD达到了85.9%的平均精度（AP），超越了之前最优的多模态方法BN-WVAD（85.26% AP）和视觉方法VadCLIP（84.51% AP）。实际意义在于为社交媒体、视频平台的内容安全审核提供了更高效准确的自动化工具。主要局限性是对比实验仅在一个标准数据集上进行，缺乏更多样化或更具挑战性场景的验证。 ...

Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

📄 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning #音频质量评估 #弱监督学习 #度量学习 #音频大模型 #LoRA微调 ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者：Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表：Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) （†注：International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构） 💡 毒舌点评亮点：成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务，并证明了其在泛化到音源分离等未见过失真上的强大潜力，结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。短板：整个训练完全依赖非公开的内部音乐数据集，复现难度极高；虽然使用了弱监督标签，但核心标签仍来自ViSQOL，本质上是在“蒸馏”一个已有指标的判断，其能否真正超越“老师”在未见场景的极限存疑。 ...

Is Phase Really Needed for Weakly-Supervised Dereverberation?

📄 Is Phase Really Needed for Weakly-Supervised Dereverberation? #语音增强 #弱监督学习 #信号处理 #时频分析 #自监督学习 ✅ 6.0/10 | 前50% | #语音增强 | #自监督学习 | #弱监督学习 #信号处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Marius Rodrigues（LTCI, Télécom Paris, Institut Polytechnique de Paris）通讯作者：未说明作者列表：Marius Rodrigues（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Louis Bahrman（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Roland Badeau（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Gaël Richard（LTCI, Télécom Paris, Institut Polytechnique de Paris） 💡 毒舌点评论文核心的物理洞见（混响相位近似均匀噪声）非常漂亮且具有启发性，为弱监督语音处理提供了坚实的理论依据。然而，实验部分却显得有些“雷声大雨点小”，仅在一个特定的弱监督框架内用简单的损失修改进行验证，缺乏与当前最强基线（例如全监督的TF-GridNet或更复杂的弱监督方法）的横向对比，使得结论的普适性和影响力打了折扣。 ...

Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation

📄 Look, Listen and Segment: Towards Weakly Supervised Audio-Visual Semantic Segmentation #音视频语义分割 #弱监督学习 #对比学习 #跨模态 #视觉提示 ✅ 7.0/10 | 前25% | #音视频 | #对比学习 | #音视频语义分割 #弱监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Chengzhi Li（北京理工大学计算机学院）通讯作者：Ping Jian（北京理工大学计算机学院）作者列表：Chengzhi Li（北京理工大学计算机学院）、Heyan Huang（北京理工大学计算机学院）、Ping Jian（北京理工大学计算机学院）、Yanghao Zhou（北京理工大学计算机学院） 💡 毒舌点评亮点：论文的“先看后听”直觉式框架设计非常巧妙，将人类感知顺序转化为模型中的“时序视觉提示”模块，有效提升了弱监督下的音频理解精度，是解决该问题的一个新颖且合理的思路。短板：作为一篇方法论论文，开源信息的完全缺失是硬伤，极大削弱了其可复现性和对社区的即时贡献，也与顶级会议推动可重复研究的目标背道而驰。 🔗 开源详情论文中未提及任何开源计划、代码仓库链接、预训练模型权重或数据集获取方式。也未提供在线演示（Demo）。虽然文中提到了依赖的基线方法（如AST）和工具（如Dense CRF），但并未给出其具体使用的开源实现版本。因此，复现该工作需要读者自行实现所有模块并调试训练流程，门槛较高。 📌 核心摘要本文旨在解决音视频语义分割（AVSS）任务中标注成本高昂的问题。为此，作者首次提出了弱监督音视频语义分割（WSAVSS）任务，仅使用视频级标签训练模型，以生成帧级的发声物体类别掩码。论文提出了渐进式跨模态语义对齐（PCAS）框架，其核心包含两个模块：1）“先看后听” 模块，利用视觉特征作为提示来增强帧级音频理解；2）“先听后分割” 模块，通过实例级和令牌级的渐进式对比学习，实现从粗到细的跨模态对齐。与已有方法相比，新在：首次定义WSAVSS任务；首次在音视频分割中引入“视觉提示”来指导音频理解；设计了新颖的渐进式跨模态对比学习框架。实验结果显示，在弱监督设置下，PCAS在AVS-S4和AVS-MS3数据集上的性能大幅超越了现有弱监督基线（例如，在AVS-S4上以ViT-base为主干达到74.2 F-score 和 60.50 mIoU）。在更难的AVSS子集上，PCAS甚至达到了与全监督方法相竞争的性能（52.2 F-score， 42.07 mIoU）。其实际意义在于能够以低成本获取高质量的音视频语义分割数据，推动该技术的应用。主要局限性在于论文未开源代码，部分训练细节不完整，且实验主要在AVSS相关数据集上进行，泛化性有待进一步验证。 ...

Subsequence SDTW: Differentiable Alignment with Flexible Boundary Conditions

📄 Subsequence SDTW: Differentiable Alignment with Flexible Boundary Conditions #音乐信息检索 #信号处理 #弱监督学习 #音频生成 🔥 8.0/10 | 前25% | #音乐信息检索 | #信号处理 | #弱监督学习 #音频生成学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Johannes Zeitler (International Audio Laboratories Erlangen) 通讯作者：未说明作者列表：Johannes Zeitler (International Audio Laboratories Erlangen)， Meinard Müller (International Audio Laboratories Erlangen，联合了弗里德里希-亚历山大-埃尔朗根-纽伦堡大学 (FAU) 和弗劳恩霍夫集成电路研究所 (IIS)) 💡 毒舌点评这篇论文漂亮地解决了弱监督训练中一个被长期忽视但极为实际的问题——边界不准。其数学推导清晰严谨，将子序列对齐的灵活性完美地融入了可微分框架。亮点是其问题定义的精准性和解决方案的完备性。短板在于，实验验证仅限于单一的钢琴多音高估计任务，缺乏在语音识别等更主流任务上的直接对比，这削弱了其宣称的普适性说服力。 🔗 开源详情代码：论文明确提供了代码仓库链接：https://github.com/groupmm/subsequenceSDTW。实现了CUDA兼容的subSDTW损失函数，并包含复现实验的代码。模型权重：未提及公开的预训练模型权重。数据集：使用了公开数据集MAESTRO和BPSD。论文未提供新的数据集。 Demo：未提及在线演示。复现材料：论文提供了超参数设置（如γ，步权重），并指出完整代码已开源，包含了训练细节。引用的开源项目：模型架构基于“Onsets and Frames” [17]的Python实现。使用了Adam优化器 [20]。 📌 核心摘要解决的问题：在使用弱监督数据（如只知道大致起止点）训练深度神经网络时，现有的CTC和SDTW损失函数都假设序列边界必须精确对齐。然而在真实场景中，数据常存在边界偏移，这一刚性假设会损害模型性能。方法核心：提出了子序列软动态时间规整（subsequence SDTW, subSDTW）损失函数。它允许对齐路径的起点和终点不固定，而是在一个预定义的边界区域集合中灵活选择，并通过引入与路径长度成比例的边界权重来避免退化对齐（如坍缩到最短路径）。与已有方法相比新在哪里：subSDTW是经典子序列DTW的可微分版本。与标准SDTW相比，它放松了边界严格对齐的约束；与CTC相比，它支持任意代价矩阵和多标签任务，更适合音乐转录等复杂任务。主要实验结果：在基于Beethoven钢琴奏鸣曲数据集的弱监督多音高估计任务中，当引入±2.0秒的边界偏移时，标准SDTW的F值从0.67降至0.63，无权重subSDTW因路径坍缩暴跌至0.41，而加权subSDTW（subSDTW-W）仍能保持0.66的F值，接近使用强对齐数据训练的基准（0.67）。关键结果见下表：配置边界偏移 (∆) 精度召回率 F值 Strong (强对齐基准) - 0.70 0.65 0.67 SDTW 0.0 s 0.70 0.65 0.67 2.0 s 0.72 0.57 0.63 subSDTW (无权重) 2.0 s 0.77 0.28 0.41 subSDTW-W (加权) 2.0 s 0.70 0.63 0.66 实际意义：为众多依赖弱监督序列对齐的深度学习任务（如语音识别、音乐转录）提供了一个即插即用的、能容忍边界噪声的损失函数，提升了模型在现实不完美数据上的训练稳定性和最终性能。主要局限性：方法的有效性在一定程度上依赖于任务特定的边界权重参数化；实验验证集中在音乐领域，其在语音识别等任务上的泛化能力有待进一步证明。 🏗️ 模型架构本论文的核心贡献不是提出一个新的神经网络模型，而是提出一个新的、可微分的损失函数（subSDTW），它可以与任何现有的序列预测模型（如论文中用于多音高估计的卷积网络）结合使用。（图1: 展示了边界不匹配的问题场景。a) 乐谱作为弱对齐目标。b) DNN的预测帧。c) 带有边界不确定性±∆的输入音频。d) subSDTW的代价矩阵，显示了具有灵活边界条件的对齐路径。） ...

Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing

📄 Teacher-Guided Pseudo Supervision and Cross-Modal Alignment for Audio-Visual Video Parsing #音视频 #视频理解 #知识蒸馏 #弱监督学习 ✅ 7.0/10 | 前25% | #音视频 | #知识蒸馏 | #视频理解 #弱监督学习学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 通讯作者：未说明作者列表： Yaru Chen (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Ruohao Guo (School of Intelligence Science and Technology, Peking University, China) Liting Gao (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Yang Xiang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Qingyu Luo (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) Zhenbo Li (College of Information and Electrical Engineering, China Agricultural University, China) Wenwu Wang (Centre for Vision Speech and Signal Processing, University of Surrey, United Kingdom) 💡 毒舌点评这篇论文的亮点在于其系统性和针对性：它精准地指出了现有弱监督AVVP方法的两个痛点（缺乏稳定段监督、粗糙的跨模态对齐），并用EMA和CMA这两个成熟但组合起来很有效的方案“对症下药”，在LLP数据集上的视觉和音视频联合指标上取得了实实在在的提升。但短板也十分明显：创新程度更像是一个“集大成”的工程优化方案，而非提出一个全新的学习范式；而且，论文在追求性能报告上非常详细，却在开源复现信息上极为吝啬，这对于一个旨在推动领域前进的会议论文来说，是减分项。 ...