DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content
📄 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content #多模态模型 #音频事件检测 #对比学习 #知识蒸馏 #弱监督学习 🔥 8.0/10 | 前25% | #音频事件检测 | #对比学习 #知识蒸馏 | #多模态模型 #对比学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Song Xiao (中国科学技术大学, 北京电子科学和技术学院) 通讯作者:Xu Ji (中国科学技术大学) 作者列表:Song Xiao(中国科学技术大学, 北京电子科学和技术学院)、Xu Ji(中国科学技术大学, 北京电子科学和技术学院)、Haodong Yan(西安电子科技大学)、Xinyue Yu(中国科学技术大学) 💡 毒舌点评 论文的核心亮点在于其双分支自蒸馏架构,巧妙地利用一个更稳定的视觉分支来“教导”多模态分支,有效缓解了弱监督场景下音频噪声和模态不平衡问题。然而,作为一篇顶会论文,其核心方法(瓶颈融合、混合头部注意力)的理论深度和新意略显不足,更多是工程技巧的有效组合与验证,对比学习部分的马氏距离度量也相对常规。 📌 核心摘要 本文针对弱监督下大规模在线音视频敏感内容(如暴力、色情)检测的挑战,提出了动态瓶颈融合Transformer(DBFT)及其自蒸馏变体DBFT-SD。要解决的核心问题是现有方法中多模态信息融合效率低、弱监督标签噪声大以及模态间不平衡导致性能受限。方法核心是:1)在DBFT中,设计了包含动态路由的混合头部注意力机制和瓶颈融合Transformer,实现自适应的模态内与模态间特征聚合;2)在DBFT-SD中,引入一个仅使用视觉特征的辅助分支,通过基于余弦调度器的权重移动平均自蒸馏,将视觉分支的稳定知识迁移至多模态分支,并结合基于马氏距离的对比学习来增强关键帧的判别力。与已有方法相比,新在提出了整合动态注意力、瓶颈融合和自蒸馏的端到端多模态检测框架,能更好地处理噪声和模态不平衡。主要实验在XD-Violence数据集上进行,DBFT-SD达到了85.9%的平均精度(AP),超越了之前最优的多模态方法BN-WVAD(85.26% AP)和视觉方法VadCLIP(84.51% AP)。实际意义在于为社交媒体、视频平台的内容安全审核提供了更高效准确的自动化工具。主要局限性是对比实验仅在一个标准数据集上进行,缺乏更多样化或更具挑战性场景的验证。 🏗️ 模型架构 模型整体架构(图1)采用双分支结构:一个多模态分支(上方)和一个视觉分支(下方)。 ...