Icassp-2026

Cross-Lingual Interleaving for Speech Language Models

📄 Cross-Lingual Interleaving for Speech Language Models #语音大模型 #预训练 #多语言 #数据集 #基准测试 ✅ 7.5/10 | 前25% | #语音大模型 | #预训练 #多语言 | #预训练 #多语言学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Adel Moumen（Department of Engineering, University of Cambridge, UK）通讯作者：未说明作者列表：Adel Moumen（Department of Engineering, University of Cambridge, UK）、Guangzhi Sun（Department of Engineering, University of Cambridge, UK）、Philip C. Woodland（Department of Engineering, University of Cambridge, UK） 💡 毒舌点评亮点在于思路简洁直接：将单语序列训练推广到多语言交错序列，在不引入文本的前提下激发了SLM的跨语言潜力，实验设计也严格控制了训练语料总量这一关键变量。但短板同样明显：其核心验证仅依赖于由GPT-4合成的英法对齐数据集，且故事场景相对简单，这让人怀疑该方法在真实世界复杂声学环境和多样语义下的泛化能力是否被高估。 ...

Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition

📄 Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition #语音识别 #多模态模型 #跨模态 #鲁棒性 #音视频 ✅ 7.5/10 | 前25% | #语音识别 | #多模态模型 | #跨模态 #鲁棒性学术质量 6.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS）作者列表：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）、Min Jun Choi（首尔大学IPAI、首尔大学智能信息学系）、Eungbeom Kim（首尔大学IPAI）、Seungu Han（首尔大学智能信息学系）、Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS） 💡 毒舌点评该工作的核心亮点在于将“注意力瓶颈”这一高效范式巧妙移植到音视频语音识别中，通过一组可学习的紧凑令牌来调节跨模态信息流，在数据效率和噪声鲁棒性上展现出明显优势，尤其是在极端噪声（-7.5dB）下性能提升显著。然而，其最终性能天花板仍被使用海量数据预训练的模型（如Auto-AVSR）牢牢压制，表明瓶颈融合本身并不能解决AVSR对大规模数据的根本依赖，创新性更多体现在工程优化而非原理突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用公开的LRS2和LRS3数据集。 Demo：未提及在线演示。复现材料：提供了非常详细的训练配置、超参数和数据增强策略，为复现提供了良好的基础。论文中引用的开源项目：NOISEX-92噪声库、Speech Commands数据集。总体而言，论文中未提及开源计划，但提供了详实的复现细节。 📌 核心摘要要解决的问题：传统的音频语音识别在噪声下性能严重下降。现有的音频-视觉语音识别融合方法要么融合效果不佳，要么计算开销过大。核心挑战是如何设计一种机制，让模型在音频信号退化时能有效利用视觉信息，同时在干净语音下保持高性能。方法核心：提出CoBRA框架，采用双流（音频/视频）Conformer编码器，并在其中层引入一组紧凑的可学习“瓶颈令牌”。音频和视频流不直接交互，而是通过这组令牌进行信息交换，从而高效且可控地融合跨模态信息。与已有方法相比新在哪里：与传统的拼接或全注意力交叉融合相比，CoBRA通过瓶颈令牌严格调节信息流，减少了冗余和计算量。与应用于视频分类的MBT不同，本文专门针对AVSR的时序和解码特性进行了适配和深入研究，特别是系统地探索了融合层位置的影响。主要实验结果：在LRS3数据集上，使用664小时训练数据，干净语音WER为1.6%，在-7.5dB的babble噪声下WER为11.79%，相比基线（18.58%）相对提升约36.6%。在LRS2上取得2.8% WER。消融实验表明，中层融合（第4层）和32个瓶颈令牌是最优配置。注意力分析显示，随着噪声增强，模型更多地依赖视觉线索。数据集方法训练小时数干净WER (%) -7.5dB Babble WER (%) LRS3 CM-seq2seq (基线) 596 2.30 18.58 LRS3 CoBRA (Ours) 664 1.6 (主结果表) / 1.96 (消融表) 11.79 LRS2 CM-seq2seq (基线) 381 3.7 未提供 LRS2 CoBRA (Ours) 664 2.8 未提供注：主结果表与消融表中的基线和CoBRA数值存在细微差异，可能源于不同的实验设置或数据子集，此处一并列出。 ...

Cross-Modal Knowledge Distillation for Speech Large Language Models

📄 Cross-Modal Knowledge Distillation for Speech Large Language Models #语音大模型 #知识蒸馏 #跨模态 #多任务学习 ✅ 7.0/10 | 前25% | #语音大模型 | #知识蒸馏 | #跨模态 #多任务学习学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室) 通讯作者：Qicheng Li (南开大学计算机科学学院TMCC) 作者列表：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室), Qicheng Li* (南开大学计算机科学学院TMCC), Zhiyuan Tang (腾讯天籁音频实验室), Yuhang Jia (南开大学计算机科学学院TMCC) 💡 毒舌点评亮点在于系统性地诊断并量化了语音大模型“引入语音能力后文本和语音性能双降”这一普遍但缺乏深入研究的问题，并提出了一个直观有效的双向知识蒸馏框架来缓解。短板是其提出的方法核心（知识蒸馏）并非新算法，且实验中使用的合成语音质量（CosyVoice 2）和有限的训练数据（约6万条）可能在一定程度上限制了结论的普适性与效果上限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及是否公开蒸馏后的模型权重。数据集：实验使用了公开数据集Open-Orca和Clotho。论文未提及是否公开其合成的语音数据或特定蒸馏数据。 Demo：未提及。复现材料：论文详细描述了实验设置（骨干模型、TTS系统、数据集、超参数），可支持复现。但未提供检查点或更详细的配置文件。引用的开源项目：CosyVoice 2 (TTS), Open-Orca (数据集), Cloths (数据集), Kimi-audio toolkit (评估工具)。总体：论文中未提及开源计划。 📌 核心摘要问题：在将预训练文本大模型（LLM）扩展为语音大模型（Speech LLM）时，普遍存在两种性能退化现象：(1) 灾难性遗忘，即引入语音能力后，模型在处理文本输入时的知识和推理能力下降；(2) 模态不平等问题，即同一模型处理语音输入时的性能显著低于文本输入。方法核心：提出一个跨模态知识蒸馏框架，将原始的文本LLM作为教师，语音LLM作为学生。通过两个互补的蒸馏通道进行训练：(a) 文本到文本（T→T）蒸馏，用教师模型的输出（或真实标签）监督学生模型处理文本输入，以缓解遗忘；(b) 语音到文本（S→T）蒸馏，将文本通过TTS转换为语音输入学生模型，同时教师仍基于原始文本生成监督信号，以增强跨模态对齐。新意：首次系统评估并定义语音大模型中的“灾难性遗忘”与“模态不平等问题”。首次将跨模态知识蒸馏显式地应用于解决语音大模型在对话问答任务中的性能退化问题，而非局限于声学分析任务。方法设计强调双向（T→T和S→T）协同训练。实验结果：在VoiceBench和MMAU-mini基准上验证。以Qwen2.5-Omni为基线，使用约6万样本进行蒸馏后，其语音输入（S→T）整体性能从75.08提升至77.19（表2）。同时，其文本输入（T→T）性能也从78.60提升至79.86（表3），证明了方法在缓解遗忘和提升模态性能上的有效性。在语音音频分析任务（MMAU-mini）上，加入额外声学问答数据后平均分从74.20提升至78.95（表4）。实际意义：为构建更鲁棒的语音大模型提供了一种实用、低成本的训练后优化范式，只需少量数据和微调即可同时增强模型的文本知识保持能力和跨模态语音理解能力。主要局限性：方法高度依赖TTS系统生成的合成语音质量。实验仅使用了约6万条指令微调数据，未在更大规模或更多样的数据上验证。未探索如何将声学特征的知识（如音色、情感）与语义知识更好地融合，以进一步缩小模态差距。 🏗️ 模型架构论文没有提供其提出的蒸馏框架的详细架构图，但描述了其研究的基础模型架构和蒸馏框架的工作流。 ...

CTC-DID: CTC-Based Arabic Dialect Identification for Streaming Applications

📄 CTC-DID: CTC-Based Arabic Dialect Identification for Streaming Applications #语音识别 #自监督学习 #低资源 #流式处理 #数据增强 ✅ 6.5/10 | 前50% | #语音识别 | #自监督学习 | #低资源 #流式处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Muhammad Umar Farooq (Emotech Ltd., UK) 通讯作者：未说明作者列表：Muhammad Umar Farooq (Emotech Ltd., UK), Oscar Saz (Emotech Ltd., UK) 💡 毒舌点评亮点在于极具创意地将ASR的CTC范式“移植”到方言识别任务中，实现了对短语音的鲁棒性和天然的流式支持，是一个优雅的“降维打击”。然而，论文对模型训练的关键细节（如优化器、学习率、batch size）惜墨如金，使得复现其优异结果如同“盲人摸象”，大大削弱了学术贡献的可验证性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开预训练或微调后的模型权重。数据集：使用了公开的ADI-17和Casablanca数据集，但未说明如何获取或处理。 Demo：未提供在线演示。复现材料：论文给出了算法伪代码（Algorithm 1）和部分超参数（如模型维度、测试的chunk size），但缺少优化器、学习率、batch size等关键训练细节，不足以完全复现。论文中引用的开源项目：引用了Silero VAD [13]用于语音活动检测。总结：论文中未提及任何开源计划，主要依赖对公开数据集的实验和引用的开源工具。 📌 核心摘要这篇论文旨在解决阿拉伯语方言识别（DID）在流式应用场景下的挑战，包括对短语音的处理和实时性要求。其核心方法是将DID任务重新定义为一个有限词汇的自动语音识别（ASR）问题，使用连接主义时序分类（CTC）损失进行模型训练。具体地，为每段语音生成由目标方言标签重复多次构成的“转录文本”，重复次数通过轻量级语言无关启发式（LAH）或预训练ASR模型估算。与传统的基于整句嵌入（如ECAPA-TDNN）或固定窗口处理（如Whisper）的方法不同，CTC-DID能够产出帧级别的方言标签序列，从而支持流式推理并处理包含语码转换的语音。主要实验结果显示，基于mHuBERT的CTC-DID模型在仅使用10小时/方言的有限数据训练时，在ADI-17测试集上F1分数达86.98%（微调SSL），显著优于Whisper-medium（92.88%使用全量数据训练）和ECAPA-TDNN（28.71%）。在Casablanca数据集的零样本评估中，CTC-DID（56.02%）同样大幅超越Whisper-medium（使用全量数据训练后为53.84%）。该方法的实际意义在于为资源受限的场景提供了高效、可流式的方言识别解决方案。其主要局限性在于未公开完整的训练细节和模型代码，且LAH方法的普适性有待更多语言验证。 ...

Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification

📄 Curriculum Learning with Contrastive Loss for Lightweight Speaker Verification #说话人验证 #对比学习 #课程学习 #知识蒸馏 ✅ 6.5/10 | 前25% | #说话人验证 | #对比学习 #课程学习 | #对比学习 #课程学习学术质量 7.0/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jin Li（香港理工大学电机工程系）通讯作者：未说明作者列表：Jin Li（香港理工大学电机工程系；布尔诺理工大学Speech@FIT）、Man-Wai Mak（香港理工大学电机工程系）、Johan Rohdin（布尔诺理工大学Speech@FIT）、Oldřich Plchot（布尔诺理工大学Speech@FIT） 💡 毒舌点评亮点：将课程学习思想精巧地应用于对比学习的负样本选择，并通过一个“教师网络”来量化和迁移“难度”，这一设计既直观又有效，避免了手动筛选困难负样本的武断。短板：论文的实验部分略显“安全牌”，主要验证了在VoxCeleb单一数据集上的有效性，且基线模型（如ECAPA-TDNN的轻量化版本）未得到充分讨论，使得“state-of-the-art”的宣称需要读者自行查阅更多文献才能完全确认。 🔗 开源详情代码：论文明确提供了代码仓库链接：GitHub (https://github.com/happyjin/CurriNegAMS)。模型权重：论文中未提及公开预训练模型权重。数据集：实验使用公开的VoxCeleb1和VoxCeleb2数据集。 Demo：未提供在线演示。复现材料：论文详细说明了训练细节，包括特征提取（40维梅尔滤波器组）、数据增强（MUSAN， RIR）、优化器设置（Adam， lr=0.001， 5%/16epochs decay）、批量大小（200）、损失函数超参数（τ=0.1, m=0.3, s=30）以及节奏函数的选择。这些信息为复现提供了必要基础。引用的开源项目：论文引用并使用了Fast ResNet34的官方实现（https://github.com/clovaai/voxceleb_trainer）。 📌 核心摘要解决的问题：在资源受限的移动设备上部署说话人验证系统时，需要在模型轻量化（低参数量、低计算量）与高精度之间取得平衡。现有轻量级模型性能仍有提升空间，而标准对比学习在训练中对负样本的选择缺乏策略。 ...

D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet

📄 D3PIA: A Discrete Denoising Diffusion Model for Piano Accompaniment Generation from Lead Sheet #音乐生成 #扩散模型 #邻域注意力 #钢琴伴奏 #符号音乐生成 ✅ 7.5/10 | 前25% | #音乐生成 | #扩散模型 | #邻域注意力 #钢琴伴奏学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Eunjin Choi（KAIST， Graduate School of Culture Technology）通讯作者：未说明（论文未明确指定通讯作者）作者列表：Eunjin Choi（KAIST， Graduate School of Culture Technology）、Hounsu Kim（KAIST， Graduate School of Culture Technology）、Hayeon Bang（KAIST， Graduate School of Culture Technology）、Taegyun Kwon（KAIST， Graduate School of Culture Technology）、Juhan Nam（KAIST， Graduate School of Culture Technology） 💡 毒舌点评亮点：巧妙地将离散扩散模型应用于钢琴伴奏生成，结合邻域注意力高效捕捉局部和弦-旋律对齐，在仅2.2M参数下实现了远超基线的和弦保真度与推理速度。短板：彻底放弃了力度（velocity）建模，虽简化了问题但也限制了音乐表现力，且对长程结构与风格多样性的探索不足。 ...

DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis

📄 DAIEN-TTS: Disentangled Audio Infilling for Environment-Aware Text-to-Speech Synthesis #语音合成 #流匹配 #零样本 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #零样本学术质量 7.5/7 | 选题价值 6.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ye-Xin Lu（中国科学技术大学国家语音与语言信息处理工程研究中心）通讯作者：Yang Ai（中国科学技术大学国家语音与语言信息处理工程研究中心）作者列表：Ye-Xin Lu（中国科学技术大学国家语音与语言信息处理工程研究中心）、Yu Gu（未说明）、Kun Wei（未说明）、Hui-Peng Du（中国科学技术大学国家语音与语言信息处理工程研究中心）、Yang Ai（中国科学技术大学国家语音与语言信息处理工程研究中心）、Zhen-Hua Ling（中国科学技术大学国家语音与语言信息处理工程研究中心） 💡 毒舌点评亮点在于将语音-环境分离与流匹配音频填充相结合，首次在零样本框架下实现了对时间变化背景环境的独立控制，思路清晰且实验验证充分。短板是高度依赖预训练的语音-环境分离（SES）模块的性能，且推理时要求提供“纯”环境提示音频的假设在真实场景中可能较难满足，限制了其通用性。 🔗 开源详情代码：论文中未提供明确的代码仓库链接。仅提供了一个用于试听音频样本的示例页面。模型权重：未提及是否公开模型权重。数据集：训练使用了公开的LibriTTS和DNS-Challenge数据集。评估集使用了公开的SeedTTS test-en集并添加了SoundBible的环境音频。 Demo：提供了在线演示页面：https://yxlu-0102.github.io/DAIEN-TTS。复现材料：论文提供了一定的训练细节（数据集、步骤、硬件、批大小、模型部分参数），但缺少完整的训练脚本、优化器配置、声码器训练细节等，信息不算充分。论文中引用的开源项目：论文基于F5-TTS框架，并引用了Whisper-large-v3用于WER评估，WavLM-large用于说话人嵌入提取。 📌 核心摘要问题：现有的零样本语音合成（TTS）系统难以在合成语音时，独立且可控地改变背景声学环境（如从安静房间切换到嘈杂街道），特别是对于时间变化的环境。方法核心：本文提出DAIEN-TTS，一个基于解纠缠音频填充的环境感知零样本TTS框架。其核心是引入一个预训练的语音-环境分离（SES）模块，将带环境音的语音分解为干净语音和环境音频的梅尔谱。在训练时，对两者分别进行随机掩码，以干净语音谱、环境谱（部分掩码）和文本为条件，通过流匹配模型填充被掩码的完整环境语音梅尔谱。推理时，可使用任意说话人提示和任意环境提示进行合成。创新点：a) 首次提出一个能独立控制音色和时间变化背景环境的零样本TTS框架。b) 设计了基于交叉注意力的环境条件注入方案，并在推理时采用双无分类器指导（DCFG）和信噪比（SNR）自适应策略来增强可控性。c) 实验表明该方法在自然度、说话人相似度和环境保真度上均表现良好。主要实验结果：在SeedTTS测试集上，当使用静音环境提示时，DAIEN-TTS的词错率（WER）为1.93%，说话人相似度（SIM-o）为0.60，自然度（MOS）达3.84。当使用背景环境提示合成环境语音时，WER为2.83%，SIM-o为0.55，MOS为3.78，环境相似度（ESMOS）为3.65，均接近或达到人类录音水平。关键结果如下表所示（摘自论文Table 1）：模型 WER(%) ↓ SIM-o ↑ MOS ↑ SSMOS ↑ ESMOS ↑ 场景：静音环境提示 Human (上界) 2.14 0.73 3.91 3.72 - F5-TTS (Clean Spk. Prompt) 2.30 0.58 3.80 3.60 - F5-TTS (Env. Spk. Prompt) 2.87 0.49 3.09 2.92 - DAIEN-TTS 1.93 0.60 3.84 3.64 - 场景：背景环境提示 Human + Environment (上界) 2.80 0.70 3.86 3.81 3.72 DAIEN-TTS 2.83 0.55 3.78 3.73 3.65 实际意义：该技术为有声读物、虚拟现实、游戏等需要生成特定背景环境语音的场景提供了新的解决方案，增强了合成语音的表现力和沉浸感。主要局限性：a) 框架性能严重依赖预训练SES模块的分离质量，若分离不佳会直接影响合成效果。b) 训练和评估均基于预设的“干净语音-环境音频”配对数据，对于现实世界中无法获得纯净环境音的复杂场景，其适用性有待验证。c) 推理时要求提供纯环境音频提示，这在实际应用中可能不便获取。 🏗️ 模型架构 DAIEN-TTS的整体架构如图1所示，包含训练（左）和推理（右）两个流程。 ...

DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS

📄 DAMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMS #视频问答 #多模态模型 #时间定位 #渐进训练 ✅ 7.0/10 | 前25% | #视频问答 | #多模态模型 | #时间定位 #渐进训练学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Bo-Cheng Chiu (国立阳明交通大学人工智能学院) 通讯作者：未明确标注。根据贡献和机构排序，推测可能为通讯作者的是：Jen-Jee Chen (国立阳明交通大学人工智能学院)， Yu-Chee Tseng (国立阳明交通大学人工智能学院)，或 An-Zi Yen (国立阳明交通大学计算机科学系)。论文中未明确指定。作者列表：Bo-Cheng Chiu (国立阳明交通大学人工智能学院)， Jen-Jee Chen (国立阳明交通大学人工智能学院)， Yu-Chee Tseng (国立阳明交通大学人工智能学院)， Feng-Chi Chen (国家卫生研究院人口健康科学研究所)， An-Zi Yen (国立阳明交通大学计算机科学系) 💡 毒舌点评这篇论文在“用有限数据做好时间推理”这个问题上给出了一个工程上漂亮的答卷，其四阶段训练策略和针对时间性的架构设计确实能提升模型对视频时间线的理解力，实验也证明了其在特定benchmark上的有效性。但说实话，它的核心组件如双流融合、可学习查询、LoRA微调等都不是独创，更像是针对视频任务的一次精心的“乐高组装”；另外，其宣称的“数据高效”优势，在论文比较表中与部分基线使用的数据规模差异巨大，这种对比的公平性值得进一步考量。 ...

DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network

📄 DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network #语音增强 #注意力机制 #双路径RNN #复数值网络 #人工耳蜗 ✅ 7.0/10 | 前50% | #语音增强 | #注意力机制 | #双路径RNN #复数值网络学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Nursadul Mamun（Chittagong University of Engineering and Technology, Chittagong, Bangladesh）通讯作者：未明确标注，根据实验室归属推测为John H.L. Hansen（University of Texas at Dallas, USA）作者列表：Nursadul Mamun (Chittagong University of Engineering and Technology), John H. L. Hansen (University of Texas at Dallas; CRSS: Center for Robust Speech Systems; Cochlear Implant Processing Laboratory) 💡 毒舌点评论文针对人工耳蜗用户这一垂直领域进行了扎实的工程优化，将注意力机制融入双路径RNN瓶颈层，确实看到了性能提升，且提供了轻量化变体的思考。但核心方法更偏向于“拿来主义”的组合（DPRNN + Attention + CFTNet），且实验验证主要局限于自身的变体对比和自建数据集，缺乏在业界公认的大型基准（如VoiceBank-DEMAND）上的横向比对来确立其绝对竞争力。 ...

DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content

📄 DBFT-SD: Weakly Supervised Multimodal Detection of Sensitive Audio-Visual Content #多模态模型 #音频事件检测 #对比学习 #知识蒸馏 #弱监督学习 🔥 8.0/10 | 前25% | #音频事件检测 | #对比学习 #知识蒸馏 | #多模态模型 #对比学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Song Xiao (中国科学技术大学，北京电子科学和技术学院) 通讯作者：Xu Ji (中国科学技术大学) 作者列表：Song Xiao（中国科学技术大学，北京电子科学和技术学院）、Xu Ji（中国科学技术大学，北京电子科学和技术学院）、Haodong Yan（西安电子科技大学）、Xinyue Yu（中国科学技术大学） 💡 毒舌点评论文的核心亮点在于其双分支自蒸馏架构，巧妙地利用一个更稳定的视觉分支来“教导”多模态分支，有效缓解了弱监督场景下音频噪声和模态不平衡问题。然而，作为一篇顶会论文，其核心方法（瓶颈融合、混合头部注意力）的理论深度和新意略显不足，更多是工程技巧的有效组合与验证，对比学习部分的马氏距离度量也相对常规。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/Sphnix-box/DBFT-SD。模型权重：论文中未提及是否提供预训练模型权重下载。数据集：论文中使用了XD-Violence数据集，但未说明其获取方式或是否公开提供。 Demo：论文中未提及提供在线演示。复现材料：论文提供了部分训练细节（优化器、学习率、批大小、epoch数、硬件、Dropout率、关键自蒸馏超参数）。论文中引用的开源项目：未明确列出依赖的开源工具或模型，但特征提取使用了I3D/CLIP (视觉) 和 VGGish (音频)。 📌 核心摘要本文针对弱监督下大规模在线音视频敏感内容（如暴力、色情）检测的挑战，提出了动态瓶颈融合Transformer（DBFT）及其自蒸馏变体DBFT-SD。要解决的核心问题是现有方法中多模态信息融合效率低、弱监督标签噪声大以及模态间不平衡导致性能受限。方法核心是：1）在DBFT中，设计了包含动态路由的混合头部注意力机制和瓶颈融合Transformer，实现自适应的模态内与模态间特征聚合；2）在DBFT-SD中，引入一个仅使用视觉特征的辅助分支，通过基于余弦调度器的权重移动平均自蒸馏，将视觉分支的稳定知识迁移至多模态分支，并结合基于马氏距离的对比学习来增强关键帧的判别力。与已有方法相比，新在提出了整合动态注意力、瓶颈融合和自蒸馏的端到端多模态检测框架，能更好地处理噪声和模态不平衡。主要实验在XD-Violence数据集上进行，DBFT-SD达到了85.9%的平均精度（AP），超越了之前最优的多模态方法BN-WVAD（85.26% AP）和视觉方法VadCLIP（84.51% AP）。实际意义在于为社交媒体、视频平台的内容安全审核提供了更高效准确的自动化工具。主要局限性是对比实验仅在一个标准数据集上进行，缺乏更多样化或更具挑战性场景的验证。 ...