监督微调 | 语音/音频论文速递

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

📄 AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration #多模态模型 #强化学习 #视频描述生成 #音频视觉对齐 #监督微调 🔥 8.5/10 | 前25% | #视频描述生成 | #强化学习 | #多模态模型 #音频视觉对齐学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）通讯作者：Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）作者列表：Xinlong Chen（快手技术 Kling 团队，中国科学院自动化研究所 NLPR，中国科学院大学）、Yue Ding（中国科学院自动化研究所 NLPR，中国科学院大学）、Weihong Lin（快手技术 Kling 团队）、Jingyun Hua（快手技术 Kling 团队）、Linli Yao（北京大学）、Yang Shi（北京大学）、Bozhou Li（北京大学）、Qiang Liu（中国科学院自动化研究所 NLPR，中国科学院大学）、Yuanxing Zhang（快手技术 Kling 团队）、Pengfei Wan（快手技术 Kling 团队）、Liang Wang（中国科学院自动化研究所 NLPR，中国科学院大学） 💡 毒舌点评亮点：论文没有满足于简单的多模态拼接，而是通过精心设计的 checklist 和 dialogue 奖励函数，将“音视频事件在时间轴上对齐”这一核心需求显式地融入了强化学习目标，这种针对具体问题定制 RL 奖励的思路比通用 GRPO 应用更有价值。短板：整个流程高度依赖强大的教师模型（如 Gemini-2.5-Pro）来构建 SFT 数据和评估奖励，这使得方法的泛用性和在资源受限场景下的可行性存疑，且可能隐含了将教师模型偏见传递给学生模型的风险。 ...

Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study

📄 Leveraging Large Multimodal Models for Audio-Video Deepfake Detection: A Pilot Study #音频深度伪造检测 #多模态模型 #监督微调 #跨模态 ✅ 7.0/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #监督微调 #跨模态学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Songjun Cao（腾讯优图实验室）（注：论文中注明与Yuqi Li贡献均等）通讯作者：未说明作者列表：Songjun Cao¹, Yuqi Li¹, ², Yunpeng Luo¹, Jianjun Yin², Long Ma¹ （¹ 腾讯优图实验室， ² 复旦大学） 💡 毒舌点评亮点：将“音视频深度伪造检测”巧妙地重塑为“多模态问答任务”，利用现成的顶级多模态大模型（Qwen 2.5 Omni）作为骨架，通过两阶段微调迅速达到了领域内顶尖水平，证明了LMM在多媒体取证中的巨大潜力。短板：作为一篇方法论论文，其核心创新（SFT LMM）对基础模型架构的依赖性极强，且未提供任何开源资源（代码、模型、训练脚本），使得“复现即正义”的学术圈同仁难以验证和跟进，更像是一个概念验证（Pilot Study）。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及是否公开微调后的AV-LMMDetect模型权重。数据集：论文使用了公开数据集FakeAVCeleb和MAVOS-DD，并给出了引用和部分划分信息（如FakeAVCeleb使用70%/30%划分）。 Demo：未提及在线演示。复现材料：未提供训练细节、配置、检查点或附录说明。引用的开源项目：论文中明确引用了Qwen 2.5 Omni作为基座模型，以及MAVOS-DD、FakeAVCeleb等数据集。开源计划：论文中未提及开源计划。 📌 核心摘要要解决的问题：现代生成模型制造的音视频深度伪造内容日益逼真，现有的多模态检测器多为任务特定的小模型，存在泛化能力弱、跨域性能差的问题。方法核心：提出AV-LMMDetect，首次将监督微调的大型多模态模型（基于Qwen 2.5 Omni）用于端到端的音视频深度伪造检测。方法将检测任务重新定义为一个二元分类问答：“这个视频是真实的还是伪造的？”。训练采用两阶段策略：第一阶段通过LoRA对语言模型部分进行轻量级对齐；第二阶段解冻视觉和音频编码器进行全量微调，以最大化跨模态协同效应。与已有方法相比新在哪里：不同于传统的小型任务特定模型（如CNN/Transformer流水线）或仅处理单模态的音频LLM，本工作首次证明了经过SFT的通用大型多模态模型（LMM）能够作为统一的检测器，直接处理原始的音视频流，并展现出更强的跨模态推理和泛化能力。主要实验结果：在FakeAVCeleb数据集上，AV-LMMDetect取得了98.02%的准确率和99.2%的AUC，与当前SOTA方法AVFF（98.6%准确率）性能相当。在更具挑战性的多语言MAVOS-DD数据集上，该方法在“开放集完整”场景下达到了85.09%的准确率和0.96的mAP，显著优于所有对比方法，树立了新的SOTA。消融实验表明，两阶段训练策略缺一不可。实际意义：为多媒体安全领域提供了一种新的、基于大模型基座的通用检测范式，有望提升检测器对未知生成模型和跨语言场景的泛化能力，维护媒体内容的真实性。主要局限性：该方法完全依赖于特定的基座大模型（Qwen 2.5 Omni），其性能受限于该模型的能力边界；训练过程可能计算成本较高；论文未提供开源实现，限制了成果的快速验证与应用。 🏗️ 模型架构 AV-LMMDetect的整体架构直接建立在已有的大型多模态模型Qwen 2.5 Omni之上。其核心思路是将音视频深度伪造检测重新表述为一个视觉问答（VQA）任务。 ...

Slot Filling as a Reasoning Task for Speechllms

📄 Slot Filling as a Reasoning Task for Speechllms #语音理解 #槽填充 #语音大模型 #思维链 #监督微调 ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Kadri Hacioglu（Uniphore）通讯作者：未说明作者列表：Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评论文亮点在于清晰地指出了推理优化型LLM（如DeepSeek R1蒸馏版）在直接应用于语音槽填充时“水土不服”的现象，并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而，其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集，未能充分验证该方法在更多样化语音场景（如自然对话、噪声环境）下的普适性，且完全缺失代码和数据开源，削弱了结论的说服力和影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开微调后的模型权重。数据集：使用的DefinedAI客服对话数据集未提及是否公开及获取方式。构建的推理数据集也未开源。 Demo：未提及。复现材料：给出了部分训练细节（如LoRA设置、批量大小、学习率、硬件），但未提供完整的训练配置、数据预处理脚本、评估脚本或附录中的详细超参数表。论文中引用的开源项目：主要依赖了开源的预训练模型，如Whisper, Llama系列, Qwen系列, Phi系列等。 📌 核心摘要问题：传统语音槽填充任务通常被建模为单步预测，缺乏显式的推理过程，而新兴的推理型大语言模型（LLM）在此类任务上的适用性尚不明确。方法核心：提出将槽填充重构为多步推理任务，模仿人类标注流程（听写-识别-分配）。利用思维链（CoT）框架构建包含转录、提及识别和理由说明的推理数据集，并通过监督微调（SFT）训练语音大模型（SpeechLLM）。模型架构包含语音编码器（Whisper-base）、适配器和文本LLM，支持在“常规”（直接输出）和“推理”（先输出思考过程再输出答案）模式间切换。新意：与此前端到端直接生成槽填充结果的方法不同，本文首次系统性地探索了将显式CoT推理引入语音大模型用于槽填充的可行性，并对比了不同类型（基础、指令、推理、混合）和规模的基础LLM，还创新性地提出了同时保留两种操作模式的混合训练策略。主要实验结果：在约31K通客服电话数据集上，中等规模（8B参数）的基础或指令微调LLM 作为语音大模型骨干时，引入推理监督能提升性能（如Llama 3.1 8B Base的F1从0.6923提升至0.7736）。然而，专门为数学/代码等推理任务优化的模型（如DeepSeek R1蒸馏版）作为骨干时，尽管在推理模式下提升幅度最大（+22.72%），但绝对性能仍低于同规模其他模型。小规模（≤4B）的混合或推理LLM 在引入显式推理后，性能反而下降。最终，基于混合LLM（Qwen3 4B）并采用混合监督训练的语音大模型取得了最佳性能（F1达0.7988）。具体数据见表1和表2。实际意义：为提升语音理解任务的可解释性和性能提供了新思路，指出构建兼顾指令遵循与推理能力的“混合”基础模型对于下游语音任务可能更有效，对工业界构建实用型语音大模型有指导价值。主要局限性：实验数据来自单一来源（DefinedAI客服脚本），可能缺乏泛化性；对比的LLM型号和数量有限；未提供代码和数据集，复现困难；推理模式显著增加计算成本（4-5倍）和延迟。 🏗️ 模型架构论文提出的语音大模型（SpeechLLM）架构如图1 (pdf-image-page1-idx0) 所示，主要包含三个组件： ...