跨模态 | 语音/音频论文速递

ACIR-MACL: Effective Multimodal Sentiment Analysis via Attention-Based Causal Intervention Regularization and Multi-Aspect Contrastive Learning

📄 ACIR-MACL: Effective Multimodal Sentiment Analysis via Attention-Based Causal Intervention Regularization and Multi-Aspect Contrastive Learning #情感分析 #对比学习 #因果推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #情感分析 | #对比学习 | #因果推理 #多模态模型学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Lei Liu (云南大学信息科学与工程学院) 通讯作者：You Zhang (云南大学信息科学与工程学院) 作者列表：Lei Liu (云南大学信息科学与工程学院), You Zhang* (云南大学信息科学与工程学院), Jin Wang (云南大学信息科学与工程学院), Dan Xu (云南大学信息科学与工程学院), Xuejie Zhang (云南大学信息科学与工程学院) 💡 毒舌点评亮点：将因果推断中的“前门调整”思想创造性地应用于注意力机制，通过构造反事实路径进行正则化，为解决多模态中的虚假关联提供了新颖且理论依据较强的技术路径。短板：虽然提供了代码链接，但核心消融实验（Table 3）的具体数值在所提供的文本中缺失，严重削弱了其结论的可验证性和复现指导价值，对于一篇声称在顶级会议发表的工作而言，这是关键的细节疏漏。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/1579364808/ACIR-MACL。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文使用的是公开基准数据集（CMU-MOSI, CMU-MOSEI, CH-SIMS），但未提供获取或处理这些数据集的额外脚本。 Demo：论文中未提及提供在线演示。复现材料：论文提供了代码，但复现所需的部分关键材料存在缺失：1) 消融实验（Table 3）的完整数值表格；2) 详细的超参数配置（如各损失项的权重λacir, λscl等具体值、学习率、字典大小K）；3) 训练过程的详细日志或检查点。论文中引用的开源项目：引用并依赖了以下开源工具/模型：BERT (bert-base-uncased, bert-base-chinese)、COVAREP（用于声学特征提取）、FACET（用于视觉特征提取，来自iMotions）、M-SENA平台（可能用于数据处理或基线对比）。 📌 核心摘要要解决什么问题：本论文旨在解决多模态情感分析（MSA）中两个核心挑战：一是非文本模态（视觉、声学）中存在的虚假相关性（spurious correlations），导致模型学习到错误的捷径；二是如何学习到跨模态对齐且具有类别判别性的统一表示，以弥合模态鸿沟。方法核心是什么：提出ACIR-MACL框架，包含两个并行模块：（1）基于注意力的因果干预正则化（ACIR），其核心是受“前门调整”启发，通过构建一个去除混淆因子（confounder）的反事实注意力路径，并与原始事实路径进行一致性约束，从而净化视觉和声学特征在注意力融合过程中的影响。（2）多方面对比学习（MACL），它将对比学习目标系统性地拆分为跨模态对齐（SCL）、模态内类别可分性（IAMCL）和跨模态类别可分性（IEMCL）三个子目标分别优化。与已有方法相比新在哪里：新在将因果干预的思路从特征层面提升到注意力机制的过程层面，并设计了双路径（事实/反事实）的正则化方案。同时，MACL明确区分并独立优化了“对齐”和“判别”这两个通常被混合处理的对比学习目标，提供了更精细的表示学习策略。主要实验结果如何：在MOSI、MOSEI和CH-SIMS三个基准数据集上进行了广泛实验。如表1所示，在MOSI数据集上，本方法在二分类准确率（Acc-2）、F1值（F1）和五分类准确率（Acc-5）上取得最佳（87.20%， 87.08%， 53.79%）。在更大规模的MOSEI数据集上，在五分类和七分类准确率（Acc-5， Acc-7）以及相关性（Corr）上取得最佳。在中文数据集CH-SIMS上，在二分类、三分类和五分类准确率上取得最佳。消融实验（表3，但具体数值未提供）表明，移除ACIR或MACL模块均导致性能显著下降，验证了各模块的有效性。实际意义是什么：该工作推动了因果推断和对比学习在多模态情感分析中的融合应用，为构建更鲁棒、更可解释的MSA模型提供了新思路。其方法框架具有通用性，可被借鉴到其他多模态学习任务中。主要局限性是什么：论文未提供消融实验的完整数值表格，影响了对组件贡献的精确评估。ACIR模块依赖于可学习的“混淆因子字典”，其初始化（K-means）和更新机制对最终性能的影响有待更深入分析。此外，论文未探讨该方法在更极端的模态缺失或噪声场景下的鲁棒性。 🏗️ 模型架构 ACIR-MACL框架整体分为三个阶段：单模态特征编码、融合与表示学习（包含ACIR和MACL）、预测与损失计算。其详细架构如图1所示。 ...

An Unsupervised Alignment Feature Fusion System for Spoken Language-Based Dementia Detection

📄 An Unsupervised Alignment Feature Fusion System for Spoken Language-Based Dementia Detection #语音生物标志物 #多模态模型 #预训练 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音生物标志物 | #多模态模型 | #预训练 #跨模态学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yilin Pan（大连海事大学人工智能学院）通讯作者：Lihe Huang（同济大学外国语学院 / 同济大学老年、语言与关怀研究中心）（根据论文中提供的通讯邮箱yihtsy@outlook.com和基金致谢信息推断）作者列表： Yilin Pan（大连海事大学人工智能学院） Ziteng Gong（香港城市大学计算学院） Sui Wang（大连海事大学人工智能学院） Zhuoran Tian（大连海事大学人工智能学院） Tsy Yih（同济大学外国语学院） Lihe Huang（同济大学外国语学院；同济大学老年、语言与关怀研究中心） 💡 毒舌点评本文的亮点在于直击了多模态融合在阿尔茨海默病检测中的一个痛点——直接拼接可能无效，而通过引入无监督的模态对齐，确实提升了性能并在可视化中提供了符合临床直觉的解释。短板是方法的原创性有限（对齐思想借鉴自语音合成），且在有限的中文数据集（MCGD）上表现提升不明显，可能暗示其泛化能力或对数据量的依赖，这削弱了其声称的“普适性”。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开的预训练模型权重（尽管使用了BERT和Whisper，但未提供微调后的权重）。数据集：实验使用的ADReSS, DementiaBank, MCGD均为公开数据集，但论文未提供具体的获取或预处理脚本链接。 Demo：未提及。复现材料：给出了部分训练细节（优化器、学习率、Dropout、轮数），但缺少数据预处理代码、随机种子、模型完整配置等关键复现信息。论文中引用的开源项目：主要依赖预训练模型库（如Hugging Face Transformers中的BERT和Whisper），并在数据预处理中提到了参考[16]的方法。 📌 核心摘要解决的问题：阿尔茨海默病（AD）早期检测中，基于语音的多模态（声学+语言）系统有时性能不如单模态系统，原因在于简单的特征融合忽略了两种模态间的对齐与相关性。方法核心：提出一个无监督的模态对齐融合框架。首先分别用Whisper和BERT提取语音帧和文本词的嵌入特征，然后通过计算L2距离和Softmax函数学习一个软对齐矩阵（Asoft），捕获语音与文本在时间序列上的对应关系，最后通过矩阵乘法和自注意力机制进行融合，用于分类。新意：不同于常见的直接拼接或交叉注意力融合，该方法在融合前显式地、无监督地建模了两种模态间的对齐概率，为融合提供了更结构化的信息。主要实验结果：在三个数据集上评估：在英文ADReSS数据集上，系统取得91.30%的F1分数；在DementiaBank数据集上取得91.43%的F1分数；在中文MCGD数据集上取得80.65%的F1分数。消融实验证明对齐机制和注意力模块对性能均有贡献。对齐矩阵的可视化显示，AD患者的语音-文本对齐模式（更不流畅、有停顿）与健康对照组有显著差异。数据集对齐模块注意力模块准确率 (%) F1分数 (%) DementiaBank 无无 83.54 84.54 DementiaBank 无有 85.22 85.54 DementiaBank 有无未提供未提供 DementiaBank 有有 87.51 90.85 DemBank-E 有有 90.53 91.43 ADReSS 无无 76.04 76.28 ADReSS 无有 89.58 88.89 ADReSS 有无未提供未提供 ADReSS 有有 91.67 91.30 MCGD 无无 67.31 73.85 MCGD 无有 69.23 77.78 MCGD 有无未提供未提供 MCGD 有有 76.92 80.65 实际意义：为基于语音的AD检测提供了一种更有效的多模态融合策略，对齐矩阵的可视化为理解AD对语音和语言的影响提供了新的解释性工具，具有潜在的临床辅助价值。主要局限性：在中文数据集MCGD上的性能提升有限，可能受数据规模和语言差异影响；模型性能高度依赖预训练的BERT和Whisper模型；未深入探讨该方法对不同阶段AD（如MCI）的区分能力。 🏗️ 模型架构图1：系统架构图] （注：图片URL来自论文提供的本地PDF图片列表） ...

Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens

📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者：Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表：Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射，转变为包含观众预期的“互动式”生成，这为该领域注入了新的思考维度。然而，其短板也较为明显：一是性能提升主要体现在FGD和BC上，但牺牲了手势多样性（Diversity指标下降），且面部表情生成效果改善有限；二是作为一篇顶会论文，完全没有提供任何代码或模型资源，这在强调可复现性的今天，无疑削弱了其学术贡献的落地价值和社区影响力。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开权重。数据集：论文描述了如何从公开来源（TED Talks, The Daily Show）构建数据集，但未提及是否会发布处理后的、带有笑声锚点标注和特征提取的专用数据集。 Demo：未提供在线演示。复现材料：论文提供了较为详细的训练细节，包括：数据集规模、视频帧率（15fps）、片段长度（5秒：1秒前缀+4秒预测）、笑声检测阈值（0.5）、优化步数（400k）、batch size（64）、学习率（1e-4）、硬件（单卡A100 80GB，训练2天）。这些信息对复现有较大帮助。论文中引用的开源项目：主要依赖预训练模型WavLM（未指明具体版本或链接）、身体/面部姿态估计工具PyMAF-X和SmoothNet、以及笑声检测器（引用[9]但未具体说明）。开源计划：论文中未提及任何开源计划。 📌 核心摘要问题：现有的协同语音手势生成方法大多将公共演讲视为单说话人任务，忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。方法核心：提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”，该令牌编码了即将发生的观众反应（如笑声）的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合，融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。新意：与已有方法相比，新在三个方面：(1) 理论上，将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题；(2) 方法上，通过符号化的预期令牌和早期融合策略，显式地建模了演讲者的“预期”心理状态；(3) 实验上，构建了一个包含正负样本（反应前/非反应）的对比数据集用于训练预期令牌。实验结果：在TED Talks和The Daily Show两个数据集上的实验表明，该方法在手势真实度（FGD）和语音-手势同步性（BC）指标上优于多数基线方法。消融实验表明，将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合，效果优于在扩散生成阶段进行后期融合。具体数值见下表：模型数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义：为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路，有望提升虚拟人或机器人的表现力和自然度。主要局限：模型在提升真实度和同步性的同时，可能限制了生成手势的多样性；对更细微的面部表情生成效果提升有限；实验仅基于观众笑声这一种预期信号，且依赖预先检测，未在闭环或更动态的交互中验证。 🏗️ 模型架构模型整体架构（如图1所示）是一个基于扩散的、条件生成的框架，主要包含三个部分：语音与预期编码器、条件融合模块、扩散手势生成器。 ...

Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness

📄 Audio-Text Jailbreak Attack on Large Audio-Language Models: Towards Generality and Stealthiness #音频安全 #对抗样本 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #跨模态学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yuhong Li（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）通讯作者：Jianhua Wang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院，邮箱：wangjianhua02@tyut.edu.cn）作者列表：Yuhong Li（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Jiabao Zhang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Yan Chen（太原工业大学计算机科学与技术学院）、Zhihui Zhao（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院）、Jianhua Wang（太原工业大学工业互联网安全山西省重点实验室 & 计算机科学与技术学院） 💡 毒舌点评亮点在于首次开辟了“音频+文本”联合优化的多模态越狱攻击赛道，并在实验上取得了90%以上的攻击成功率，有力证明了当前LALM在多模态融合下的脆弱性，为安全研究提供了新方向。短板是论文对“隐身性”的论证略显单薄，仅通过提升成功率来间接证明，并未深入评估攻击音频在人类听觉或音频检测系统中的隐蔽程度，削弱了“Stealthiness”这一主张的力度。 🔗 开源详情代码：是，论文提供了GitHub仓库链接：https://github.com/SKLIIS-AIS/AudioTextJailbreak。模型权重：未提及。论文未说明是否公开攻击者使用的模型或攻击目标模型的权重获取方式。数据集：是，但获取方式不明确。论文提到使用TTS技术创建了音频版AdvBench数据集，但未提供公开下载链接或详细生成脚本。 Demo：未提及。复现材料：论文中提及了代码，但未提供完整的训练配置、检查点或附录说明。对于攻击优化中的关键超参数细节未充分披露。论文中引用的开源项目：TTS工具 Coqui；目标模型 Qwen2-Audio-7B-Instruct, Qwen2.5-Omni-3B；文本攻击基线 GCG；数据集 AdvBench。 📌 核心摘要问题：现有的针对大型音频语言模型（LALM）的越狱攻击多局限于单模态（纯文本或纯音频），且通用性和隐蔽性不足。方法核心：提出“音频-文本越狱攻击”（Audio-Text Jailbreak），首次联合优化微小的对抗音频扰动和恶意的文本后缀，共同诱导模型生成有害回应。同时设计了环境噪声添加和语速调整等隐身策略。与已有方法相比新在哪里：a) 首次实现音频和文本模态的深度融合攻击；b) 设计的单个对抗音频/文本后缀可泛化应用于不同用户指令；c) 引入针对性的音频层隐身策略。主要实验结果：在Qwen2-Audio和Qwen2.5-Omni两个模型上，攻击成功率（ASR）分别达到91.00% 和 92.73%，显著优于GCG、VoiceJailbreak、SpeechGuard等基线方法。关键实验结果如下表所示：方法非法活动仇恨言论人身伤害欺诈色情隐私侵犯平均 Base (无攻击) 0 0 0 0 0 0 0 GCG (文本攻击) 0.67 0.72 0.73 0.79 0.80 0.75 0.74 VoiceJailbreak 0 0.40 0.20 0.20 0.30 0 0.21 SpeechGuard 0.20 0.40 0.40 0.20 0.30 0 0.25 Audio-Text JailBreak (本文) 0.95 0.90 0.90 0.88 0.90 0.90 0.91 模型 Noise Rate Rate + Noise Ours Qwen2-Audio 84.00 83.30 86.61 91.00 Qwen2.5-Omni 82.50 85.65 73.91 92.73 平均 83.25 84.48 80.26 91.86 实际意义：揭示了当前LALM在处理跨模态输入时存在的严重安全漏洞，为模型安全加固（如多模态对齐安全训练）提供了明确的攻击测试基准和方向。主要局限性：通用性验证实验仅在一个条件（K=10）下进行，泛化能力论证不够充分；隐身策略的实际效果（如是否易于被人耳察觉或被音频检测器识别）未通过直接的用户研究或客观度量进行评估。 🏗️ 模型架构本文并未提出一个新的端到端语音大模型架构，而是针对现有的LALM（如Qwen2-Audio, Qwen2.5-Omni）设计了一个攻击框架。其核心是音频-文本联合越狱攻击流程。 ...

Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting

📄 Auto-MatchCut: An Audio-Visual Retrieval Framework for Seamless Match Cutting #音频检索 #视频检索 #跨模态 ✅ 7.0/10 | 前50% | #跨模态检索 | #音频检索 | #视频检索 #跨模态学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Hongjie Chen (Dolby Laboratories) 通讯作者：未说明作者列表：Hongjie Chen (Dolby Laboratories), Hanyu Meng (The University of New South Wales), Gautam Bhattacharya (Dolby Laboratories), Lie Lu (Dolby Laboratories), Josh Kimball (Dolby Laboratories), Ryan Rossi (未说明) 💡 毒舌点评亮点：框架设计巧妙，通过独立控制音频和视觉距离参数（τ_a, τ_v），为用户提供了在“平滑”与“创意对比”之间灵活调节的杠杆，这是对现有单一模态方法的一个有意义扩展。短板：评估方法过于依赖主观打分（人类和LLM），缺乏如剪切点帧级精确度、跨视频语义连贯性等客观、可量化的指标，使得“超过60%平滑”的结论说服力打折扣；且整个系统严重依赖所选编码器（CLAP/CLIP）的性能，未探讨其边界与失效情况。 ...

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding

📄 Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding #多模态模型 #讽刺检测 #对话理解 #跨模态 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #讽刺检测 #对话理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Zhaoyan Pan（浙江大学）通讯作者：Wei Zhang（浙江大学）作者列表：Zhaoyan Pan（浙江大学），Hengyang Zhou（南京大学），Xiangdong Li（浙江大学），Yuning Wang（浙江大学），Ye Lou（浙江大学），Jiatong Pan（浙江大学），Ji Zhou（浙江大学），Wei Zhang（浙江大学） 💡 毒舌点评论文的核心亮点在于将模糊的“上下文如何影响当前话语”这一问题，显式地提炼为一个“解释性线索”，并以此引导后续的多模态推理，这种三阶段解耦设计思路清晰且有一定启发性。然而，其短板也相当明显：代码未开源，使得这个强调“结构与引导”的精巧设计难以被直接复用和验证；另外，尽管在讽刺数据集上表现亮眼，但在更通用的CMU-MOSEI/MOSI数据集上，其优势相对有限，说明其对复杂对话依赖的建模普适性有待更多考察。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用了公开的基准数据集（MUStARD, MUStARD++, CMU-MOSEI/MOSI, UR-FUNNY）。论文中未提及对数据集本身进行修改或创建新数据集。 Demo：未提及。复现材料：附录A（Implementation Details）和附录B（Cross-Dataset Experiment）提供了相当详细的实现细节，包括特征提取方式、输入构造过程、优化器设置、具体超参数值（学习率、Dropout率、隐藏维度、各编码器层数、λ_gate值等），以及跨数据集实验的设置。这些信息对于理解模型和进行复现有重要帮助。论文中引用的开源项目：论文依赖的开源项目/工具包括：ALBERT（用于文本编码）、COVAREP（用于声学特征提取）、OpenFace 2.0（用于视觉特征提取）。 📌 核心摘要要解决什么问题：现有的多模态对话理解方法通常将上下文与当前话语混合编码或融合，难以显式捕捉和利用“上下文如何具体约束或改变当前话语的解释”这一关键依赖关系，导致模型在处理依赖上下文语义反转的任务（如讽刺检测）时性能受限。方法核心是什么：提出CUCI-Net，一个三阶段线索引导框架。首先，在编码阶段保持上下文与话语的结构分离，并学习文本锚定的关联表征来引导声学/视觉编码。其次，构建一个包含全局上下文证据和局部模态成对线索的“解释性线索”。最后，将该线索作为条件信号注入多模态交互层，引导最终的上下文条件推理。与已有方法相比新在哪里：不同于以往通过隐式编码、图传播或对比学习来增强上下文感知的方法，CUCI-Net首次将“上下文-话语依赖”显式抽象为一个紧凑的“解释性线索”，并将其作为独立模块直接介入并指导后续的多模态推理过程，实现了从“被动编码上下文”到“主动利用线索引导推理”的转变。主要实验结果如何：在MUStARD和MUStARD++两个主流对话讽刺检测基准上，CUCI-Net在整体集和特定子集（讽刺/非讽刺样本）上的F1分数均优于所有对比基线。例如，在MUStARD++的隐式情感标签预测任务中，CUCI-Net的整体F1为28.50%，比次优的MFMB-Net高出4.53个百分点。消融实验证实了三个阶段设计的有效性。在更通用的CMU-MOSEI/MOSI情感分析任务上也展示了竞争力。实际意义是什么：该工作为对话级多模态理解提供了一个新的建模范式，即通过显式建模和利用上下文依赖线索来提升模型在复杂语用场景下的推理准确性和可解释性，对提升人机对话系统的情商和语境理解能力有参考价值。主要局限性是什么：1）模型架构相对复杂，涉及双分支、双专家、多阶段构建，计算开销可能较高；2）虽然在特定讽刺检测任务上效果显著，但在更广泛的对话理解任务上的泛化能力需进一步验证；3）论文未开源代码，限制了研究的可复现性和后续跟进。 🏗️ 模型架构 CUCI-Net是一个三阶段、多分支的框架，旨在显式建模并利用上下文-话语依赖来引导多模态推理。 ...

Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild

📄 Bimodal Fusion Framework for Dynamic Facial Expression Recognition In-The-Wild #语音情感识别 #多模态模型 #跨模态 #音视频 #预训练 ✅ 7.0/10 | 前25% | #语音情感识别 | #多模态模型 | #跨模态 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Bohui Yang（东南大学计算机科学与工程学院）通讯作者：Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院）作者列表：Bohui Yang（东南大学计算机科学与工程学院）， Luo Lilin（未说明具体单位，仅在作者列表中）， Xiaojia Wang（未说明具体单位，仅在作者列表中）， Chunfeng Yang（东南大学计算机科学与工程学院）， Wentao Xiang（南京医科大学生物医学工程与信息学院） 💡 毒舌点评这篇论文的框架设计精巧，将视觉Transformer的参数高效微调（PEFT）思想成功移植到音频-视觉双模态动态表情识别任务中，三个模块（MSA、BFA、CMTM）分工明确，消融实验设计得当，有力支撑了其有效性。然而，其核心创新——在预训练模型中插入适配器（Adapter）进行轻量微调——并非全新概念，论文在探索更深层或更具解释性的跨模态交互机制上着墨不多，主要贡献是工程上的有效整合与验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的预训练或微调后模型权重。数据集：提供了DFEW和MAFW数据集的官方主页链接，表明数据集是公开可获取的。 Demo：未提及。复现材料：论文给出了主要的训练设置（优化器、调度器、轮数、采样率），但缺少超参数的具体数值（如学习率、批次大小、适配器维度）和训练硬件信息。引用的开源项目：论文中引用的预训练模型（MAE-Face [18]， MAE-AST [19]）本身是开源的项目。 📌 核心摘要该论文针对野外动态表情识别（DFER）中单模态方法难以捕捉跨模态关联的问题，提出了一个名为BFF-DFER的双模态融合框架。该框架的核心思想是利用预训练的音视频Transformer模型作为骨干网络，冻结其大部分参数，仅通过训练三个轻量级模块来实现高效适配：1) 模态特定适配（MSA）用于增强单模态特征；2) 双模态融合适配器（BFA）用于融合跨模态特征；3) 跨模态时序建模（CMTM）用于建模时间动态。与先前单模态微调或直接融合的方法相比，本工作强调在保持预训练模型完整性的前提下，设计专门的模块来显式建模模态内与时序/跨模态关系。在DFEW和MAFW两个大规模野外基准数据集上，BFF-DFER取得了具有竞争力的性能（DFEW: 67.52% UAR, 78.28% WAR; MAFW: 44.46% UAR, 58.41% WAR），超越了多数现有方法。消融实验证实了各模块的贡献，可视化显示其学习的特征具有更好的类内紧凑性和类间可分性。该工作展示了在资源受限条件下，通过参数高效方法整合多模态预训练知识的有效路径。其主要局限性可能在于框架的复杂性（多个适配器模块）以及未探讨更极端的数据或计算受限场景。 ...

CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR

📄 CALM: Joint Contextual Acoustic-Linguistic Modeling for Personalization of Multi-Speaker ASR #语音识别 #端到端 #多任务学习 #多语言 #跨模态 ✅ 7.5/10 | 前25% | #语音识别 | #端到端 | #多任务学习 #多语言学术质量 7.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）通讯作者：未说明作者列表：Muhammad Shakeel（Honda Research Institute Japan Co., Ltd.）， Yosuke Fukumoto（Honda Research Institute Japan Co., Ltd.）， Chikara Maeda（Honda Research Institute Japan Co., Ltd.）， Chyi-Jiunn Lin（Carnegie Mellon University）， Shinji Watanabe（Carnegie Mellon University） 💡 毒舌点评这篇论文的“胶水”艺术令人印象深刻，将成熟的语音编码器、说话人验证模型和动态词汇扩展技术流畅地整合进一个端到端框架，解决了多说话人ASR中一个长期存在但被割裂对待的问题，实验数据也足够扎实。然而，其主要战场仍是LibriSpeech这类“干净的混合”，在AMI这种真实、嘈杂且充满填充词的会议场景中性能出现明显波动，这暗示了该框架在面对真实世界的混乱时可能过于依赖精心构造的条件。 ...

Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition

📄 Cross-Modal Bottleneck Fusion for Noise Robust Audio-Visual Speech Recognition #语音识别 #多模态模型 #跨模态 #鲁棒性 #音视频 ✅ 7.5/10 | 前25% | #语音识别 | #多模态模型 | #跨模态 #鲁棒性学术质量 6.0/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）通讯作者：Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS）作者列表：Seaone Ok（首尔大学IPAI、首尔大学智能信息学系）、Min Jun Choi（首尔大学IPAI、首尔大学智能信息学系）、Eungbeom Kim（首尔大学IPAI）、Seungu Han（首尔大学智能信息学系）、Kyogu Lee（首尔大学IPAI、首尔大学智能信息学系、首尔大学AIIS） 💡 毒舌点评该工作的核心亮点在于将“注意力瓶颈”这一高效范式巧妙移植到音视频语音识别中，通过一组可学习的紧凑令牌来调节跨模态信息流，在数据效率和噪声鲁棒性上展现出明显优势，尤其是在极端噪声（-7.5dB）下性能提升显著。然而，其最终性能天花板仍被使用海量数据预训练的模型（如Auto-AVSR）牢牢压制，表明瓶颈融合本身并不能解决AVSR对大规模数据的根本依赖，创新性更多体现在工程优化而非原理突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用公开的LRS2和LRS3数据集。 Demo：未提及在线演示。复现材料：提供了非常详细的训练配置、超参数和数据增强策略，为复现提供了良好的基础。论文中引用的开源项目：NOISEX-92噪声库、Speech Commands数据集。总体而言，论文中未提及开源计划，但提供了详实的复现细节。 📌 核心摘要要解决的问题：传统的音频语音识别在噪声下性能严重下降。现有的音频-视觉语音识别融合方法要么融合效果不佳，要么计算开销过大。核心挑战是如何设计一种机制，让模型在音频信号退化时能有效利用视觉信息，同时在干净语音下保持高性能。方法核心：提出CoBRA框架，采用双流（音频/视频）Conformer编码器，并在其中层引入一组紧凑的可学习“瓶颈令牌”。音频和视频流不直接交互，而是通过这组令牌进行信息交换，从而高效且可控地融合跨模态信息。与已有方法相比新在哪里：与传统的拼接或全注意力交叉融合相比，CoBRA通过瓶颈令牌严格调节信息流，减少了冗余和计算量。与应用于视频分类的MBT不同，本文专门针对AVSR的时序和解码特性进行了适配和深入研究，特别是系统地探索了融合层位置的影响。主要实验结果：在LRS3数据集上，使用664小时训练数据，干净语音WER为1.6%，在-7.5dB的babble噪声下WER为11.79%，相比基线（18.58%）相对提升约36.6%。在LRS2上取得2.8% WER。消融实验表明，中层融合（第4层）和32个瓶颈令牌是最优配置。注意力分析显示，随着噪声增强，模型更多地依赖视觉线索。数据集方法训练小时数干净WER (%) -7.5dB Babble WER (%) LRS3 CM-seq2seq (基线) 596 2.30 18.58 LRS3 CoBRA (Ours) 664 1.6 (主结果表) / 1.96 (消融表) 11.79 LRS2 CM-seq2seq (基线) 381 3.7 未提供 LRS2 CoBRA (Ours) 664 2.8 未提供注：主结果表与消融表中的基线和CoBRA数值存在细微差异，可能源于不同的实验设置或数据子集，此处一并列出。 ...

Cross-Modal Knowledge Distillation for Speech Large Language Models

📄 Cross-Modal Knowledge Distillation for Speech Large Language Models #语音大模型 #知识蒸馏 #跨模态 #多任务学习 ✅ 7.0/10 | 前25% | #语音大模型 | #知识蒸馏 | #跨模态 #多任务学习学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室) 通讯作者：Qicheng Li (南开大学计算机科学学院TMCC) 作者列表：Enzhi Wang (南开大学计算机科学学院TMCC, 腾讯天籁音频实验室), Qicheng Li* (南开大学计算机科学学院TMCC), Zhiyuan Tang (腾讯天籁音频实验室), Yuhang Jia (南开大学计算机科学学院TMCC) 💡 毒舌点评亮点在于系统性地诊断并量化了语音大模型“引入语音能力后文本和语音性能双降”这一普遍但缺乏深入研究的问题，并提出了一个直观有效的双向知识蒸馏框架来缓解。短板是其提出的方法核心（知识蒸馏）并非新算法，且实验中使用的合成语音质量（CosyVoice 2）和有限的训练数据（约6万条）可能在一定程度上限制了结论的普适性与效果上限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及是否公开蒸馏后的模型权重。数据集：实验使用了公开数据集Open-Orca和Clotho。论文未提及是否公开其合成的语音数据或特定蒸馏数据。 Demo：未提及。复现材料：论文详细描述了实验设置（骨干模型、TTS系统、数据集、超参数），可支持复现。但未提供检查点或更详细的配置文件。引用的开源项目：CosyVoice 2 (TTS), Open-Orca (数据集), Cloths (数据集), Kimi-audio toolkit (评估工具)。总体：论文中未提及开源计划。 📌 核心摘要问题：在将预训练文本大模型（LLM）扩展为语音大模型（Speech LLM）时，普遍存在两种性能退化现象：(1) 灾难性遗忘，即引入语音能力后，模型在处理文本输入时的知识和推理能力下降；(2) 模态不平等问题，即同一模型处理语音输入时的性能显著低于文本输入。方法核心：提出一个跨模态知识蒸馏框架，将原始的文本LLM作为教师，语音LLM作为学生。通过两个互补的蒸馏通道进行训练：(a) 文本到文本（T→T）蒸馏，用教师模型的输出（或真实标签）监督学生模型处理文本输入，以缓解遗忘；(b) 语音到文本（S→T）蒸馏，将文本通过TTS转换为语音输入学生模型，同时教师仍基于原始文本生成监督信号，以增强跨模态对齐。新意：首次系统评估并定义语音大模型中的“灾难性遗忘”与“模态不平等问题”。首次将跨模态知识蒸馏显式地应用于解决语音大模型在对话问答任务中的性能退化问题，而非局限于声学分析任务。方法设计强调双向（T→T和S→T）协同训练。实验结果：在VoiceBench和MMAU-mini基准上验证。以Qwen2.5-Omni为基线，使用约6万样本进行蒸馏后，其语音输入（S→T）整体性能从75.08提升至77.19（表2）。同时，其文本输入（T→T）性能也从78.60提升至79.86（表3），证明了方法在缓解遗忘和提升模态性能上的有效性。在语音音频分析任务（MMAU-mini）上，加入额外声学问答数据后平均分从74.20提升至78.95（表4）。实际意义：为构建更鲁棒的语音大模型提供了一种实用、低成本的训练后优化范式，只需少量数据和微调即可同时增强模型的文本知识保持能力和跨模态语音理解能力。主要局限性：方法高度依赖TTS系统生成的合成语音质量。实验仅使用了约6万条指令微调数据，未在更大规模或更多样的数据上验证。未探索如何将声学特征的知识（如音色、情感）与语义知识更好地融合，以进一步缩小模态差距。 🏗️ 模型架构论文没有提供其提出的蒸馏框架的详细架构图，但描述了其研究的基础模型架构和蒸馏框架的工作流。 ...