语音情感识别

Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models

📄 Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models #情感分析 #政治沟通 #语音情感识别 #多模态学习 #大语言模型 ✅ 7.0/10 | 前50% | #语音情感识别 | #大语言模型 | #情感分析 #政治沟通 | arxiv 学术质量 4.7/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构 Jürgen Dietrich (Democracy Intelligence gGmbH, Germany) 💡 毒舌点评一篇典型的“以问题为导向，以方法为手段”的应用型研究，但其“问题”（声学SER作为政治Pathos代理的有效性）的设定本身值得商榷。作者用一个相对简单的对比实验（一个演讲者，51个片段），得出了一个几乎在意料之中的结论（考虑语义的LLM比不考虑语义的纯声学模型在“理解”情感诉求上更强）。论文最大的价值可能不在于证明了一个众所周知的道理，而在于它“顺手”对经典基准EMO-DB进行的解构，以及对“声学特征→离散情感→连续维度”这一常见投影路径的严谨批判。然而，实验设计（单样本、单说话者、特定政治语境）的先天不足，使得其结论的泛化性像其分析的演讲片段一样“摇摇欲坠”。整体而言，这是一篇诚实的、但影响力受限于其狭窄实验设置的“问题诊断”式论文。 📌 核心摘要本研究评估了声学语音情感识别（SER）模型作为政治演讲中“Pathos”（情感诉求）维度计算代理的适用性。Pathos由TRUST多智能体LLM系统定义，其操作化为情感语言的社会影响程度（从-2到+2）。研究以德国联邦议院Felix Banaszak的一段演讲（51个片段）为案例，系统比较了三种分析模态：（1）基于emotion2vec声学模型并通过后处理Russell环形投影得到的Arousal/Valence；（2）Gemini 2.5 Flash多模态LLM分析音频与文本得到的Arousal/Valence；（3）TRUST-Pathos评分。主要发现是，Gemini Valence与TRUST-Pathos存在强正相关（\(\rho=+0.664, p<0.001\)），而emotion2vec Valence则无显著关联（\(\rho=+0.097, p=0.499\)）。此外，通过对EMO-DB数据集的系统性质量评估，揭示了其在生态效度上的严重局限性，如“厌恶”类别完全无法被Gemini识别。研究表明，LLM驱动的多模态分析因其对语义和语用的理解，在捕捉政治相关Pathos方面远优于纯声学模型，而声学特征在低层级Arousal估计上仍有价值，两者应为互补关系。 🔗 开源详情代码：论文提及“TRUST Multimodal Pipeline (v1.0)”是一个开放研究系统，但未在正文或附录中提供其具体的代码仓库链接（如GitHub）。因此，无法访问其完整代码。模型权重： emotion2vec：论文中指出其为开源模型，并提供了GitHub链接：https://github.com/ddlBoJack/emotion2vec。模型权重可在HuggingFace上获取，但论文未提供具体链接。 Gemini 2.5 Flash：通过Google GenAI API (v1.74.0) 调用，为商业模型，论文未提及任何模型权重的开源获取方式。数据集： Berlin Database of Emotional Speech (EMO-DB)：论文对其进行了详细分析。获取链接通常为柏林工业大学主页：http://deposit.ddb.cnbv.berlin.de/DB1/EMODB/。论文参考文献[6]通常包含此链接。 Banaszak演讲数据：来自德国联邦议院官方媒体库。链接：https://www.bundestag.de/medien/video。需根据日期（2026年3月5日）和发言者（Felix Banaszak）搜索具体视频。 PAVOQUE：论文在Section 6提及此数据集用于未来工作，但未提供链接。 Demo：论文中未提及。复现材料：论文提供了详细的复现相关材料，包括： Arousal/Valence投影权重表（Table 1）。 EMO-DB完整说话者×情感矩阵（Table 5， Appendix A）。 Banaszak演讲的41个分段详细评分表（Table 6， Appendix B），包含e2v-A, e2v-V, Gem-A, Gem-V, Pathos, Gem-Emotion, Gem-Rhetoric。论文中引用的开源项目： emotion2vec: https://github.com/ddlBoJack/emotion2vec WhisperX: https://github.com/m-bain/whisperX pyannote.audio: https://github.com/pyannote/pyannote-audio FFmpeg: https://ffmpeg.org/ OpenFace: https://github.com/TadasBaltrusaitis/OpenFace L2CS-Net: https://github.com/HciRLab/L2CS-Net MediaPipe: https://google.github.io/mediapipe/ EmoBox: https://github.com/JunchenX/EmoBox 🏗️ 方法概述和架构本研究的核心方法是在TRUST框架内，对来自同一语音片段的“声学情感”与“LLM多模态情感”估计值，与“TRUST-Pathos”评分进行统计相关性比较。整体分析流程如论文Section 3所述，主要包含四个阶段：数据准备、三种模态的特征提取与评分、统计分析。 ...

EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection

📄 EMO-BOOST: Emotion-Augmented Audio-Visual Features for Improved Generalization in Deepfake Detection #音频深度伪造检测 #多模态模型 #对比学习 #语音情感识别 #鲁棒性 ✅ 7.2/10 | 前25% | #音频深度伪造检测 | #多模态模型 | #对比学习 #语音情感识别 | arxiv 学术质量 6.3/8 | 影响力 0.6/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Aritra Marik（达姆施塔特工业大学， ELIZA）通讯作者：论文未明确标注通讯作者，但提供了三位作者的邮箱。作者列表：Aritra Marik（达姆施塔特工业大学， ELIZA）、Marcel Klemt（达姆施塔特工业大学， hessian.AI）、Anna Rohrbach（达姆施塔特工业大学， hessian.AI） 💡 毒舌点评论文的核心价值在于系统性地将“情感一致性”作为深度伪造检测的高阶语义信号，并设计了专用模块（EmoForensics）进行建模。然而，其“增强”效果高度依赖于强基线（SIMBA），且EmoForensics独立性能（在FakeAVCeleb上AUC 82.10%，在DeepSpeak v2上仅65.38%）与其声称的“互补性”角色存在巨大落差，这引发对其作为独立检测线索可靠性的根本质疑。在DeepSpeak v2数据集上的无效性也被轻描淡写地归因于数据集特性，缺乏深入分析。 📌 核心摘要要解决什么问题：随着生成式AI快速发展，深度伪造技术不断更新，现有检测模型难以泛化至训练时未见过的伪造类型，这是当前深度伪造检测研究面临的主要挑战。方法核心是什么：本文提出 Emo-Boost 框架，旨在通过引入高层语义线索——情感（Emotion）来提升现有基于低级特征的多模态检测器的跨操纵泛化能力。核心是设计了一个名为 EmoForensics 的情感感知检测器，它利用冻结的预训练情感识别模型提取音频和视觉情感表征，并通过时序 Transformer 建模模态内情感一致性，通过对比学习建模模态间情感一致性。Emo-Boost 通过简单的后期特征乘法融合，将 EmoForensics 的表征与现有多模态检测器（如 SIMBA）的表征相结合。与已有方法相比新在哪里：相比于主要关注像素级、频谱级伪影或跨模态对齐（如音素-视位匹配）的现有方法，本文首次系统性地将“情感一致性”作为一种高阶、稳定的伪造信号，并显式地设计了针对情感表征的跨模态和时序建模模块。此外，与先前情感检测工作相比，本文强调了使用冻结的预训练模型来应对伪造数据导致的情感识别模型分布偏移问题。主要实验结果如何：在 FakeAVCeleb 数据集的留一法（跨操纵）评估中，Emo-Boosted SIMBA 的平均 AUC 达到了 95.30%，相比基线 SIMBA（93.17%）提升了 2.13%。在 DeepSpeak v2 上，Emo-Boosted SIMBA（95.26%）与 SIMBA（95.30%）性能相当。消融实验证明，EmoForensics 中的时序 Transformer 和对比学习模块对性能有积极贡献。论文还通过稳定性分析（图4）显示，EmoForensics 在不同伪造类型上的性能波动（面积 12.50）小于 SIMBA（面积 32.98）。模型 FakeAVCeleb (平均 AUC) DeepSpeak v2 (平均 AUC) SIMBA [19] 93.17 95.30 Emo-Boosted SIMBA 95.30 95.26 AVFF [34] 86.11 93.75 AVAD [12] 80.89 50.48 实际意义是什么：该工作为深度伪造检测提供了一个新的视角，即利用高阶语义信息作为补充线索，有助于提升检测器面对未知新伪造技术的鲁棒性，对内容安全审核领域有潜在应用价值。主要局限性是什么：EmoForensics 作为独立检测器的性能较弱；在数据集 DeepSpeak v2 上未观察到明显的性能提升，作者归因于该数据集情感表达不够自然；融合策略（特征乘法）的理论依据和有效性分析不足；未探讨情感特征在不同伪造攻击下的失效模式。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及具体模型权重获取链接。数据集：论文中使用了 FakeAVCeleb 和 DeepSpeak v2 数据集。论文中未提及具体获取链接或开源协议。 Demo：论文中未提及。复现材料：论文中提供了详细的实现细节、训练配置和超参数设置（见 Section 4 Implementation Details）。论文中未提及模型检查点获取方式。论文中引用的开源项目： POSTER (视觉情绪编码器): https://github.com/justinjohn0306/POSTER emotion2vec (音频情绪编码器): https://huggingface.co/lenagong/emotion2vec_finetuned SIMBA (用于Emo-Boost的基线多模态检测器): https://github.com/yzyou/SIMBA XceptionNet, LipForensics, AVAD, AVFF 等其他项目：论文中仅提及名称，未提供具体链接。 🏗️ 方法概述和架构 Figure 2: Overview of our proposed framework, Emo-Boost, and the emotion-based deepfake detection network, EmoForensics. ...

AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling

📄 AffectCodec: Emotion-Preserving Neural Speech Codec for Expressive Speech Modeling #音频编码 #语音情感识别 #知识蒸馏 #对比学习 #多任务学习 ✅ 7.0/10 | 前25% | #音频编码 | #知识蒸馏 | #语音情感识别 #对比学习 | arxiv 学术质量 5.8/8 | 影响力 1.0/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Jiacheng Shi（College of William & Mary）通讯作者：未明确指定（根据邮箱推测为Ye Gao，但论文未明确标注）作者列表：Jiacheng Shi（College of William & Mary）、Hongfei Du（College of William & Mary）、Xinyuan Song（Emory University）、Y. Alicia Hong（George Mason University）、Yanfu Zhang（College of William & Mary）、Ye Gao（College of William & Mary） 💡 毒舌点评亮点：论文明确将“情感保留”从下游评估指标提升为编解码器训练的核心优化目标，这一问题重新定义和建模思路（三阶段框架）具有清晰的学术贡献和实用价值。短板：框架整体是多个成熟技术（交叉注意力、关系蒸馏、对齐损失）的工程化组合，对“情感”这一模糊概念的建模仍高度依赖外部冻结模型，创新深度有限。此外，论文未深入讨论计算效率的权衡。 ...

AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling

📄 AuDirector: A Self-Reflective Closed-Loop Framework for Immersive Audio Storytelling #音频生成 #多智能体系统 #语音情感识别 #人机交互 ✅ 6.0/10 | 前50% | #音频生成 | #多智能体系统 | #语音情感识别 #人机交互 | arxiv 学术质量未说明/8 | 影响力未说明/2 | 可复现性 0.4/1 | 置信度中 👥 作者与机构第一作者：Yiming Ren (上海人工智能实验室) 通讯作者：未说明作者列表：Yiming Ren (上海人工智能实验室), Xuenan Xu (未说明), Ziyang Zhang (未说明), Wen Wu (未说明), Baoxiang Li (未说明), Chao Zhang (清华大学) 💡 毒舌点评本文提出了一个整合多阶段、多智能体的音频故事生成框架，意图解决声音匹配、质量控制和交互性问题，流程设计清晰。然而，其核心创新严重不足，本质上是现有商业/闭源大模型（Gemini-3-Pro）、音频生成模型（IndexTTS2, TangoFlux）和检索模型的“拼装”。所谓的“自我反思闭环”机制，其关键参数（如阈值τ）黑箱操作，评估模型（如CLAP）本身也存在偏见，使得自纠正效果难以独立验证。论文在学术贡献的深度上乏善可陈，更像一篇系统应用报告而非算法创新论文。 📌 核心摘要本文针对长篇连贯音频故事生成中存在的角色声音不匹配、缺乏质量自纠正、交互性差等问题，提出了AuDirector。这是一个基于多智能体（Director, Casting, Acoustic Production, Critic, Mix, Interaction Agent）的自反射闭环框架。其核心方法分为三阶段：1）身份感知的预制作，通过两步检索（语义过滤+导演决策）为角色匹配声音，并动态生成7维情绪指令；2）协作合成与修正，通过Critic Agent评估生成的语音和音效质量，并在低于阈值时触发迭代修正；3）人类引导的交互优化，允许用户通过自然语言反馈修改生产脚本并针对性地重新生成部分音频。实验在100个播客和广播剧场景上进行，与WavJourney和PodAgent基线相比，AuDirector在语音角色匹配度（VRM: 4.23 vs 3.59）、情感表达（MOS-Emo: 4.17 vs 3.60）和结构连贯性（MOS-Ali: 3.74 vs 3.60）上均取得领先。消融实验证明了闭环修正机制的有效性。论文明确承认的主要局限在于底层生成模型对非语音音轨建模的不足。 ...

Speech-based Psychological Crisis Assessment using LLMs

📄 Speech-based Psychological Crisis Assessment using LLMs #语音情感识别 #大语言模型 #数据增强 #多任务学习 #医疗音频 📝 5.8/10 | 前25% | #语音情感识别 | #大语言模型 | #数据增强 #多任务学习 | arxiv 学术质量 5.8/8 | 影响力 1.2/2 | 可复现性 0.7/1 | 置信度高 👥 作者与机构第一作者：Terumi Chiba（清华大学）通讯作者：Ziyun Cui（北京大学回龙观临床医学院），Chao Zhang（清华大学，世界卫生组织自杀预防研究与培训合作中心）作者列表：Terumi Chiba（清华大学）、Yang Luo（清华大学）、Ziyun Cui（北京大学回龙观临床医学院）、Yongsheng Tong（清华大学）、Chao Zhang（清华大学，世界卫生组织自杀预防研究与培训合作中心） 💡 毒舌点评论文提出的“副语言注入”方法，试图将语音中的情感线索显式文本化以供LLM处理，思路清晰，且针对临床场景（心理热线）的定位明确。然而，核心方法（语音到文本的描述转换）并非完全新颖，且其实验的最大软肋在于数据集规模极小（154例），这使得所有“显著”的结论都蒙上了一层“小样本巧合”的阴影。在如此有限的数据上，模型的高分有多少是源自方法本身的优越性，又有多少是源于对特定样本的过拟合，论文未能给出足够令人信服的论证。此外，对推理链生成这一辅助任务所依赖的外部教师模型（gpt-oss-120b）的潜在偏差，缺乏深入的风险讨论。 📌 核心摘要问题：心理支持热线的危机级别评估依赖于人工操作员，存在主观性强、资源有限等问题。现有基于语音的研究多集中于二分类的自杀风险评估，对更细分的三类别心理危机水平评估探索不足，且常忽略语音中的副语言信息（如哭泣、颤抖）。方法核心：提出一个基于LLM的框架，核心是“副语言注入”和“推理增强训练”。副语言注入利用SpeechLLM（Step-Audio-R1）从语音中提取情感化非语言线索（如“哭泣声”），并遵循临床创伤评估表（TAF）的情感领域标准，将这些线索以结构化文本形式注入ASR转录文本。推理增强训练则让模型在分类的同时，生成符合TAF框架的诊断推理链作为辅助任务，以提升分类性能和可解释性。创新点：与已有方法相比，新在：(1) 明确地将临床评估框架（TAF）深度融入副语言特征提取（指导SpeechLLM）和推理链构建，使模型行为更贴合临床实践；(2) 提出将副语言信息显式转化为文本描述（“注入”）而非在音频层面端到端建模的策略，并验证其优于直接使用SpeechLLM；(3) 结合数据增强（将长通话切分为连续片段）以缓解小样本问题。实验结果：在154例真实中文心理热线通话数据集上进行5折交叉验证，进行三项分类（无危机、低危机、中高度危机）。最终系统达到宏F1分数0.802，准确率0.805，显著优于所有基线。关键消融实验显示，移除数据增强、副语言注入、辅助损失分别导致宏F1下降10.0%、4.1%和1.7%。关键对比如下表所示：方法准确率 (Mean ± Std) 宏F1分数 (Mean ± Std) Zero-shot LLM 0.455 0.371 OpenSMILE (SVM) 0.486 ± 0.053 0.471 ± 0.062 SpeechLLM (Qwen2.5-Omni-7B) 0.564 ± 0.075 0.551 ± 0.079 本文方法 (Ours) 0.805 ± 0.061 0.802 ± 0.062 实际意义：为利用LLM处理心理热线语音数据提供了一种可解释、可整合临床知识的技术路径，有望辅助操作员进行更一致、客观的危机分级，优化热线资源配置。主要局限性：数据集规模极小（154例），可能限制了模型泛化性的验证；方法依赖于外部的SpeechLLM（Step-Audio-R1）和用于生成推理链的教师模型（gpt-oss-120b）；缺乏在跨机构、跨语言数据上的外部验证；代码和数据集均未开源。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中提供了以下模型的 HuggingFace 链接： ASR模型: Paraformer-zh: https://huggingface.co/funasr/paraformer-zh 语音模型 (用于副语言特征提取): Step-Audio-R1.1: https://huggingface.co/stepfun-ai/Step-Audio-R1.1 基础大语言模型 (微调目标): Qwen2.5-7B-Instruct: https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 基线大语言模型: gpt-oss-120b: https://huggingface.co/openai/gpt-oss-120b 基线语音大语言模型: Qwen2.5-Omni-7B: https://huggingface.co/Qwen/Qwen2.5-Omni-7B 数据集：论文中提及使用了包含 154 个通话录音（总时长约 100 小时）的中国心理支持热线数据集，但论文中未提及该数据集的公开获取链接或开源协议。 Demo：论文中未提及。复现材料：论文中提供了详细的实验配置信息，可用于复现。具体包括：5折交叉验证设置、使用 LoRA (rank=8, α=64) 对 Qwen2.5-7B-Instruct 进行微调、训练细节（AdamW优化器，学习率 3×10⁻⁵，余弦退火调度，有效批量大小16）、数据增强方法（将通话音频分割为固定时长片段）。但未提供预训练检查点或打包的复现材料。论文中引用的开源项目： OpenSMILE：用于提取声学特征 (eGeMAPSv02)。项目链接：https://github.com/audeering/opensmile-python emotion2vec：用于情感嵌入提取。模型链接：https://huggingface.co/emotion2vec/emotion2vec_plus_large gpt-oss-120b：用于生成诊断推理链的监督信号。模型链接：https://huggingface.co/openai/gpt-oss-120b Qwen2.5-Omni-7B：作为SpeechLLM基线。模型链接：https://huggingface.co/Qwen/Qwen2.5-Omni-7B 🏗️ 方法概述和架构 ...

Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

📄 Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM #语音大模型 #知识蒸馏 #语音情感识别 #预训练 #端到端 🔥 8.0/10 | 前25% | #语音大模型 | #知识蒸馏 | #语音情感识别 #预训练 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenqian Cui（香港中文大学）通讯作者：Irwin King（香港中文大学）作者列表：Wenqian Cui（香港中文大学）、Xiao-Hui Li（华为技术有限公司）、Daxin Tan（华为技术有限公司）、Qiyong Zheng（香港中文大学）、Irwin King（香港中文大学） 💡 毒舌点评亮点：论文精准地指出了当前语音大模型（SLM）性能瓶颈的关键在于“输入侧”，并提出了“让你的语音LLM变成韵律感知的文本LLM”这一极具启发性的解决方案。实验数据证明该思路在大幅降低模态差距的同时异常高效（仅需约1000小时音频训练LLM部分），且在韵律理解上达到了SOTA水平。其设计哲学（使语音输入尽可能贴近文本LLM的原生输入）清晰且有效。短板：工作明确止步于文本输出理解，未构建包含语音合成的完整交互系统进行端到端评估。其韵律表示学习方式（依赖于Mel重建目标）的有效性边界和与更优表示方法的对比有待进一步探索。此外，论文未提供代码或模型，限制了即时复现。 📌 核心摘要解决的问题：语音大模型（SLM）尽管基于强大的文本大模型（TLM）构建，但在语音问答等任务上的性能与TLM存在显著的“模态差距”，这限制了其实际应用。方法核心：提出TextPro-SLM，核心思想是从输入侧入手，让语音输入更贴近“韵律感知的文本LLM”的输入形式。它包含两部分：WhisperPro语音编码器（输出同步的文本token和韵律嵌入）和Prosody-Aware LLM主干（通过知识蒸馏保留语义能力，并学习理解韵律）。与已有方法新在何处：现有工作主要从输出侧（如生成更文本化的语音、分离生成器）来缩小差距，但效果有限。本文首次系统性地从输入表示入手，将语音显式分解为“说什么”（文本）和“怎么说”（韵律），并以TLM兼容的方式注入LLM，从而最小化差距。主要实验结果：TextPro-SLM在3B和7B参数规模下，均在多个问答基准上取得了最低的平均模态差距。例如，TextPro-SLM-7B的平均差距仅为0.7%，远优于SALAD的7.1%和Qwen2.5-Omni的3.1%。在需要推理的数学任务（VoxEval）上，其模态差距优势更明显。同时，在情感识别、性别、年龄、口音等韵律理解任务上也达到了最佳性能（平均64.8%）。关键的是，其LLM部分训练仅需约1000小时音频，数据效率极高。实际意义：证明了通过优化输入表示来对齐语音和文本模型是一条高效且效果显著的路径，为构建更强大、实用的语音交互系统提供了新的设计范式。主要局限性：未包含语音合成模块，因此无法进行端到端的语音对话评估；其韵律表示学习方法和输入注入策略的有效性边界尚未完全探明；未在流式处理或非语音音频场景下进行验证。方法概述和架构本文的核心方法TextPro-SLM是一个旨在从输入侧最小化语音-文本模态差距的端到端语音理解系统。其设计哲学是让语音输入在LLM看来，尽可能接近其原生处理的文本输入，同时保留关键的副语言信息。 ...

Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition

📄 Modality-Aware Contrastive and Uncertainty-Regularized Emotion Recognition #语音情感识别 #多模态模型 #对比学习 #知识蒸馏 #缺失模态处理 🔥 8.0/10 | 前25% | #语音情感识别 | #对比学习 | #多模态模型 #知识蒸馏 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Yan Zhuang（电子科技大学）通讯作者：Jiawen Deng（电子科技大学），Fuji Ren（电子科技大学、深圳先进技术研究院）作者列表：Yan Zhuang（电子科技大学）、Minhao Liu（电子科技大学，深圳先进技术研究院）、Yanru Zhang（电子科技大学，深圳先进技术研究院）、Jiawen Deng（电子科技大学）、Fuji Ren（电子科技大学，深圳先进技术研究院） 💡 毒舌点评论文的亮点在于将“模态缺失”问题转化为“表示一致性”问题，并设计了优雅的对比学习机制（MCB-CL）来显式地对齐“相同语义、相同模态组合”的样本，直击现有方法痛点。然而，论文声称解决了“跨模态组合不一致”（如图1b），但SUGR模块主要处理的是“预测不确定性”，通过不确定性差异动态调整损失权重，其作用是让模型更关注那些因缺失导致预测变差的样本，而非在表示空间中直接约束同一语义在不同模态组合下的对齐，这部分论证略显间接；此外，方法高度依赖教师模型，在教师本身存在语言偏见时，学生模型的“鲁棒性”可能部分源于对偏见的抑制（如附录A.5.8所示），而非纯粹的多模态融合能力提升。 📌 核心摘要要解决什么问题：多模态情感识别（MER）在实际场景中面临模态缺失与异构性问题，导致同一情感语义在不同可用模态组合下产生表示不一致和预测不稳定（图1展示了组内与跨组不一致现象）。方法核心是什么：提出了MCUR框架，它是一个基于知识蒸馏的两阶段端到端框架。其核心包含两个模块：（1）模态组合与类别联合对比学习（MCB-CL），通过贝叶斯分解引入对比损失，鼓励相同情感类别且相同模态组合的样本在表示空间中聚集；（2）样本级不确定性引导正则化（SUGR），通过计算教师与学生模型预测的不确定性差异，动态调整任务损失和蒸馏损失的权重，使模型更关注不确定性高的样本。与已有方法相比新在哪里：不同于以往侧重模态重建或笼统知识蒸馏的方法，MCUR将问题聚焦于表示空间结构的约束。MCB-CL显式地将模态组合（c_i）信息引入对比学习目标，实现了更细粒度的监督；SUGR则利用不确定性差异进行自适应样本加权，而非对所有缺失场景一视同仁。主要实验结果如何：在MOSI、MOSEI、IEMOCAP三个基准数据集上，MCUR在14种模态缺失场景（7种固定缺失，7种随机缺失）的平均性能均优于基线方法。平均F1分数提升显著：在MOSI上提升2.2%，MOSEI上提升2.67%，IEMOCAP上提升4.37%。消融实验表明，移除MCB-CL或SUGR模块中的不确定性项会导致平均ACC和F1下降超过1个点。不确定性分析（图3）显示，加入MCB-CL能有效降低预测的Brier分数和NLL，尤其在模态表征较弱的场景下（如仅V、A输入）。实际意义是什么：该工作提升了MER系统在模态部分缺失或不可靠时的鲁棒性和预测稳定性，使其更适用于真实世界的动态、异构环境（如用户设备差异、传感器临时失效）。主要局限性是什么：实验基于对缺失模态的模拟（随机丢弃），可能与真实世界中模态降质或丢失的复杂性存在差距；方法依赖一个预先训练好的教师模型，增加了训练成本和部署复杂度；在极端缺失（高缺失率）或噪声与缺失并存的场景下，鲁棒性有待进一步验证（论文在附录A.5.6中进行了初步验证）。 🔗 开源详情代码：论文中未提及代码链接（论文中多次提到“使用官方实现”或“重新实现”其他方法，但未提供作者自己方法“MCUR”的代码仓库地址）。模型权重：论文中未提及（未提供预训练模型或检查点的下载链接）。数据集：论文中使用了三个公开的多模态情感识别数据集，但未提供具体获取链接。论文中提及的数据集名称及通常获取方式如下： MOSI 数据集：常通过 CMU-Multimodal SDK 获取。 MOSEI 数据集：常通过 CMU-Multimodal SDK 获取。 IEMOCAP 数据集：需通过其官网 USC IEMOCAP 申请获取。 Demo：论文中未提及。复现材料：论文在附录 A.2 “Additional Implementation Details” 中提供了详细的复现信息，包括：训练配置：使用了 AdamW 和 Adam 优化器，详细的学习率、随机种子、超参数搜索范围等。模型结构：提供了教师模型（Figure 4）和 MCUR 框架（Figure 2）的结构图。训练策略：描述了教师模型的预训练方法、学生模型的训练损失函数以及模拟模态缺失的方法。基线复现细节：说明了如何公平复现所有对比方法。额外分析：提供了训练损失收敛分析（Figure 5）和表示可视化（Figure 6）。论文中引用的开源项目： BERT：论文中使用了预训练的 BERT 嵌入处理语言模态。链接：https://github.com/google-research/bert Facet toolkit：用于提取视频（人脸）特征。论文中未提供链接（通常指 iMotions 公司的 Facet 模块，需商业授权）。 COVAREP toolkit：用于提取音频特征。链接：http://covarep.github.io/covarep/ Perceiver：论文中使用的 Perceiver 编码器的实现参考了以下链接（论文中列出了编号[13, 22, 41, 45]，对应不同的Perceiver变体实现）。通用实现可参考：https://github.com/lucidrains/perceiver-pytorch Variational Information Bottleneck (VIB)：模型中使用的关键组件。论文中列出了参考文献[1, 8, 16, 29, 36]，其中[8]的原始实现可参考：https://github.com/HIPS/neural-tangents (VIB的原始论文作者之一)。 Decoupled Knowledge Distillation (DKD)：SUGR模块中用于分类任务的知识蒸馏方法。链接：https://github.com/megvii-research/mdistiller (包含了DKD的实现)。基线方法：论文对比了以下方法的官方或公开实现（论文中提到使用了“官方实现”）： CorrKD：论文中提到官方代码未公开，作者根据论文描述重新实现。 MMANet：论文中提到了官方实现，但未给出具体链接。通常可能在：https://github.com/DAMO-NLP-SG/MMANet (此为推测，论文未明确给出)。 MPLMM、IMDer、LNLN：论文中提及了这些方法，但未提供其官方代码链接。其他依赖：论文在实现细节中提到了 PyTorch 和 CUDA 11.5。链接：https://github.com/pytorch/pytorch。 🏗️ 方法概述和架构 MCUR是一个基于知识蒸馏（KD）的两阶段端到端框架，旨在训练一个对模态缺失鲁棒的学生模型。整体流程为：首先，使用完整模态数据训练一个教师模型；然后，在训练学生模型时，模拟各种模态缺失场景，并通过MCB-CL和SUGR两个核心模块，引导学生学习与教师一致且对缺失鲁棒的表示。 ...

To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition

📄 To Fuse or to Drop? Dual-Path Learning for Resolving Modality Conflicts in Multimodal Emotion Recognition #语音情感识别 #多模态模型 #强化学习 #知识蒸馏 #基准测试 🔥 8.0/10 | 前25% | #语音情感识别 | #多模态模型 | #强化学习 #知识蒸馏 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）通讯作者：Jia Li（合肥工业大学计算机科学与信息工程学院）作者列表：Yangchen Yu（合肥工业大学计算机科学与信息工程学院）、Qian Chen（合肥工业大学计算机科学与信息工程学院）、Jia Li（合肥工业大学计算机科学与信息工程学院）、Zhenzhen Hu（合肥工业大学计算机科学与信息工程学院）、Jinpeng Hu（合肥工业大学计算机科学与信息工程学院）、Lizi Liao（新加坡管理大学计算与信息系统学院）、Erik Cambria（南洋理工大学计算与数据科学学院；麻省理工学院媒体实验室）、Richang Hong（合肥工业大学计算机科学与信息工程学院） 💡 毒舌点评这篇论文最大的亮点在于它给“多模态融合”这件事安了一个“交通灯”——能调和的（良性冲突）走蒸馏融合通道，调和不了的（严重冲突）就走强化学习选择通道，这个双路径设计思路清晰且有实证支撑，实验也做得相当全面扎实。但短板也很明显：对“严重冲突”的定义依赖启发式规则（单模态极性与多模态标签不一致），这在实际无标注场景下难以直接应用；此外，ADA的奖励函数设计相对朴素，可能无法完美捕捉“选择可靠性”的微妙之处。 📌 核心摘要问题：多模态情感识别（MER）中，传统融合方法在模态间存在冲突（如讽刺时文本与表情矛盾）时会失效，甚至不如单模态模型。核心方法：提出双路径冲突解决框架（DCR）。路径I（AFD）通过反向知识蒸馏，将音视频模态的时序情感线索融入文本表征，用于处理可调和的“良性冲突”。路径II（ADA）将路径选择建模为上下文赌博机问题，通过强化学习在融合结果和各单模态预测中做出决策，用于处理不可调和的“严重冲突”。创新之处：首次系统性地将模态冲突按“可解性”分类（良性/严重），并设计了针对性的“软校准”（AFD）与“硬裁决”（ADA）的协同处理机制，区别于以往单一的融合或丢弃策略。主要实验结果：在MELD、IEMOCAP、CMU-MOSEI、CH-SIMS和CH-SIMS v2五个基准上，DCR均取得SOTA或极具竞争力的性能。例如，在MELD上WF1达到68.84%，优于TelME（67.37%）；在CH-SIMS v2上MAE达到0.290，优于MulT（0.291）。在CH-SIMS的冲突子集上，DCR在良性冲突子集准确率达72.4%，严重冲突子集达50.3%，显著优于基线（TelME分别为61.8%，41.5%）。实际意义：为构建更鲁棒、可解释的多模态情感识别系统提供了新范式，尤其在对话、人机交互等易出现情感信号矛盾的场景中具有应用潜力。主要局限：冲突的启发式分类方法可能不完美；ADA的策略优化可能受有限动作空间和奖励设计约束；框架增加了模型复杂度。 🔗 开源详情代码：https://github.com/MSA-LMC/DCR 模型权重：论文中未提及具体的模型权重托管平台（如 HuggingFace、ModelScope）链接。论文仅在摘要中提到“Source code and models will be released at https://github.com/MSA-LMC/DCR”，表明模型权重将随代码一同发布。数据集：论文中未提及各数据集的具体获取链接或开源协议。论文仅描述了五个使用的数据集：MELD、IEMOCAP、CMU-MOSEI、CH-SIMS 和 CH-SIMS v2。 Demo：论文中未提及在线演示链接。复现材料：论文中提及了实现细节，包括：使用 PyTorch 实现。训练于单块 NVIDIA RTX 4090 GPU。使用预训练模型作为特征提取器：RoBERTa-large (文本), Whisper-large-v3 (音频), CLIP-ViT-B/16 (视觉)。报告了随机种子（从 {41, 42, 43, 44, 45} 中选择）、学习率 (1e-4)、批大小 (32) 等超参数设置。提供了具体的数据增强策略参数（如模态丢弃概率 p1=0.2, p2=0.05, 高斯噪声 σ=0.01）。论文中未提供独立的配置文件、检查点或详细的复现指南链接。论文中引用的开源项目：论文引用了多个开源项目作为基线或组件，但未提供所有项目的具体链接。以下为论文中明确提及名称的开源相关项目（按章节顺序）：模型/基线方法：大部分作为参考文献引用，论文正文中未提供其 GitHub 链接。例如：MMML, TelME, FacialMMT, DialogueCRN, DialogueRNN, SACL-LSTM, MulT, PMR, Self-MM, UniMSE, SDT, RMER-DT, ECERC, GraphCFC, MMGCN, DialogueGCN, Joyful, LMF, DashFusion, HFR-AME, MAG-BERT, MFON, ConKI, CLGSI, KEBR, BC-LSTM, EmoCaps, BiosERC, InstructERC, DialogueMMT。预训练模型：作为特征提取器使用，论文中提到了其名称但未提供开源链接。例如：RoBERTa-large, Whisper-large-v3, CLIP-ViT-B/16。技术/方法：作为论文中使用的方法被引用。例如：Grad-CAM [60], A2C (优势演员-评论家算法) [33], CMAB (上下文多臂老虎机) [16]。 🏗️ 模型架构图3展示了DCR框架的整体架构，它是一个包含两条互补路径的串行-并行结构： ...

PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention

📄 PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention #多模态讽刺检测 #对比学习 #图神经网络 #多模态模型 #语音情感识别 🔥 8.0/10 | 前25% | #多模态讽刺检测 | #对比学习 | #图神经网络 #多模态模型 | arxiv 学术质量 6.2/7 | 选题价值 1.0/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Maoheng Li（澳门科技大学计算机科学与工程学院）通讯作者：Ling Zhou（澳门科技大学计算机科学与工程学院），Xiaohua Huang（南京工程学院欧路学院）作者列表： Maoheng Li（澳门科技大学计算机科学与工程学院） Ling Zhou（澳门科技大学计算机科学与工程学院） Xiaohua Huang（南京工程学院欧路学院） Rubing Huang（澳门科技大学计算机科学与工程学院，澳门科技大学珠海研究院） Wenming Zheng（东南大学儿童发展与学习科学教育部重点实验室，东南大学生物科学与医学工程学院） Guoying Zhao（芬兰奥卢大学机器视觉与信号分析中心） 💡 毒舌点评这篇论文在针对讽刺检测任务的“矛盾建模”思路上做出了精巧的设计，极性调制注意力机制堪称“对症下药”，比简单拼接或计算相似性的方法高明不少。然而，其性能严重依赖于提供的连续情感值（Valence）标签进行冷启动，这在现实场景中往往是稀缺甚至不存在的监督信号，极大地限制了该模型的通用性和可迁移性。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中提及了以下数据集，但未提供具体下载链接。 MUStARD [3] MUStARD++ [22] MUStARD++ Balanced [37] Demo：论文中未提及复现材料：论文提供了详细的实现细节，包括模型架构、超参数设置（如编码维度 d_enc=512，极性空间维度 d_p=16，图卷积层数 L_mac=2，上下文窗口 J=3 等）以及优化策略（两阶段优化、损失权重 λ_val=1.0， λ_cls=0.2， λ_con=0.8 等），这些信息构成了复现材料。但未提供预训练检查点或完整配置文件的直接链接。论文中引用的开源项目： BERT：论文中使用了BERT-large模型。主要开源仓库：https://github.com/huggingface/transformers Wav2Vec 2.0：论文中使用了Wav2Vec 2.0-base模型。主要开源仓库：https://github.com/facebookresearch/wav2vec2 和 https://github.com/huggingface/transformers YOLOv8：论文中用于视觉目标检测。主要开源仓库：https://github.com/ultralytics/ultralytics CLIP：论文中使用了CLIP ViT-B/32模型。主要开源仓库：https://github.com/openai/CLIP 和 https://github.com/huggingface/transformers GPT-4o：作为基线模型被比较，但论文未提供其使用代码链接。 Llama 3-8B：作为基线模型被比较。主要开源仓库：https://github.com/meta-llama/llama Qwen 2-7B：作为基线模型被比较。主要开源仓库：https://github.com/QwenLM/Qwen2 论文中提到的其他基线模型（如ESAM [33]）的代码，论文作者在文中提到“我们显式复现了最近的ESAM [33]模型”，但未提供具体链接。补充信息以下是对已有分析结果的补充，这些信息在原始全文中有明确陈述，但未在深度分析中得到体现。 ...

The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge

📄 The 2026 ACII Dyadic Conversations (DaiKon) Workshop & Challenge #语音情感识别 #多模态模型 #数据集 #基准测试 #多语言 ✅ 7.0/10 | 前50% | #语音情感识别 | #多模态模型 | #数据集 #基准测试 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文列出了多位作者，但未明确排序或指明第一作者）通讯作者：未说明（论文未明确指出通讯作者）作者列表：Panagiotis Tzirakis（未说明）、Alice Baird（未说明）、Jeffrey Brooks（未说明）、Emilia Parada-Cabaleiro（未说明）、Lukas Stappen（未说明）、Sharath Rao（未说明）、Theo Lebryk（未说明）、Jakub Piotr Cłapa（未说明）、Jens Madsen（未说明） 💡 毒舌点评亮点在于它提供了一个规模庞大、多语言、多模态的双人对话数据集，并设计了三个有层次的任务（影响、轮流、融洽）来系统评估人际动力学建模，填补了现有基准多偏向单说话人预测的空白。但短板也很明显：作为一篇挑战赛论文，其技术贡献主要停留在基线方法的设计上，而基线本身是极其简单的双层MLP，且实验部分仅展示了单一基线的结果，并未与任何复杂的现有SOTA方法进行对比分析，因此难以判断所提基准的实际挑战高度。 🔗 开源详情代码：论文中未提及代码链接。论文鼓励参与者上传代码以支持可复现性，但未在论文正文中提供具体代码仓库地址。模型权重：论文中未提及具体模型权重下载链接。论文提及提供了“baseline systems”（基线系统），但未给出模型权重的直接获取方式。数据集：数据集名称为Hume-DaiKon。论文指出，参与者需要完成 Hume AI 的最终用户许可协议（end-user license agreement）并遵循官方竞赛主页上提供的数据访问说明来获取数据。论文未给出数据集的直接下载 URL。 Demo：论文中未提及在线演示链接。复现材料：论文提供了详细的基线实验描述，包括特征提取方法（使用Whisper-small和FaceNet）、模型架构（两层MLP编码器）、训练配置（优化器、学习率、损失函数等）以及评估指标。这些信息已足够用于复现论文中的基线实验。但未提及提供具体的训练配置文件或检查点下载链接。论文中引用的开源项目： Whisper (Whisper-small encoder)：用于音频特征提取。项目地址：https://github.com/openai/whisper FaceNet：用于视频（人脸）特征提取。论文引用的实现是 FaceNet，通常指 Google 的开源模型或其 PyTorch 实现。相关项目地址可参考：https://github.com/timesler/facenet-pytorch PyTorch：用于实现所有模型。项目地址：https://github.com/pytorch/pytorch Qwen2.5-72B-Instruct：用于生成 Rapport 伪标签的大语言模型。项目地址：https://github.com/QwenLM/Qwen2.5 vLLM：用于部署 Qwen2.5-72B-Instruct 以进行推理的引擎。项目地址：https://github.com/vllm-project/vllm 补充信息 [模型架构] 补充：在轮流发言预测任务中，时间头将预测值裁剪到 [-5, 10] 秒范围，此设计是为了同时适应预测发言间隙（正值）与重叠（负值）的情况。 [核心创新点] 补充：论文强调挑战旨在鼓励“文化意识建模”，其多语言数据集的设计就是为了支持这一点，这是其框架的重要动机之一。 [细节详述] 补充：数据集在发布时明确“旨在保留语料库的多语言特性，而不是将其限制在一两种语言中”，因此训练、验证和测试集都包含了五种语言的数据，并进行了分层划分。 [毒舌点评/核心摘要] 补充（对局限性的强调）：论文自身在结论中明确指出，基准的建立鼓励了“文化意识建模”的研究，但这也恰恰是其挑战所在，即模型需要具备跨文化泛化能力，而简单的基线并未涉及此维度。 📌 核心摘要这篇论文介绍了2026年ACII情感计算会议下的双人对话（DaiKon）工作坊与挑战赛。它旨在解决现有对话情感基准大多以单个说话人为中心，忽略了对话双方之间动态、耦合的人际过程（如单向影响、轮流发言、融洽关系发展）的问题。方法核心是基于新发布的Hume-DaiKon数据集（包含945段、743.4小时的五语种自然对话），设计三个相互关联的子挑战：预测说话人情感强度、预测下一说话人及发言时间、预测对话过程中的融洽关系轨迹。与已有工作相比，新在提供了一个统一的多语言、多模态基准框架，鼓励模型超越说话人中心预测，去建模人际间的时序依赖和动态交互。实验上，论文公布了基于简单MLP的基线结果：在情感影响预测任务上达到0.40 CCC / 0.50 Pearson；轮流发言任务上为0.66 Macro-F1 / 1.50秒 MAE；融洽预测任务上为0.68 CCC / 0.70 Pearson。主要结论是音频特征在各任务中表现最好，但简单的多模态融合并未带来提升，表明更复杂的时序建模和融合策略是必要的。其实际意义是为情感计算、人机交互、行为分析等社区提供了一个可复现的、聚焦于双人动态交互的研究平台和评估标准。主要局限性在于基线方法过于简单，未能充分展示任务的挑战性上限；同时，融洽关系的标签是通过大语言模型生成的伪标签，其可靠性未得到验证。 ...