情感分析 | 语音/音乐/音频论文速递

Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models

📄 Beyond Acoustic Emotion Recognition: Multimodal Pathos Analysis in Political Speech Using LLM-Based and Acoustic Emotion Models #情感分析 #政治沟通 #语音情感识别 #多模态学习 #大语言模型 ✅ 7.0/10 | 前50% | #语音情感识别 | #大语言模型 | #情感分析 #政治沟通 | arxiv 学术质量 4.7/7 | 影响力 1.2/2 | 可复现性 1.1/2 | 置信度高 👥 作者与机构 Jürgen Dietrich (Democracy Intelligence gGmbH, Germany) 💡 毒舌点评一篇典型的“以问题为导向，以方法为手段”的应用型研究，但其“问题”（声学SER作为政治Pathos代理的有效性）的设定本身值得商榷。作者用一个相对简单的对比实验（一个演讲者，51个片段），得出了一个几乎在意料之中的结论（考虑语义的LLM比不考虑语义的纯声学模型在“理解”情感诉求上更强）。论文最大的价值可能不在于证明了一个众所周知的道理，而在于它“顺手”对经典基准EMO-DB进行的解构，以及对“声学特征→离散情感→连续维度”这一常见投影路径的严谨批判。然而，实验设计（单样本、单说话者、特定政治语境）的先天不足，使得其结论的泛化性像其分析的演讲片段一样“摇摇欲坠”。整体而言，这是一篇诚实的、但影响力受限于其狭窄实验设置的“问题诊断”式论文。 📌 核心摘要本研究评估了声学语音情感识别（SER）模型作为政治演讲中“Pathos”（情感诉求）维度计算代理的适用性。Pathos由TRUST多智能体LLM系统定义，其操作化为情感语言的社会影响程度（从-2到+2）。研究以德国联邦议院Felix Banaszak的一段演讲（51个片段）为案例，系统比较了三种分析模态：（1）基于emotion2vec声学模型并通过后处理Russell环形投影得到的Arousal/Valence；（2）Gemini 2.5 Flash多模态LLM分析音频与文本得到的Arousal/Valence；（3）TRUST-Pathos评分。主要发现是，Gemini Valence与TRUST-Pathos存在强正相关（\(\rho=+0.664, p<0.001\)），而emotion2vec Valence则无显著关联（\(\rho=+0.097, p=0.499\)）。此外，通过对EMO-DB数据集的系统性质量评估，揭示了其在生态效度上的严重局限性，如“厌恶”类别完全无法被Gemini识别。研究表明，LLM驱动的多模态分析因其对语义和语用的理解，在捕捉政治相关Pathos方面远优于纯声学模型，而声学特征在低层级Arousal估计上仍有价值，两者应为互补关系。 🔗 开源详情代码：论文提及“TRUST Multimodal Pipeline (v1.0)”是一个开放研究系统，但未在正文或附录中提供其具体的代码仓库链接（如GitHub）。因此，无法访问其完整代码。模型权重： emotion2vec：论文中指出其为开源模型，并提供了GitHub链接：https://github.com/ddlBoJack/emotion2vec。模型权重可在HuggingFace上获取，但论文未提供具体链接。 Gemini 2.5 Flash：通过Google GenAI API (v1.74.0) 调用，为商业模型，论文未提及任何模型权重的开源获取方式。数据集： Berlin Database of Emotional Speech (EMO-DB)：论文对其进行了详细分析。获取链接通常为柏林工业大学主页：http://deposit.ddb.cnbv.berlin.de/DB1/EMODB/。论文参考文献[6]通常包含此链接。 Banaszak演讲数据：来自德国联邦议院官方媒体库。链接：https://www.bundestag.de/medien/video。需根据日期（2026年3月5日）和发言者（Felix Banaszak）搜索具体视频。 PAVOQUE：论文在Section 6提及此数据集用于未来工作，但未提供链接。 Demo：论文中未提及。复现材料：论文提供了详细的复现相关材料，包括： Arousal/Valence投影权重表（Table 1）。 EMO-DB完整说话者×情感矩阵（Table 5， Appendix A）。 Banaszak演讲的41个分段详细评分表（Table 6， Appendix B），包含e2v-A, e2v-V, Gem-A, Gem-V, Pathos, Gem-Emotion, Gem-Rhetoric。论文中引用的开源项目： emotion2vec: https://github.com/ddlBoJack/emotion2vec WhisperX: https://github.com/m-bain/whisperX pyannote.audio: https://github.com/pyannote/pyannote-audio FFmpeg: https://ffmpeg.org/ OpenFace: https://github.com/TadasBaltrusaitis/OpenFace L2CS-Net: https://github.com/HciRLab/L2CS-Net MediaPipe: https://google.github.io/mediapipe/ EmoBox: https://github.com/JunchenX/EmoBox 🏗️ 方法概述和架构本研究的核心方法是在TRUST框架内，对来自同一语音片段的“声学情感”与“LLM多模态情感”估计值，与“TRUST-Pathos”评分进行统计相关性比较。整体分析流程如论文Section 3所述，主要包含四个阶段：数据准备、三种模态的特征提取与评分、统计分析。 ...

ACIR-MACL: Effective Multimodal Sentiment Analysis via Attention-Based Causal Intervention Regularization and Multi-Aspect Contrastive Learning

📄 ACIR-MACL: Effective Multimodal Sentiment Analysis via Attention-Based Causal Intervention Regularization and Multi-Aspect Contrastive Learning #情感分析 #对比学习 #因果推理 #多模态模型 #跨模态 ✅ 7.0/10 | 前25% | #情感分析 | #对比学习 | #因果推理 #多模态模型学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Lei Liu (云南大学信息科学与工程学院) 通讯作者：You Zhang (云南大学信息科学与工程学院) 作者列表：Lei Liu (云南大学信息科学与工程学院), You Zhang* (云南大学信息科学与工程学院), Jin Wang (云南大学信息科学与工程学院), Dan Xu (云南大学信息科学与工程学院), Xuejie Zhang (云南大学信息科学与工程学院) 💡 毒舌点评亮点：将因果推断中的“前门调整”思想创造性地应用于注意力机制，通过构造反事实路径进行正则化，为解决多模态中的虚假关联提供了新颖且理论依据较强的技术路径。短板：虽然提供了代码链接，但核心消融实验（Table 3）的具体数值在所提供的文本中缺失，严重削弱了其结论的可验证性和复现指导价值，对于一篇声称在顶级会议发表的工作而言，这是关键的细节疏漏。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/1579364808/ACIR-MACL。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文使用的是公开基准数据集（CMU-MOSI, CMU-MOSEI, CH-SIMS），但未提供获取或处理这些数据集的额外脚本。 Demo：论文中未提及提供在线演示。复现材料：论文提供了代码，但复现所需的部分关键材料存在缺失：1) 消融实验（Table 3）的完整数值表格；2) 详细的超参数配置（如各损失项的权重λacir, λscl等具体值、学习率、字典大小K）；3) 训练过程的详细日志或检查点。论文中引用的开源项目：引用并依赖了以下开源工具/模型：BERT (bert-base-uncased, bert-base-chinese)、COVAREP（用于声学特征提取）、FACET（用于视觉特征提取，来自iMotions）、M-SENA平台（可能用于数据处理或基线对比）。 📌 核心摘要要解决什么问题：本论文旨在解决多模态情感分析（MSA）中两个核心挑战：一是非文本模态（视觉、声学）中存在的虚假相关性（spurious correlations），导致模型学习到错误的捷径；二是如何学习到跨模态对齐且具有类别判别性的统一表示，以弥合模态鸿沟。方法核心是什么：提出ACIR-MACL框架，包含两个并行模块：（1）基于注意力的因果干预正则化（ACIR），其核心是受“前门调整”启发，通过构建一个去除混淆因子（confounder）的反事实注意力路径，并与原始事实路径进行一致性约束，从而净化视觉和声学特征在注意力融合过程中的影响。（2）多方面对比学习（MACL），它将对比学习目标系统性地拆分为跨模态对齐（SCL）、模态内类别可分性（IAMCL）和跨模态类别可分性（IEMCL）三个子目标分别优化。与已有方法相比新在哪里：新在将因果干预的思路从特征层面提升到注意力机制的过程层面，并设计了双路径（事实/反事实）的正则化方案。同时，MACL明确区分并独立优化了“对齐”和“判别”这两个通常被混合处理的对比学习目标，提供了更精细的表示学习策略。主要实验结果如何：在MOSI、MOSEI和CH-SIMS三个基准数据集上进行了广泛实验。如表1所示，在MOSI数据集上，本方法在二分类准确率（Acc-2）、F1值（F1）和五分类准确率（Acc-5）上取得最佳（87.20%， 87.08%， 53.79%）。在更大规模的MOSEI数据集上，在五分类和七分类准确率（Acc-5， Acc-7）以及相关性（Corr）上取得最佳。在中文数据集CH-SIMS上，在二分类、三分类和五分类准确率上取得最佳。消融实验（表3，但具体数值未提供）表明，移除ACIR或MACL模块均导致性能显著下降，验证了各模块的有效性。实际意义是什么：该工作推动了因果推断和对比学习在多模态情感分析中的融合应用，为构建更鲁棒、更可解释的MSA模型提供了新思路。其方法框架具有通用性，可被借鉴到其他多模态学习任务中。主要局限性是什么：论文未提供消融实验的完整数值表格，影响了对组件贡献的精确评估。ACIR模块依赖于可学习的“混淆因子字典”，其初始化（K-means）和更新机制对最终性能的影响有待更深入分析。此外，论文未探讨该方法在更极端的模态缺失或噪声场景下的鲁棒性。 🏗️ 模型架构 ACIR-MACL框架整体分为三个阶段：单模态特征编码、融合与表示学习（包含ACIR和MACL）、预测与损失计算。其详细架构如图1所示。 ...

ICASSP 2026 - 情感分析论文列表

ICASSP 2026 - 情感分析共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MCF: Text LLMS for Multimodal Emotional Causality 8.0分前25% 🥈 Temporal-Spatial Decouple Before Act: Disentangled Represent 7.5分前25% 🥉 ACIR-MACL: Effective Multimodal Sentiment Analysis via Atten 7.0分前25% 📋 论文详情 🥇 MCF: Text LLMS for Multimodal Emotional Causality 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集 👥 作者与机构第一作者：Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学）通讯作者：Yichen Li（华中科技大学）；Chong Li（西安交通大学-利物浦大学）；Jionglong Su（西安交通大学-利物浦大学）作者列表： Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学） Yuxuan Zhang（西安交通大学-利物浦大学） Rui Chen（西安交通大学-利物浦大学） Man Lei（西安交通大学-利物浦大学） Yibo Yuan（西安交通大学-利物浦大学） Xiwei Liu（穆罕默德·本·扎耶德人工智能大学） Runyi Lin（西安交通大学-利物浦大学） Tianrui Li（西安交通大学-利物浦大学） Mingze Jiang（西安交通大学-利物浦大学） Anyi Liu（西安交通大学-利物浦大学） Yichen Li（华中科技大学） Chong Li（西安交通大学-利物浦大学） Jionglong Su（西安交通大学-利物浦大学） 💡 毒舌点评 ...

MCF: Text LLMS for Multimodal Emotional Causality

📄 MCF: Text LLMS for Multimodal Emotional Causality #情感分析 #多模态模型 #大语言模型 #数据集 🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学）通讯作者：Yichen Li（华中科技大学）；Chong Li（西安交通大学-利物浦大学）；Jionglong Su（西安交通大学-利物浦大学）作者列表： Yulong Li（西安交通大学-利物浦大学；穆罕默德·本·扎耶德人工智能大学） Yuxuan Zhang（西安交通大学-利物浦大学） Rui Chen（西安交通大学-利物浦大学） Man Lei（西安交通大学-利物浦大学） Yibo Yuan（西安交通大学-利物浦大学） Xiwei Liu（穆罕默德·本·扎耶德人工智能大学） Runyi Lin（西安交通大学-利物浦大学） Tianrui Li（西安交通大学-利物浦大学） Mingze Jiang（西安交通大学-利物浦大学） Anyi Liu（西安交通大学-利物浦大学） Yichen Li（华中科技大学） Chong Li（西安交通大学-利物浦大学） Jionglong Su（西安交通大学-利物浦大学） 💡 毒舌点评亮点在于其核心思想颇具巧思：与其让笨重的多模态模型学会复杂推理，不如让擅长推理的文本LLM通过一个精巧的“翻译框架”（MCF）来“看懂”和“听懂”视频音频，最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件（如DFER-CLIP, SenseVoice），在完全不同的文化背景、视频风格或对话场景下是否依然有效，是个巨大的问号，论文并未提供跨域泛化的证据。 ...

Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis

📄 Mitigating Shared-Private Branch Imbalance via Dual-Branch Rebalancing for Multimodal Sentiment Analysis #多模态模型 #对比学习 #跨模态 #情感分析 #基准测试 ✅ 7.5/10 | 前25% | #多模态模型 | #对比学习 | #跨模态 #情感分析 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.2 | 置信度高 👥 作者与机构第一作者：Chunlei Meng（复旦大学智能机器人与先进制造学院）通讯作者：Chun Ouyang（复旦大学智能机器人与先进制造学院，邮箱标为*）作者列表：Chunlei Meng（复旦大学）、Jiabin Luo（北京大学）、Pengbin Feng（南加州大学）、Zhenglin Yan（复旦大学）、Chengyin Hu（中国石油大学北京克拉玛依校区）、Zhongxue Gan（复旦大学）、Chun Ouyang（复旦大学） 💡 毒舌点评亮点：论文对现有共享-私有分解方法中“分支不平衡”问题的诊断非常精准，提出的两个针对性模块（处理共享冗余的TSF和防止私有特征稀释的AGPR）逻辑清晰，并通过可视化证据（如t-SNE、注意力分布）有力支持了其论点。短板：整体框架模块较多，增加了理解和调参的复杂度；此外，方法在很大程度上依赖于作为基础的“标准多模态解码”阶段，对该阶段质量的敏感性未被充分探讨。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开的CMU-MOSI, CMU-MOSEI和MIntRec数据集，但论文未提供具体获取或预处理脚本。 Demo：未提及。复现材料：提供了详细的模型架构图（图2）、主要损失函数公式（公式2, 3, 12-14, 20-22）和部分训练超参数（batch size=128, weight decay=1e-4, Adam, 5-fold CV, patience=6）。但关键细节如学习率、特征维度、各模块具体层数/隐藏维度、损失权重\(\alpha_1, \alpha_2, \beta_1, \beta_2\)的具体取值等未说明。论文中引用的开源项目：提到了使用的预训练模型（BERT）和基础编码器（TCN），但未具体说明其来源或版本。 📌 核心摘要问题：论文指出，在多模态情感分析的共享-私有分解框架中，模态异质性并未被消除，而是导致了“共享-私有分支不平衡”：共享分支积累冗余且偏向主导模态的模式，而私有分支在交互中逐渐同质化，丧失判别性。方法核心：提出双分支再平衡框架（DBR）。它在标准多模态解码（MD）后，用时序-结构分解（TSF）模块在共享分支中分离并自适应融合时序与结构信息，抑制冗余；用锚点引导的私有路由（AGPR）模块在私有分支中保留模态特异性并调控跨模态借用；最后用双向再平衡融合（BRF）模块将两个正则化后的分支进行上下文感知的集成。创新点：与现有方法侧重于更干净的分解或更强的交互不同，DBR首次将“分支不平衡”作为统一问题进行诊断和协同治理，其创新在于提出了一套针对性的“再平衡”机制，而非简单增加交互强度。实验结果：在CMU-MOSI、CMU-MOSEI和MIntRec三个基准上，DBR在所有评估指标上均超越了现有方法。例如，在MOSI上，DBR的Acc-7达到49.26%，比次优方法高2.18%；在MOSEI上，Acc-7达到55.62%，MAE降至0.526。消融实验显示，移除任一模块（TSF, AGPR, BRF）均会导致性能下降，其中AGPR影响最大。实际意义：该工作为解决多模态表示学习中的信息冗余与特异性丧失提供了新的视角和有效框架，有助于提升模型对复杂情感的理解鲁棒性，对情感计算、人机交互等领域有推动作用。主要局限性：框架由多个模块组成，增加了计算和实现的复杂性（尽管效率分析显示其每轮时间与近期SOTA相当）；论文主要关注情感分析任务，方法在其他多模态任务上的泛化能力有待验证。 🏗️ 模型架构 DBR框架建立在一个标准的多模态解码（MD）阶段之上，整体流程为：多模态特征编码与解码 -> 双分支（共享/私有）再平衡 -> 双向融合与预测。 ...

Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis

📄 Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis #多模态模型 #情感分析 #解耦学习 #音视频 ✅ 7.5/10 | 前25% | #情感分析 | #解耦学习 | #多模态模型 #音视频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Chunlei Meng (Fudan University, 即复旦大学) 通讯作者：Chun Ouyang (Fudan University, 即复旦大学) 作者列表：Chunlei Meng（复旦大学）†、Ziyang Zhou（汕头大学）、Lucas He（伦敦大学学院）、Xiaojing Du（南澳大学）、Chun Ouyang（复旦大学）†、Zhongxue Gan（复旦大学）（†表示通讯作者） 💡 毒舌点评亮点：论文的动机非常清晰，直指当前多模态融合中“时空信息混合建模”导致静态特征主导的痛点，并为此设计了一套从解耦、对齐到重耦合的完整技术流水线，逻辑自洽且实验验证充分。短板：论文的可视化分析（图2）虽然展示了特征分布的改善，但缺乏对“解耦出的时空特征究竟学到了什么”更具体的语义或模态内解释，使得这个“黑箱”模型的可解释性打了折扣；此外，论文未开源代码，限制了其即时影响力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用公开基准CMU-MOSI和CMU-MOSEI。 Demo：未提及。复现材料：提供了一些训练细节（优化器Adam、权重衰减、批大小16、最多50 epoch、早停、五折交叉验证），但缺失关键信息（如各模态特征提取方式、模型具体维度、学习率、损失权重α/β/γ的具体值）。论文中未提及完整的复现计划或资源链接。论文中引用的开源项目：未提及。总结：论文中未提及开源计划。 📌 核心摘要要解决的问题：现有主流多模态情感分析方法在进行跨模态交互前，将时间动态信息（如语音韵律突变、视频微表情）和空间结构信息（如说话人身份、背景、句子整体极性）混合编码为单一嵌入，导致学习过程偏向于更稳定、方差大的静态成分，从而忽略了关键的时间轨迹信息，造成“时空信息不对称”，性能受限。方法核心：提出TSDA（Temporal-Spatial Decouple before Act）框架。其核心是在任何跨模态交互之前，先为每个模态（语言、视觉、声学）学习解耦的“时间动态”和“空间结构”表征。具体包括：（1）独立的时间编码器和空间编码器；（2）因子一致性跨模态对齐（FCCA），使用块对角掩码注意力确保时间特征只与其它模态的时间特征对齐，空间特征同理；（3）门控重耦合（GR）模块，根据可靠度自适应融合对齐后的时间与空间表征。与已有方法相比新在哪里：不同于大多数方法在融合前进行模态内或跨模态的不变/特定因子解耦（如MISA），TSDA更进一步，将时间与空间这两个正交的维度显式地解耦并独立进行跨模态对齐。这避免了传统混合编码中时空信息的相互干扰，是一种更细粒度的解耦学习范式。主要实验结果：TSDA在CMU-MOSI和CMU-MOSEI两个标准基准测试的所有指标上均取得了最优（SOTA）结果。具体对比如下表所示，尤其在平均绝对误差（MAE）和7类准确率（ACC7）上优势明显。消融实验证明了解耦、FCCA和门控重耦合等各组件的必要性。表1：在CMU-MOSI和CMU-MOSEI数据集上与现有方法的性能对比（对齐/未对齐设置） ...