ICASSP 2026 - 情感分析
共 3 篇论文
📋 论文详情
🥇 MCF: Text LLMS for Multimodal Emotional Causality
🔥 8.0/10 | 前25% | #情感分析 | #多模态模型 | #大语言模型 #数据集
👥 作者与机构
- 第一作者:Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学)
- 通讯作者:Yichen Li(华中科技大学);Chong Li(西安交通大学-利物浦大学);Jionglong Su(西安交通大学-利物浦大学)
- 作者列表:
- Yulong Li(西安交通大学-利物浦大学;穆罕默德·本·扎耶德人工智能大学)
- Yuxuan Zhang(西安交通大学-利物浦大学)
- Rui Chen(西安交通大学-利物浦大学)
- Man Lei(西安交通大学-利物浦大学)
- Yibo Yuan(西安交通大学-利物浦大学)
- Xiwei Liu(穆罕默德·本·扎耶德人工智能大学)
- Runyi Lin(西安交通大学-利物浦大学)
- Tianrui Li(西安交通大学-利物浦大学)
- Mingze Jiang(西安交通大学-利物浦大学)
- Anyi Liu(西安交通大学-利物浦大学)
- Yichen Li(华中科技大学)
- Chong Li(西安交通大学-利物浦大学)
- Jionglong Su(西安交通大学-利物浦大学)
💡 毒舌点评
亮点在于其核心思想颇具巧思:与其让笨重的多模态模型学会复杂推理,不如让擅长推理的文本LLM通过一个精巧的“翻译框架”(MCF)来“看懂”和“听懂”视频音频,最终效果甚至超越了原生多模态巨头。短板则在于该框架极度依赖其专门发布的GENESIS数据集和特定组件(如DFER-CLIP, SenseVoice),在完全不同的文化背景、视频风格或对话场景下是否依然有效,是个巨大的问号,论文并未提供跨域泛化的证据。
📌 核心摘要
- 问题:现有模型在处理超长对话(平均200+轮次)中的多模态情感因果推理时面临严重瓶颈,传统多模态模型性能受限,而强大的文本LLM又无法直接感知视频和音频中的情感线索。
- 方法核心:提出MCF(Multimodal Causality Framework),一个“识别-记忆-归因”三阶段架构。通过自适应保真控制机制保留关键情感线索,通过跨模态语义对齐模块将视听信息转化为文本LLM可理解的表示,并通过分层记忆管理解决长序列依赖问题。
- 创新点:首次提出使纯文本LLM具备长程多模态情感因果分析能力;创新性地设计了三阶段处理架构;发布了首个大规模、长对话多模态情感因果数据集GENESIS。
- 实验结果:在GENESIS数据集上,MCF框架使Qwen2.5-72B-Instruct在情感状态准确率(ESA)等四个核心指标上,分别比文本基线GPT-o1提升了24.67、22.75、22.42和15.58个百分点,并全面超越了GPT-4o和Gemini 1.5 Pro等先进多模态模型(详见Table 1)。
| 模型 (类别) | ESA | SIA | RCLLM | RCEM |
|---|---|---|---|---|
| GPT-o1 (文本基线) | 65.51 | 50.16 | 44.03 | 30.07 |
| 平均多模态模型 | 41.02 | 36.32 | 18.70 | 11.03 |
| GPT-4o (多模态) | 47.23 | 42.89 | 22.34 | 13.78 |
| Gemini 1.5 Pro (多模态) | 46.12 | 41.67 | 21.78 | 13.23 |
| Qwen2.5-72B-Instruct (文本) | 48.22 | 33.69 | 28.36 | 19.63 |
| Qwen2.5-72B + MCF | 72.89 | 56.44 | 50.78 | 35.21 |
- 实际意义:为情感计算领域提供了将多模态感知与文本推理能力相结合的新范式,有望推动情感AI在心理健康、教育、社交陪伴等场景的深度应用。
- 主要局限性:框架性能高度依赖于其发布的特定数据集GENESIS,以及在识别阶段使用的特定工具(如DFER-CLIP, SenseVoice),其在未见过的新领域或数据上的泛化能力未经证实。此外,论文未提供模型完整的训练细节。
🥈 Temporal-Spatial Decouple Before Act: Disentangled Representation Learning for Multimodal Sentiment Analysis
✅ 7.5/10 | 前25% | #情感分析 | #解耦学习 | #多模态模型 #音视频
👥 作者与机构
- 第一作者:Chunlei Meng (Fudan University, 即复旦大学)
- 通讯作者:Chun Ouyang (Fudan University, 即复旦大学)
- 作者列表:Chunlei Meng(复旦大学)†、Ziyang Zhou(汕头大学)、Lucas He(伦敦大学学院)、Xiaojing Du(南澳大学)、Chun Ouyang(复旦大学)†、Zhongxue Gan(复旦大学) (†表示通讯作者)
💡 毒舌点评
亮点:论文的动机非常清晰,直指当前多模态融合中“时空信息混合建模”导致静态特征主导的痛点,并为此设计了一套从解耦、对齐到重耦合的完整技术流水线,逻辑自洽且实验验证充分。 短板:论文的可视化分析(图2)虽然展示了特征分布的改善,但缺乏对“解耦出的时空特征究竟学到了什么”更具体的语义或模态内解释,使得这个“黑箱”模型的可解释性打了折扣;此外,论文未开源代码,限制了其即时影响力。
📌 核心摘要
- 要解决的问题:现有主流多模态情感分析方法在进行跨模态交互前,将时间动态信息(如语音韵律突变、视频微表情)和空间结构信息(如说话人身份、背景、句子整体极性)混合编码为单一嵌入,导致学习过程偏向于更稳定、方差大的静态成分,从而忽略了关键的时间轨迹信息,造成“时空信息不对称”,性能受限。
- 方法核心:提出TSDA(Temporal-Spatial Decouple before Act)框架。其核心是在任何跨模态交互之前,先为每个模态(语言、视觉、声学)学习解耦的“时间动态”和“空间结构”表征。具体包括:(1)独立的时间编码器和空间编码器;(2)因子一致性跨模态对齐(FCCA),使用块对角掩码注意力确保时间特征只与其它模态的时间特征对齐,空间特征同理;(3)门控重耦合(GR)模块,根据可靠度自适应融合对齐后的时间与空间表征。
- 与已有方法相比新在哪里:不同于大多数方法在融合前进行模态内或跨模态的不变/特定因子解耦(如MISA),TSDA更进一步,将时间与空间这两个正交的维度显式地解耦并独立进行跨模态对齐。这避免了传统混合编码中时空信息的相互干扰,是一种更细粒度的解耦学习范式。
- 主要实验结果:TSDA在CMU-MOSI和CMU-MOSEI两个标准基准测试的所有指标上均取得了最优(SOTA)结果。具体对比如下表所示,尤其在平均绝对误差(MAE)和7类准确率(ACC7)上优势明显。消融实验证明了解耦、FCCA和门控重耦合等各组件的必要性。
表1:在CMU-MOSI和CMU-MOSEI数据集上与现有方法的性能对比(对齐/未对齐设置)
| 方法 | CMU-MOSI MAE (↓) | CMU-MOSI ACC7 (%) | CMU-MOSI ACC2 (%) | CMU-MOSI F1 (%) | CMU-MOSEI MAE (↓) | CMU-MOSEI ACC7 (%) | CMU-MOSEI ACC2 (%) | CMU-MOSEI F1 (%) |
|---|---|---|---|---|---|---|---|---|
| LMF [20] | 0.931 / 0.963 | 36.9 / 31.1 | 78.7 / 79.1 | 78.7 / 79.1 | 0.564 / 0.565 | 52.3 / 51.9 | 84.7 / 83.8 | 84.5 / 83.9 |
| MuLT [21] | 0.936 / 0.933 | 35.1 / 33.2 | 80.0 / 80.3 | 80.1 / 80.3 | 0.572 / 0.556 | 52.3 / 53.2 | 82.7 / 84.0 | 82.8 / 84.0 |
| TFN [22] | 0.953 / 0.995 | 31.9 / 35.3 | 78.8 / 76.5 | 78.9 / 76.6 | 0.574 / 0.573 | 50.9 / 50.2 | 80.4 / 84.2 | 80.7 / 84.0 |
| MISA [12] | 0.754 / 0.742 | 41.8 / 43.6 | 84.2 / 83.8 | 84.2 / 83.9 | 0.543 / 0.557 | 52.3 / 51.0 | 85.3 / 84.8 | 85.1 / 84.8 |
| FDMER [13] | - / 0.725 | - / 44.2 | - / 84.6 | - / 84.7 | - / 0.536 | - / 53.8 | - / 84.1 | - / 84.0 |
| ConFEDE [11] | - / 0.742 | - / 46.3 | - / 84.2 | - / 84.2 | - / 0.523 | - / 54.9 | - / 81.8 | - / 82.3 |
| Self-MM [5] | 0.738 / 0.724 | 45.3 / 45.7 | 84.9 / 83.4 | 84.9 / 83.6 | 0.540 / 0.535 | 53.2 / 52.9 | 84.5 / 85.3 | 84.3 / 84.8 |
| MMIN [4] | - / 0.741 | - / - | 83.5 / 85.5 | 83.5 / 85.51 | - / 0.542 | - / - | 83.8 / 85.9 | 83.9 / 85.76 |
| DMD [9] | 0.721 / 0.721 | 46.2 / 46.7 | 83.2 / 84.0 | 83.2 / 84.0 | 0.546 / 0.536 | 52.4 / 53.1 | 84.8 / 84.7 | 84.7 / 84.7 |
| DEVA [6] | - / 0.730 | - / 46.3 | - / 84.4 | - / 84.5 | - / 0.541 | - / 52.3 | - / 83.3 | - / 82.9 |
| DLF [15] | - / 0.731 | - / 47.1 | - / 85.1 | - / 85.1 | - / 0.536 | - / 53.9 | - / 84.4 | - / 85.3 |
| EMOE [10] | 0.710 / 0.697 | 47.7 / 47.8 | 85.4 / 85.4 | 85.4 / 85.3 | 0.536 / 0.533 | 54.1 / 53.9 | 85.3 / 85.5 | 85.3 / 85.5 |
| TSDA (Ours) | 0.695 / 0.680 | 48.6 / 48.5 | 86.3 / 86.5 | 86.2 / 86.5 | 0.529 / 0.527 | 54.9 / 54.9 | 86.3 / 86.4 | 86.2 / 86.5 |
表2:TSDA在CMU-MOSI和CMU-MOSEI数据集上的消融实验结果
| 模型 | CMU-MOSI MAE (↓) | CMU-MOSI ACC7 (%) | CMU-MOSEI MAE (↓) | CMU-MOSEI ACC7 (%) |
|---|---|---|---|---|
| TSDA (Ours) | 0.680 | 48.5 | 0.527 | 54.9 |
| w/o Temporal | 0.726 | 46.0 | 0.552 | 52.5 |
| w/o Spatial | 0.716 | 46.8 | 0.546 | 53.0 |
| w/o ST Disen. | 0.731 | 45.7 | 0.555 | 52.2 |
| w/o FCCA | 0.728 | 45.5 | 0.552 | 51.9 |
| w/o Lpur | 0.722 | 46.5 | 0.548 | 52.9 |
| w/o Ldecorr | 0.713 | 46.9 | 0.541 | 53.3 |
| w/o Lorth | 0.714 | 47.1 | 0.542 | 53.4 |
- 实际意义:TSDA为多模态情感分析乃至其他音视频融合任务提供了一种新的、更精细的表征学习思路,强调在交互前处理好不同信号源内部的时空异质性,这对于提升模型在复杂真实场景下的鲁棒性和可解释性有积极意义。
- 主要局限性:论文未在更广泛的、更具挑战性的大规模“野外”数据集上进行验证;其计算开销(双编码器+两路注意力+门控)未与基线方法进行详细对比;对于解耦出的“时间”和“空间”表征的可解释性分析仅停留在t-SNE可视化,缺乏更深入的定量或定性分析。
🥉 ACIR-MACL: Effective Multimodal Sentiment Analysis via Attention-Based Causal Intervention Regularization and Multi-Aspect Contrastive Learning
✅ 7.0/10 | 前25% | #情感分析 | #对比学习 | #因果推理 #多模态模型
👥 作者与机构
- 第一作者:Lei Liu (云南大学信息科学与工程学院)
- 通讯作者:You Zhang (云南大学信息科学与工程学院)
- 作者列表:Lei Liu (云南大学信息科学与工程学院), You Zhang* (云南大学信息科学与工程学院), Jin Wang (云南大学信息科学与工程学院), Dan Xu (云南大学信息科学与工程学院), Xuejie Zhang (云南大学信息科学与工程学院)
💡 毒舌点评
亮点:将因果推断中的“前门调整”思想创造性地应用于注意力机制,通过构造反事实路径进行正则化,为解决多模态中的虚假关联提供了新颖且理论依据较强的技术路径。短板:虽然提供了代码链接,但核心消融实验(Table 3)的具体数值在所提供的文本中缺失,严重削弱了其结论的可验证性和复现指导价值,对于一篇声称在顶级会议发表的工作而言,这是关键的细节疏漏。
📌 核心摘要
- 要解决什么问题:本论文旨在解决多模态情感分析(MSA)中两个核心挑战:一是非文本模态(视觉、声学)中存在的虚假相关性(spurious correlations),导致模型学习到错误的捷径;二是如何学习到跨模态对齐且具有类别判别性的统一表示,以弥合模态鸿沟。
- 方法核心是什么:提出ACIR-MACL框架,包含两个并行模块:(1)基于注意力的因果干预正则化(ACIR),其核心是受“前门调整”启发,通过构建一个去除混淆因子(confounder)的反事实注意力路径,并与原始事实路径进行一致性约束,从而净化视觉和声学特征在注意力融合过程中的影响。(2)多方面对比学习(MACL),它将对比学习目标系统性地拆分为跨模态对齐(SCL)、模态内类别可分性(IAMCL)和跨模态类别可分性(IEMCL)三个子目标分别优化。
- 与已有方法相比新在哪里:新在将因果干预的思路从特征层面提升到注意力机制的过程层面,并设计了双路径(事实/反事实)的正则化方案。同时,MACL明确区分并独立优化了“对齐”和“判别”这两个通常被混合处理的对比学习目标,提供了更精细的表示学习策略。
- 主要实验结果如何:在MOSI、MOSEI和CH-SIMS三个基准数据集上进行了广泛实验。如表1所示,在MOSI数据集上,本方法在二分类准确率(Acc-2)、F1值(F1)和五分类准确率(Acc-5)上取得最佳(87.20%, 87.08%, 53.79%)。在更大规模的MOSEI数据集上,在五分类和七分类准确率(Acc-5, Acc-7)以及相关性(Corr)上取得最佳。在中文数据集CH-SIMS上,在二分类、三分类和五分类准确率上取得最佳。消融实验(表3,但具体数值未提供)表明,移除ACIR或MACL模块均导致性能显著下降,验证了各模块的有效性。
- 实际意义是什么:该工作推动了因果推断和对比学习在多模态情感分析中的融合应用,为构建更鲁棒、更可解释的MSA模型提供了新思路。其方法框架具有通用性,可被借鉴到其他多模态学习任务中。
- 主要局限性是什么:论文未提供消融实验的完整数值表格,影响了对组件贡献的精确评估。ACIR模块依赖于可学习的“混淆因子字典”,其初始化(K-means)和更新机制对最终性能的影响有待更深入分析。此外,论文未探讨该方法在更极端的模态缺失或噪声场景下的鲁棒性。