多模态情感识别

Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition

📄 Ordering Matters: Rank-Aware Selective Fusion for Blended Emotion Recognition #多模态情感识别 #多编码器融合 #注意力机制 #领域适应 #竞赛系统 📝 5.0/10 | 后50% | #多模态情感识别 | #多编码器融合 | #注意力机制 #领域适应 | arxiv 学术质量 4.3/7 | 影响力 0.5/2 | 可复现性 0.2/2 | 置信度中 👥 作者与机构第一作者：Junghyun Lee (梨花女子大学人工智能与软件系) 通讯作者：Junhyug Noh (梨花女子大学人工智能与软件系) 作者列表：Junghyun Lee, Hyunseo Kim, Hanna Jang, Junhyug Noh (均来自梨花女子大学人工智能与软件系) 💡 毒舌点评这篇论文提供了一个在特定竞赛（BlEmoRE）中取得第二名的完整系统方案，展示了如何将大量异构预训练编码器通过一个统一的框架进行整合。其核心是将多编码器融合问题重新定义为动态排序与选择问题，这一视角具有一定的启发性。然而，论文的贡献高度局限于竞赛场景，其“创新”更多是现有技术（注意力门控、top-n选择、双头预测、领域对抗）的有效组合与超参数调优，缺乏对选择机制本身的深入理论分析或更广泛的实验验证。论文更像一份高质量的竞赛技术报告，而非一篇推动领域认知的学术研究。 📌 核心摘要本文针对混合情绪识别（即多种情绪以不同强度共存）任务，提出了一种排序感知的多编码器选择性融合框架。该方法的核心是动态估计每个样本中不同编码器的重要性，仅融合最重要的top-n个编码器特征，以更好地捕获互补信息。与已有方法相比，其新意在于：1) 将多编码器融合问题明确表述为排序选择问题；2) 设计了针对情绪存在（presence）和显著性（salience）的双头预测与概率级对齐机制；3) 引入无伪标签的特征级领域对抗适应（UDA）。在BlEmoRE挑战赛数据上，该方法超越了强基线模型，最终系统排名第二，证明了排序感知选择的有效性。主要局限是实验仅在一个特定竞赛数据集上验证，且方法本质是工程组合而非理论突破。主要实验结果（来自论文Table I）：方法编码器设置 UDA Top-n 验证集 ACC_pres 验证集 ACC_sal 测试集 ACC_pres 测试集 ACC_sal 测试集 ACC_avg Baseline ImageBind – – 0.290±0.028 0.130±0.008 0.261 0.087 0.174 Baseline ImageBind + WavLM – – 0.345±0.035 0.170±0.055 0.327 0.114 0.221 Baseline HiCMAE – – 0.298±0.025 0.180±0.036 0.268 0.180 0.224 Baseline Trivial (single emotion) – – 0.077±0.005 0.000±0.000 0.074 0.000 0.037 Baseline Trivial (blend) – – 0.056±0.005 0.035±0.003 0.056 0.033 0.044 Ours HiCMAE + 22 video + 13 audio encoders ✗ ✗ 0.402±0.021 0.221±0.035 0.428 0.168 0.298 Ours HiCMAE + 22 video + 13 audio encoders ✓ ✗ 0.442±0.021 0.221±0.035 0.450 0.165 0.307 Ours HiCMAE + 22 video + 13 audio encoders ✓ ✓ 0.434±0.021 0.212±0.049 0.423 0.201 0.312 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文主要使用 BlEmoRE 挑战赛数据集，但未提供直接下载地址或开源协议信息。 Demo：论文中未提及。复现材料：论文在附录B和C中提供了部分复现细节，包括：特征提取流水线描述、36个编码器池列表（Table III）、主要超参数设置（表IV）、不同 top-n 选择下的交叉验证性能（表V）、编码器选择频率及重要性分析图（图4-6）。但未提供具体的训练脚本、代码或模型检查点。论文中引用的开源项目：论文在相关工作及附录B中提及了大量作为特征提取骨干的开源模型，包括：CLAP, CLIP, DINOv2, DINOv3, EVA系列, SigLIP2系列, VideoMAE v2, Video Swin Transformer, InternVL3.5系列, OpenFace 2.0/3.0, WavLM Large, emotion2vec系列, wav2vec2系列, HuBERT Large, Whisper v3, ImageBind, HiCMAE, Gradient Reversal Layer。但未在文中提供具体链接。 🏗️ 方法概述和架构图1展示了所提出的排名感知多编码器选择性融合框架的整体流程。该框架接收来自一个包含36个预提取编码器（22个视频、13个音频、1个多模态）的异构特征池，旨在动态选择并融合最相关的编码器特征以预测混合情绪。整个系统可以分解为五个核心组件，数据按顺序流动： ...

Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation

📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Huan Zhao (论文中作者列表首位，但未明确标注“第一作者”，因此按惯例推断) 通讯作者：Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表：Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评该论文的亮点在于其“共识感知学习模块”设计得相当精巧，通过原型学习和说话人对比损失双管齐下，直击多模态情感识别中“模态冲突”这一核心痛点，理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破，且“共识原型”的学习本质上还是依赖于有监督的类别标签，对于完全未知的、细粒度的或混合情感表达，其泛化能力有待进一步验证。 🔗 开源详情代码：是。论文提供了GitHub代码仓库链接：https://github.com/Clancyy/ConGraNet。模型权重：未提及。论文未说明是否公开预训练模型权重。数据集：未提及。论文使用的是公开数据集（IEMOCAP， MELD），但未说明是否提供处理后的数据或额外资源。 Demo：未提及。论文未提供在线演示链接。复现材料：提供了部分复现材料，包括：关键的超参数配置表（表1）。模型架构描述和公式。代码仓库（假设包含实现）。但未提供：训练日志、最终检查点、详细的环境配置文档。论文中引用的开源项目：论文在参考文献中引用了多个开源数据集（如IEMOCAP [17]， MELD [18]）和基线模型代码（如DialogueRNN [19]， DialogueGCN [21]等）。 📌 核心摘要要解决的问题：现有对话多模态情感识别（MERC）方法常忽略同一情感类别在不同模态（如声音、语言、表情）下所体现的“情感共识”，导致模态间冲突信号影响识别精度，且难以处理类别混淆和样本不均衡问题。方法核心：提出图基情感共识感知（GECP）框架。其核心是共识感知学习（CAL）模块，包含两阶段：1) 构建多模态传播图以捕获跨模态共享信号与特有差异；2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐，提炼类别本质特征。与已有方法相比新在何处：不同于以往主要关注上下文依赖或简单融合的方法，GECP显式地建模并学习了类别级的情感共识原型，并通过引入说话人引导的对比学习损失，在对齐跨模态语义的同时，保留了个体表达的多样性。主要实验结果：在IEMOCAP和MELD数据集上，GECP均取得了最佳性能。 IEMOCAP：Weighted-F1 72.85%， Accuracy 72.91%，较之前最优模型（Frame-SCN）分别提升约1.85%和1.93%。 MELD：Weighted-F1 66.96%， Accuracy 68.08%，较之前最优模型（FrameERC）分别提升约0.33%和0.46%。消融实验证明，移除CA单元或任一损失函数（Lc, LSpk）都会导致性能下降，其中移除CA单元下降最明显。实际意义：提升了机器在复杂对话场景中理解人类情感的能力，尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效，可直接应用于提升智能客服、社交机器人等系统的交互体验。主要局限性：论文中未深入讨论。潜在局限可能包括：对动态演变的情感共识建模不足（未来工作已提及）、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构图1展示了GECP的总体架构，其处理流程如下： ...

ICASSP 2026 - 多模态情感识别论文列表

ICASSP 2026 - 多模态情感识别共 2 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit S 8.0分前25% 🥈 Graph-Based Emotion Consensus Perception Learning for Multim 7.5分前25% 📋 论文详情 🥇 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性 👥 作者与机构第一作者：Gang Xie（杭州电子科技大学计算机学院）通讯作者：Wanzeng Kong（杭州电子科技大学计算机学院）作者列表：Gang Xie（杭州电子科技大学计算机学院）、Jiajia Tang（杭州电子科技大学计算机学院）、Tianyang Qin（杭州电子科技大学计算机学院）、Yiwen Shen（杭州电子科技大学计算机学院）、Wanzeng Kong（杭州电子科技大学计算机学院） 💡 毒舌点评 ...

NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition

📄 NeuroSIFT: A Biologically-Inspired Framework with Explicit Signal-Noise Separation for Robust Multimodal Emotion Recognition #多模态情感识别 #神经形态计算 #多任务学习 #鲁棒性 #跨模态 🔥 8.0/10 | 前25% | #多模态情感识别 | #神经形态计算 | #多任务学习 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Gang Xie（杭州电子科技大学计算机学院）通讯作者：Wanzeng Kong（杭州电子科技大学计算机学院）作者列表：Gang Xie（杭州电子科技大学计算机学院）、Jiajia Tang（杭州电子科技大学计算机学院）、Tianyang Qin（杭州电子科技大学计算机学院）、Yiwen Shen（杭州电子科技大学计算机学院）、Wanzeng Kong（杭州电子科技大学计算机学院） 💡 毒舌点评这篇论文最亮眼的地方是它“仿生”不玩虚的，直接模仿海马体神经回路的选择性抑制机制来做信号分离，并在两个主流数据集上取得了显著的性能提升（如CH-SIMSv2上F1值提升5.44%），证明了思路的有效性。但短板也很明显：一是生物启发到计算模型的映射稍显简单化（如将复杂的神经元交互简化为两个门控信号），理论解释有待深化；二是全文未开源任何代码或模型，对于一篇强调“框架”和“复现”的论文来说，这严重削弱了其影响力。 🔗 开源详情论文中未提及开源计划。具体来说：代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的CH-SIMSv2和MUStARD数据集，但论文中未说明具体获取或预处理方式。 Demo：未提及。复现材料：论文提供了部分关键架构和损失函数公式，但缺少完整的超参数配置、训练日志和检查点。论文中引用的开源项目：未提及引用了哪些特定的开源代码库。 📌 核心摘要问题：现有多模态情感识别（MER）方法因无法显式分离真实世界中的复杂噪声（感知、结构、语义噪声）而性能下降，多依赖隐式的噪声适应策略。方法核心：提出NeuroSIFT框架，受海马体-前额叶回路中SST+、PV+和VIP+中间神经元的选择性抑制机制启发。框架包含三个核心组件：语义模拟噪声生成器（生成与输入语义对齐的噪声参考）、神经回路选择性抑制模块（利用噪声参考显式分解输入为情感信号和结构化噪声）、双流对抗训练框架（分别处理并利用分解后的信号与噪声流）。创新点：与已有方法相比，核心创新在于实现了显式的信号-噪声分离，而非隐式适应。具体创新包括：1) 基于批次负采样的语义噪声生成；2) 模仿生物神经抑制与去抑制的分离模块；3) 利用噪声流增强对抗鲁棒性的双流训练。主要实验结果：在CH-SIMSv2和MUStARD数据集上全面超越现有SOTA方法。具体如下表所示：数据集方法主要指标 CH-SIMSv2 NeuroSIFT (Ours) Acc-2: 89.13, F1-2: 89.14, Corr: 0.835 最佳基线 (Coupled Mamba) Acc-2: 83.40, F1-2: 83.50, Corr: 0.758 提升 +5.33% (Acc), +5.44% (F1) MUStARD NeuroSIFT (Ours) Acc: 77.68, F1: 77.51 最佳基线 (CAF-I) Acc: 75.50, F1: 75.20 提升 +1.95% (Acc), +2.12% (F1) 实际意义：为构建对真实世界噪声更鲁棒的多模态情感识别系统提供了一种新的生物启发设计范式，其“分离-再利用”的思路可能对其他多模态感知任务有借鉴意义。主要局限性：1) 生物机制到算法的映射是高度简化的，可能未能完全捕捉真实神经回路的复杂性；2) 论文承认双流设计引入了计算开销；3) 未开源代码与模型，限制了可复现性。 🏗️ 模型架构 NeuroSIFT的整体架构如图1所示，其处理流程是：输入多模态数据（文本、音频、视频） -> 语义模拟噪声生成 -> 神经回路选择性抑制进行显式分解 -> 双流并行处理与对抗训练 -> 输出情感分类。 ...