Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence

📄 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence #多模态情感分析 #多模态模型 #对比学习 #混合专家 #情感计算 ✅ 7.0/10 | 前50% | #多模态情感分析 | #多模态模型 | #对比学习 #混合专家 学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室) 通讯作者:未说明 作者列表:Kaiwei Sun(重庆邮电大学 数据工程与可视化计算重点实验室)、Yixian Guo(同前)、Jin Wang(同前)、Xin Deng(同前) 💡 毒舌点评 亮点在于将“共振”与“分歧”这一对哲学概念巧妙地映射到多模态表示学习中,并借助MoE机制实现了灵活的上下文感知融合,框架设计新颖且具有较好的可解释性潜力。然而,论文的“厚度”不足:训练细节披露不全(如GPU型号、具体训练时长)、消融实验过于“标准”而缺乏更深层的机制探索(如门控网络权重可视化),且对MoE中“专家”的具体结构描述简略,让扎实的创新打了折扣。 📌 核心摘要 要解决什么问题:现有基于表示学习或融合学习的多模态情感分析方法,面临模态间冗余噪声干扰以及融合策略静态、不灵活的挑战。 方法核心是什么:提出DPMSA-MoE框架。首先分别提取文本、音频、视觉的单模态特征;然后将每个特征投影到“语义共振”和“语义分歧”两个子空间,共形成六个视角的表征,并通过对比学习进行约束;最后,设计一个基于混合专家(MoE)的“语义中介”模块,利用门控网络动态加权融合这六个专家(每个子空间对应一个专家)的输出,生成最终的多模态表征。 与已有方法相比新在哪里:1)首次在多模态情感分析中显式建模“共振”(模态一致情感)与“分歧”(模态冲突情感)的双重视角。2)将MoE机制引入多模态融合,实现了根据输入上下文自适应地选择和组合不同语义来源的动态融合,而非固定的加权拼接或注意力机制。 主要实验结果如何:在三个基准数据集上,DPMSA-MoE均取得优异性能。在MOSI数据集上,7分类准确率(Acc-7)达到45.77%,相比次优模型CGGM提升2.56个百分点;在MOSEI上,5分类准确率(Acc-5)达到54.28%,相比基线有显著提升;在CH-SIMS上,3分类准确率(Acc-3)达到71.12%,相比ALMT提升2.19个百分点。消融实验表明,移除分歧建模、共振建模或MoE融合模块都会导致性能显著下降,其中MoE模块的移除影响最大。 实际意义是什么:该框架为处理复杂、冲突的多模态情感信号提供了一种新的范式,其动态融合机制增强了模型在真实世界多变场景下的鲁棒性和适应性,可应用于更精细的社交情绪理解、人机交互反馈等场景。 主要局限性是什么:论文未公开代码、模型和详细复现实验的硬件环境,降低了可复现性。消融实验未能深入探究MoE中专家数量、门控网络设计等关键超参数的影响。此外,双视角投影层的具体设计(如Tanh激活的作用)缺乏更深入的理论或实验分析。 🏗️ 模型架构 论文提出的DPMSA-MoE框架(如图1所示)主要由三个阶段组成: 单模态特征提取: 输入:文本(T)、音频(A)、视觉(V)三种模态的原始数据。 处理:使用BERT提取文本的[CLS] token表示作为文本特征 x_t;使用两个独立的、基于Transformer的编码器分别提取视觉特征 x_v 和音频特征 x_a。 输出:三个单模态特征向量。 双视角语义建模: ...

2026-04-29

Encoding Emotion Through Self-Supervised Eye Movement Reconstruction

📄 Encoding Emotion Through Self-Supervised Eye Movement Reconstruction #语音情感识别 #自监督学习 #眼动分析 #情感计算 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | #眼动分析 #情感计算 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Marcus Ma(南加州大学) 通讯作者:未说明 作者列表:Marcus Ma(南加州大学),Jordan Prescott(南加州大学),Emily Zhou(南加州大学),Tiantian Feng(南加州大学),Kleanthis Avramidis(南加州大学),Gabor Mihaly Toth(卢森堡大学),Shrikanth Narayanan(南加州大学) 💡 毒舌点评 这篇论文巧妙地将NLP领域的自监督预训练思路移植到眼动序列分析上,成功证明了即使是低分辨率视频中“不完美”的眼动数据也蕴含着丰富的情感信息,这种“化腐朽为神奇”的特征挖掘能力是其最大亮点。然而,其情感“真值”标签严重依赖于另一个语音情感识别模型的输出,相当于用一个“黑盒”去标注数据来训练另一个模型,这种“以模型训模型”的范式在引入系统性偏差方面存在潜在风险,让最终结论的纯粹性打了个问号。 📌 核心摘要 要解决什么问题:传统眼动情感识别依赖于昂贵、受限于实验室环境的高精度眼动仪。本文旨在探索能否从自然场景下、低成本的低分辨率视频(30 FPS,320p)中提取眼动信息,并有效预测情感。 方法核心是什么:提出了一种名为GLASS的自监督学习框架。首先,利用海量无标签眼动序列数据,通过编码器-解码器Transformer模型,以自回归方式预训练“预测未来眼动”的任务。然后,冻结或微调预训练好的编码器,接上不同的时间建模头(MLP、TCN、GRU、Transformer),在有标签的小规模数据上进行下游情感预测任务的微调。 与已有方法相比新在哪里:a) 范式创新:首次将针对语言的自监督预训练思想应用于原始眼动序列的特征学习。b) 数据利用创新:有效利用了大量易于获取但质量较低的视频数据进行预训练,摆脱了对高质量标注眼动数据的依赖。c) 模型设计:通过修改预训练任务的目标(预测未来2秒、5秒、10秒眼动),发现预测时间越长,编码的情感信号越强。 主要实验结果如何:在两个下游任务上,GLASS均优于统计特征和CNN基线。实验一(VAD回归):在5秒输入下,GLASS(预测10秒)取得最优的皮尔逊相关系数r=0.294±0.03。实验二(行为分类:哭、笑、叹气):在5秒输入下,GLASS(预测5秒)取得最优的宏F1分数0.361±0.02。消融实验表明,预训练时的眼动预测性能与下游情感任务性能呈正相关。 实际意义是什么:证明了低质量、自然状态下的视频眼动数据可作为可靠的情感预测源,为情感计算走向大规模、低成本、非侵入式的真实世界应用提供了新的技术路径。 主要局限性是什么:a) 标签噪声:实验一的情感VAD标签并非人工标注,而是由基于语音的ASR+情感模型生成,其准确性直接影响模型训练上限。b) 场景特定性:研究数据集为大屠杀幸存者访谈,情感强烈且单一,模型在更普遍、平淡的日常情感场景中的泛化能力未知。c) 数据私有:使用的核心数据集非公开,限制了完全复现与直接比较。 🏗️ 模型架构 论文的核心模型GLASS采用经典的两阶段“预训练-微调”范式,其整体架构如图2所示。 阶段一:自监督预训练(左图) ...

2026-04-29

Exploring How Audio Effects Alter Emotion with Foundation Models

📄 Exploring How Audio Effects Alter Emotion with Foundation Models #音乐理解 #情感计算 #音频大模型 #模型评估 #预训练 ✅ 7.0/10 | 前50% | #音乐理解 | #预训练 | #情感计算 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Stelios Katsis(stelioskatsis12@gmail.com) 通讯作者:未说明(论文提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表:Stelios Katsis(雅典国立技术大学),Vassilis Lyberatos(雅典国立技术大学),Spyridon Kantarelis(雅典国立技术大学),Edmund Dervakos(雅典国立技术大学),Giorgos Stamou(雅典国立技术大学) 💡 毒舌点评 亮点在于研究设计的系统性和全面性,将音频效果的影响拆解为性能、预测、嵌入和真实场景四个层面进行剖析,堪称“模型听觉效应”领域的标准化审计流程。短板则是“浅层分类器探针”方法略显保守,更像是用一个简单模型去“问”复杂模型“你看到了什么”,难以挖掘基础模型内部更深层、更复杂的非线性表征变化。 📌 核心摘要 问题:音乐制作中常用的音频效果(如混响、失真、调制)会如何系统性地影响人类(或AI)对音乐情感的感知?这一系统性联系尚存研究空白。 方法核心:采用三个音频/音乐基础模型(MERT, CLAP, Qwen2-Audio)作为特征提取器,冻结其参数,后接可解释的浅层分类器(XGBoost)进行情感预测。通过施加不同程度的音频效果,探测模型性能、预测结果和嵌入空间的变化。 新意:首次大规模、系统性地利用多种基础模型,结合控制实验(六种效果、多强度)与真实场景(艺术家效果链),探究音频效果对模型情感感知的“黑箱”影响,填补了从信号处理到情感计算链路中的关键一环。 主要实验结果:如表1所示,随着效果强度增加,模型性能普遍下降。失真(Distortion)和相位器(Phaser)影响最大,例如在witheFlow数据集上,CLAP模型的F1分数因高强度失真下降了0.488。如图1所示,高失真会一致增加“愤怒”预测、减少“平静”预测。嵌入空间分析(图2)显示,CLAP和Qwen的嵌入随效果变化产生大位移,而MERT相对稳定。真实场景效果链(图3)引发更大、更连贯的嵌入偏移。 实际意义:为音乐制作人、情感计算研究者提供了关于不同音频效果“情感倾向”的实证参考,并揭示了不同基础模型在音频鲁棒性和情感表征上的差异。 主要局限性:研究仅针对三个特定基础模型,结论的普适性有待验证;嵌入空间分析主要依赖UMAP可视化,缺乏更定量的度量;所训练的浅层探针可能无法完全捕捉基础模型的全部复杂性。 🏗️ 模型架构 本论文并非提出一个新的端到端架构,而是构建了一个探测性研究框架。其整体流程如下: 输入:原始音频片段(来自EMOPIA, DEAM, witheFlow数据集)。 音频效果处理:使用pedalboard库对输入音频施加六种效果(混响、延迟、失真、EQ、合唱、相位器)之一,每种效果设置1-10共10个强度等级。 特征提取(基础模型):将处理后的音频输入三个冻结的基础模型之一,提取嵌入向量(Embedding)。 MERT-v1-330M:音乐专用自监督模型,24层,1024维隐藏单元,输入24kHz音频,输出75帧/秒的嵌入。 CLAP:音频-文本对比学习模型,约630M参数,包含HTS-AT音频编码器和RoBERTa文本编码器,输入48kHz对数梅尔频谱图。 Qwen2-Audio-7B:多任务音频语言模型,7B参数,包含Whisper风格的音频编码器和Qwen风格的解码器,处理广泛音频任务。 任务适配(浅层探针):在冻结的基础模型嵌入之上,训练一个可解释的浅层模型(XGBoost)来完成特定情感任务: 回归任务(预测效价Valence和唤醒度Arousal):使用XGBRegressor。 单标签分类任务(EMOPIA的四种情绪):使用XGBClassifier。 多标签分类任务(witheFlow的GEMS-9标签):使用OneVsRest策略的XGBClassifier。 输出:情感预测值(维度值或类别标签)。 分析:对比无效果与不同效果/强度下的:1) 探针模型性能;2) 预测值偏移;3) 基础模型嵌入空间的轨迹变化。 此架构的核心思想是利用简单、透明的探针模型来“解读”复杂基础模型在面对音频扰动时的行为变化。 ...

2026-04-29

Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation

📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Huan Zhao (论文中作者列表首位,但未明确标注“第一作者”,因此按惯例推断) 通讯作者:Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表:Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评 该论文的亮点在于其“共识感知学习模块”设计得相当精巧,通过原型学习和说话人对比损失双管齐下,直击多模态情感识别中“模态冲突”这一核心痛点,理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破,且“共识原型”的学习本质上还是依赖于有监督的类别标签,对于完全未知的、细粒度的或混合情感表达,其泛化能力有待进一步验证。 📌 核心摘要 要解决的问题:现有对话多模态情感识别(MERC)方法常忽略同一情感类别在不同模态(如声音、语言、表情)下所体现的“情感共识”,导致模态间冲突信号影响识别精度,且难以处理类别混淆和样本不均衡问题。 方法核心:提出图基情感共识感知(GECP)框架。其核心是共识感知学习(CAL)模块,包含两阶段:1) 构建多模态传播图以捕获跨模态共享信号与特有差异;2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐,提炼类别本质特征。 与已有方法相比新在何处:不同于以往主要关注上下文依赖或简单融合的方法,GECP显式地建模并学习了类别级的情感共识原型,并通过引入说话人引导的对比学习损失,在对齐跨模态语义的同时,保留了个体表达的多样性。 主要实验结果:在IEMOCAP和MELD数据集上,GECP均取得了最佳性能。 IEMOCAP:Weighted-F1 72.85%, Accuracy 72.91%, 较之前最优模型(Frame-SCN)分别提升约1.85%和1.93%。 MELD:Weighted-F1 66.96%, Accuracy 68.08%, 较之前最优模型(FrameERC)分别提升约0.33%和0.46%。消融实验证明,移除CA单元或任一损失函数(Lc, LSpk)都会导致性能下降,其中移除CA单元下降最明显。 实际意义:提升了机器在复杂对话场景中理解人类情感的能力,尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效,可直接应用于提升智能客服、社交机器人等系统的交互体验。 主要局限性:论文中未深入讨论。潜在局限可能包括:对动态演变的情感共识建模不足(未来工作已提及)、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构 图1展示了GECP的总体架构,其处理流程如下: ...

2026-04-29

MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding

📄 MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding #多模态模型 #语音情感识别 #情感计算 #基准测试 #生理信号 ✅ 6.0/10 | 前50% | #语音情感识别 | #多模态模型 | #情感计算 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zheng Lian(中国科学院自动化研究所) 通讯作者:未说明 作者列表:Zheng Lian(中国科学院自动化研究所)、Xiaojiang Peng(深圳技术大学)、Kele Xu(国防科技大学)、Ziyu Jia(中国科学院自动化研究所)、Xinyi Che(四川大学)、Zebang Cheng(深圳大学)、Fei Ma(广东省人工智能与数字经济实验室(深圳))、Laizhong Cui(深圳大学)、Yazhou Zhang(天津大学)、Xin Liu(上海交通大学)、Liang Yang(大连理工大学)、Jia Li(合肥工业大学)、Fan Zhang(香港中文大学)、Erik Cambria(南洋理工大学)、Guoying Zhao(奥卢大学)、Björn W. Schuller(慕尼黑工业大学)、Jianhua Tao(清华大学) 💡 毒舌点评 这篇论文的最大亮点是其系统性和前瞻性,它清晰地勾勒出了情感识别领域从“给标签”到“懂描述”再到“知偏好”的演进路线,并通过四个精心设计的赛道(尤其是对话者情感和情感偏好)将这一趋势落地为可评估的挑战。然而,其短板也同样明显:作为一篇挑战赛公告,它本质上是“出题者”而非“解题者”,缺乏原创性的技术贡献和深度的算法分析,更像是一份详尽的“竞赛说明书”和“数据集发布文档”。 📌 核心摘要 要解决什么问题:本文旨在介绍MER 2026挑战赛,推动情感计算研究从传统的判别式情感识别(预测固定标签)向生成式情感理解(生成细粒度、描述性、符合人类偏好的情感表达)范式转变。 方法核心是什么:核心是通过设计四个新的挑战赛道来定义和评估新范式下的情感理解能力:(1) MER-Cross:从识别说话者自身情感转向识别对话者的情感;(2) MER-FG:从基本情感标签扩展到开放词汇的细粒度情感;(3) MER-Prefer:预测人类对不同情感描述的偏好;(4) MER-PS:基于脑电(EEG)和近红外光谱(fNIRS)生理信号进行连续情感预测。 与已有方法相比新在哪里:与MER 2023-2025相比,新在三个方面:(1) 场景新:首次引入双人对话交互场景(MER-Cross);(2) 任务新:首次引入情感偏好预测任务(MER-Prefer),用于训练奖励模型;(3) 模态新:首次系统性地将多模态情感识别扩展到内部生理信号(MER-PS)。整体上,从“识别”走向了更全面的“理解”。 主要实验结果如何:论文为每个赛道提供了基线实验结果,关键数据如下: MER-Cross:在测试集上,多模态融合(Top-1)的加权F1分数为57.44%,而单模态最优的视觉特征(CLIP-large)为58.88%。值得注意的是,为个体情感训练的模型在对话者情感上性能大幅下降(如声学特征从76.51%降至35.25%)。 MER-FG:在测试集上,零样本基线中最强的SALMONN得分为47.38%,而经过微调的AffectGPT(使用MER-Caption+数据)得分达到60.27%。 MER-Prefer:在测试集上,零样本基线中最强的多模态模型Qwen2.5-Omni的加权F1分数为78.74%,准确率为78.89%。 MER-PS:在测试集上,最强的基线模型ASAC-Net(EEG+fNIRS)的平均MAE(排名分数)为0.2164。 实际意义是什么:为情感计算社区提供了新的、更具挑战性的研究方向和标准化评测平台。特别是对话者情感识别和情感偏好预测,对于提升社交机器人、人机交互系统的共情能力具有直接的应用价值。生理信号赛道则推动了对情感内部机制的客观研究。 主要局限性是什么:作为挑战赛公告论文,其局限性在于:(1) 没有提出新的模型或算法,仅提供基线;(2) 对赛道设计背后的深层动机和潜在挑战的讨论有限;(3) 部分赛道(如MER-Cross)的测试集规模较小(574样本),可能影响结论的普适性。 🏗️ 模型架构 本文作为挑战赛公告,并未提出一个统一的、端到端的模型架构。其核心是定义了四个独立的任务,并为每个任务提供了基线模型。因此,架构描述将围绕这些任务和基线展开。 ...

2026-04-24