📄 MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding
#多模态模型 #语音情感识别 #情感计算 #基准测试 #生理信号
✅ 6.0/10 | 前50% | #语音情感识别 | #多模态模型 | #情感计算 #基准测试 | arxiv
学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Zheng Lian(中国科学院自动化研究所)
- 通讯作者:未说明
- 作者列表:Zheng Lian(中国科学院自动化研究所)、Xiaojiang Peng(深圳技术大学)、Kele Xu(国防科技大学)、Ziyu Jia(中国科学院自动化研究所)、Xinyi Che(四川大学)、Zebang Cheng(深圳大学)、Fei Ma(广东省人工智能与数字经济实验室(深圳))、Laizhong Cui(深圳大学)、Yazhou Zhang(天津大学)、Xin Liu(上海交通大学)、Liang Yang(大连理工大学)、Jia Li(合肥工业大学)、Fan Zhang(香港中文大学)、Erik Cambria(南洋理工大学)、Guoying Zhao(奥卢大学)、Björn W. Schuller(慕尼黑工业大学)、Jianhua Tao(清华大学)
💡 毒舌点评
这篇论文的最大亮点是其系统性和前瞻性,它清晰地勾勒出了情感识别领域从“给标签”到“懂描述”再到“知偏好”的演进路线,并通过四个精心设计的赛道(尤其是对话者情感和情感偏好)将这一趋势落地为可评估的挑战。然而,其短板也同样明显:作为一篇挑战赛公告,它本质上是“出题者”而非“解题者”,缺乏原创性的技术贡献和深度的算法分析,更像是一份详尽的“竞赛说明书”和“数据集发布文档”。
📌 核心摘要
- 要解决什么问题:本文旨在介绍MER 2026挑战赛,推动情感计算研究从传统的判别式情感识别(预测固定标签)向生成式情感理解(生成细粒度、描述性、符合人类偏好的情感表达)范式转变。
- 方法核心是什么:核心是通过设计四个新的挑战赛道来定义和评估新范式下的情感理解能力:(1) MER-Cross:从识别说话者自身情感转向识别对话者的情感;(2) MER-FG:从基本情感标签扩展到开放词汇的细粒度情感;(3) MER-Prefer:预测人类对不同情感描述的偏好;(4) MER-PS:基于脑电(EEG)和近红外光谱(fNIRS)生理信号进行连续情感预测。
- 与已有方法相比新在哪里:与MER 2023-2025相比,新在三个方面:(1) 场景新:首次引入双人对话交互场景(MER-Cross);(2) 任务新:首次引入情感偏好预测任务(MER-Prefer),用于训练奖励模型;(3) 模态新:首次系统性地将多模态情感识别扩展到内部生理信号(MER-PS)。整体上,从“识别”走向了更全面的“理解”。
- 主要实验结果如何:论文为每个赛道提供了基线实验结果,关键数据如下:
- MER-Cross:在测试集上,多模态融合(Top-1)的加权F1分数为57.44%,而单模态最优的视觉特征(CLIP-large)为58.88%。值得注意的是,为个体情感训练的模型在对话者情感上性能大幅下降(如声学特征从76.51%降至35.25%)。
- MER-FG:在测试集上,零样本基线中最强的SALMONN得分为47.38%,而经过微调的AffectGPT(使用MER-Caption+数据)得分达到60.27%。
- MER-Prefer:在测试集上,零样本基线中最强的多模态模型Qwen2.5-Omni的加权F1分数为78.74%,准确率为78.89%。
- MER-PS:在测试集上,最强的基线模型ASAC-Net(EEG+fNIRS)的平均MAE(排名分数)为0.2164。
- 实际意义是什么:为情感计算社区提供了新的、更具挑战性的研究方向和标准化评测平台。特别是对话者情感识别和情感偏好预测,对于提升社交机器人、人机交互系统的共情能力具有直接的应用价值。生理信号赛道则推动了对情感内部机制的客观研究。
- 主要局限性是什么:作为挑战赛公告论文,其局限性在于:(1) 没有提出新的模型或算法,仅提供基线;(2) 对赛道设计背后的深层动机和潜在挑战的讨论有限;(3) 部分赛道(如MER-Cross)的测试集规模较小(574样本),可能影响结论的普适性。
🏗️ 模型架构
本文作为挑战赛公告,并未提出一个统一的、端到端的模型架构。其核心是定义了四个独立的任务,并为每个任务提供了基线模型。因此,架构描述将围绕这些任务和基线展开。
MER-Cross(对话者情感):
- 输入:在对话的某一回合,输入包括当前说话者(s1)的音频和文本,以及倾听者(s2)的视觉信息(视频)。
- 输出:预测倾听者(s2)的基本情感标签(6类:中性、愤怒、快乐、悲伤、担忧、惊讶)。
- 基线架构:使用预训练模型提取单模态特征(如WavLM提取声学特征,RoBERTa提取文本特征,CLIP提取视觉特征),然后进行特征融合(Top-1或Top-2选择)进行分类。论文未提供融合的具体架构细节。
- 关键设计选择:任务设计的核心创新在于模态的不对称性——说话者提供了音频和文本,但倾听者只提供了视觉信息。这模拟了真实对话中我们主要通过观察对方表情来推断其情绪的场景。
MER-FG(细粒度情感):
- 输入:多模态输入(音频、视频、文本)。
- 输出:预测任意数量的、开放词汇的情感标签。
- 基线架构:使用多模态大语言模型(如AffectGPT)作为基础模型,通过在Human-OV或MER-Caption+数据集上进行微调(Post-training)来适应开放词汇情感识别任务。零样本基线则直接使用现有的多模态大模型(如Video-LLaVA, Qwen-Audio)。
MER-Prefer(情感偏好):
- 输入:一个视频片段(x)和两个候选情感描述(d1, d2)。
- 输出:二分类,预测人类更偏好哪个描述。
- 基线架构:使用多模态大语言模型(如Qwen2.5-Omni)进行零样本推理。模型需要理解视频内容和两个文本描述,并判断哪个描述与视频中展现的情感更匹配。
MER-PS(生理信号情感):
- 输入:同步采集的EEG(64通道,1000Hz)和fNIRS(51通道,47.62Hz)时间序列信号。
- 输出:预测连续的效价(valence)和唤醒度(arousal)轨迹(回归问题)。
- 基线架构:使用EEGNet(经典EEG模型)和ASAC-Net(最新的EEG-fNIRS融合模型)作为基线。输入可以是单独的EEG、单独的fNIRS或两者融合。模型输出每个时间步的二维情感值(v, a)。
图1展示了MER-Cross任务:在对话回合中,模型需要根据说话者s1的音频、文本和倾听者s2的视觉信息,来预测倾听者s2的情感状态。
图2对比了传统情感识别(固定标签)与MER-FG(开放词汇)的区别,后者允许模型输出如“失望”、“感激”等更精细的情感词汇。
图3展示了MER-Prefer任务:给定一个视频和两个情感描述,模型需要判断哪个描述更符合人类标注者的偏好。
💡 核心创新点
从“个体”到“对话者”的情感识别范式转移(MER-Cross):
- 是什么:将情感识别的对象从说话者本人转向其对话伙伴。
- 之前局限:传统MER只关注说话者自身的情感,忽略了互动场景中倾听者的情感状态,而后者对于理解完整对话动态至关重要。
- 如何起作用:通过构建包含不对称模态信息(说话者音文,倾听者视觉)的数据集,迫使模型学习如何从观察者的视角推断情感。
- 收益:为社交机器人、对话系统等需要理解双方情绪的应用提供了更合理的任务定义和评测基准。
引入“情感偏好”作为训练信号(MER-Prefer):
- 是什么:新增一个赛道,专门预测人类对不同情感描述的偏好。
- 之前局限:在训练生成式情感模型时,缺乏一种直接反映人类对情感描述质量判断的监督信号。
- 如何起作用:构建偏好数据集,可用于训练奖励模型(Reward Model),从而通过强化学习(如RLHF)来优化情感描述生成模型,使其输出更符合人类认知。
- 收益:为提升生成式情感理解模型的“人性化”程度提供了关键的数据和评估工具。
将多模态情感识别扩展至内部生理信号(MER-PS):
- 是什么:首次在MER挑战赛中系统性地引入基于同步EEG-fNIRS信号的连续情感预测任务。
- 之前局限:MER通常局限于外部行为信号(音视频),而生理信号能提供更直接、更不易伪装的内部情感状态证据。
- 如何起作用:提供真实场景下采集的多模态生理数据集,并定义连续回归的评估指标(MAE),鼓励研究者探索EEG与fNIRS信号的有效融合方法。
- 收益:推动了情感计算向更客观、更基础的生理机制层面发展,为情感脑机接口等研究提供了新基准。
🔬 细节详述
- 训练数据:
- MER-Cross:训练集使用了9,395个带有个体情感标签的样本(来自历年MER数据集),测试集为574个新标注的对话者情感样本。
- MER-FG:提供两个训练集:(1) Human-OV(1,532个手动标注样本);(2) MER-Caption+(31,327个自动标注样本)。测试集为1,000个手动标注样本。
- MER-Prefer:提供两个训练集:(1) EmoPrefer-Data(574个多数投票偏好标签);(2) EmoPrefer-Data-V2(2,096个单标注者偏好标签)。测试集为379个样本。
- MER-PS:数据集包含30名被试观看15段情感视频时同步采集的EEG(64通道,1000Hz)和fNIRS(51通��,47.62Hz)信号,以及连续的效价-唤醒度标注(1Hz采样)。
- 损失函数:论文未说明。对于分类任务(MER-Cross, MER-FG, MER-Prefer),基线通常使用交叉熵损失;对于回归任务(MER-PS),基线通常使用MAE或MSE损失。
- 训练策略:论文未详细说明。对于MER-FG的Post-training模型,提到在AffectGPT基础上进行额外训练,但未给出学习率、优化器等细节。
- 关键超参数:论文未提供。仅提及了基线模型的名称(如WavLM-base, RoBERTa-base, CLIP-large, AffectGPT, EEGNet, ASAC-Net),未说明其具体参数量或配置。
- 训练硬件:论文未说明。
- 推理细节:对于MER-FG的零样本基线,使用现有的多模态大模型进行推理。对于其他任务,基线使用提取特征后进行分类或回归。
- 正则化或稳定训练技巧:论文未说明。
📊 实验结果
论文为每个赛道提供了基线实验结果,关键数据汇总如下:
表2. MER-Cross基线结果(%)
| 特征 | 训练&验证集 WAF (↑) | 测试集 WAF (↑) | 测试集 ACC (↑) |
|---|---|---|---|
| 声学模态 | |||
| HUBERT-base | 72.78±0.08 | 35.74±0.41 | 37.26±0.32 |
| 词汇模态 | |||
| MacBERT-large | 54.14±0.12 | 33.68±0.25 | 33.95±0.39 |
| 视觉模态 | |||
| CLIP-large | 65.28±0.13 | 58.88±0.43 | 60.61±0.44 |
| 多模态融合 | |||
| Top-1 | 80.91±0.10 | 57.44±0.25 | 57.94±0.33 |
| Top-2 | 82.01±0.12 | 55.24±0.32 | 55.87±0.51 |
关键结论:为个体情感训练的模型在对话者情感上性能急剧下降(如声学特征从76.51%降至35.25%)。视觉模态在对话者情感识别中扮演更重要角色,而多模态融合在测试集上并未带来一致提升。
表4. MER-FG基线结果(%)
| 模型 | 训练数据 | 测试集得分 |
|---|---|---|
| 零样本基线 | ||
| SALMONN | - | 47.38 |
| 后训练模型 | ||
| AffectGPT | MER-Caption+ | 60.27 |
| AffectGPT | Human-OV | 59.54 |
关键结论:针对任务进行后训练(Post-training)能显著提升性能(从47.38%到60.27%)。使用大规模自动标注数据(MER-Caption+)与使用小规模高质量手动数据(Human-OV)效果相近,体现了数据质量与数量的权衡。
表6. MER-Prefer基线结果(%)
| 模型 | 测试集 WAF (↑) | 测试集 ACC (↑) |
|---|---|---|
| Qwen2.5-Omni | 78.74 | 78.89 |
| Qwen2.5-VL | 76.77 | 77.84 |
| LLaVA-Next-Video | 41.31 | 55.15 |
关键结论:多模态大模型(Qwen2.5-Omni)在该任务上表现最佳,表明整合所有模态对于理解情感偏好至关重要。
表7. MER-PS基线结果
| 架构 | 特征 | MAE_v (↓) | MAE_a (↓) | Score (↓) |
|---|---|---|---|---|
| EEGNet | EEG-only | 0.2682 | 0.2319 | 0.2501 |
| fNIRS-only | 0.2567 | 0.2245 | 0.2406 | |
| EEG+fNIRS | 0.2494 | 0.2280 | 0.2387 | |
| ASAC-Net | EEG-only | 0.2613 | 0.2472 | 0.2543 |
| fNIRS-only | 0.2465 | 0.2254 | 0.2360 | |
| EEG+fNIRS | 0.2307 | 0.2020 | 0.2164 |
关键结论:多模态生理信号融合(EEG+fNIRS)能有效提升连续情感预测性能,其中ASAC-Net模型取得了最佳的排名分数(0.2164)。fNIRS单独使用的效果略优于EEG单独使用。
⚖️ 评分理由
- 学术质量:5.5/7:论文作为挑战赛公告,结构清晰,任务定义明确,数据集描述详细,基线实验充分。其“学术质量”体现在对领域发展方向的准确把握和系统性任务设计上。然而,它并未提出新的算法或模型,缺乏理论深度和技术创新,实验部分仅为基线报告,未进行深入分析或提出改进方案。
- 选题价值:2.0/2:选题紧扣情感计算领域的前沿趋势(从判别到生成,从单模态到多模态,从行为到生理),具有很高的研究价值和应用潜力。四个赛道的设计覆盖了当前的重要研究方向,对于推动社区发展有明确意义。
- 开源与复现加成:0.5/1:论文明确提供了数据集获取链接和基线模型名称,为研究者提供了明确的起点。但未公开代码、模型权重、训练配置等关键复现信息,使得完全复现基线结果存在一定门槛。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:未提及公开的模型权重。
- 数据集:论文明确提供了数据集获取网站:https://zeroqiaoba.github.io/MER-Challenge/。MER-Cross、MER-FG、MER-Prefer和MER-PS的数据集均可通过该网站获取。
- Demo:未提及在线演示。
- 复现材料:论文提供了基线模型的名称(如WavLM, RoBERTa, CLIP, AffectGPT, EEGNet, ASAC-Net)和部分结果,但未给出具体的训练细节、超参数配置或预训练检查点。
- 论文中引用的开源项目:论文引用了多个开源模型和工具,包括TalkNet(用于说话者检测)、WavLM、wav2vec 2.0、HuBERT、RoBERTa、MacBERT、VideoMAE、ResNet、CLIP、Video-LLaVA、Qwen-Audio、Chat-UniVi、LLaMA-VID、SALMONN、AffectGPT、EEGNet、ASAC-Net等。
- 开源计划:论文中未提及额外的开源计划。