生理信号 | 语音/音乐/音频论文速递

📄 MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding #多模态模型 #语音情感识别 #情感计算 #基准测试 #生理信号 ✅ 6.0/10 | 前50% | #语音情感识别 | #多模态模型 | #情感计算 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zheng Lian（中国科学院自动化研究所）通讯作者：未说明作者列表：Zheng Lian（中国科学院自动化研究所）、Xiaojiang Peng（深圳技术大学）、Kele Xu（国防科技大学）、Ziyu Jia（中国科学院自动化研究所）、Xinyi Che（四川大学）、Zebang Cheng（深圳大学）、Fei Ma（广东省人工智能与数字经济实验室（深圳））、Laizhong Cui（深圳大学）、Yazhou Zhang（天津大学）、Xin Liu（上海交通大学）、Liang Yang（大连理工大学）、Jia Li（合肥工业大学）、Fan Zhang（香港中文大学）、Erik Cambria（南洋理工大学）、Guoying Zhao（奥卢大学）、Björn W. Schuller（慕尼黑工业大学）、Jianhua Tao（清华大学） 💡 毒舌点评这篇论文的最大亮点是其系统性和前瞻性，它清晰地勾勒出了情感识别领域从“给标签”到“懂描述”再到“知偏好”的演进路线，并通过四个精心设计的赛道（尤其是对话者情感和情感偏好）将这一趋势落地为可评估的挑战。然而，其短板也同样明显：作为一篇挑战赛公告，它本质上是“出题者”而非“解题者”，缺乏原创性的技术贡献和深度的算法分析，更像是一份详尽的“竞赛说明书”和“数据集发布文档”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：论文明确提供了数据集获取网站：https://zeroqiaoba.github.io/MER-Challenge/。MER-Cross、MER-FG、MER-Prefer和MER-PS的数据集均可通过该网站获取。 Demo：未提及在线演示。复现材料：论文提供了基线模型的名称（如WavLM, RoBERTa, CLIP, AffectGPT, EEGNet, ASAC-Net）和部分结果，但未给出具体的训练细节、超参数配置或预训练检查点。论文中引用的开源项目：论文引用了多个开源模型和工具，包括TalkNet（用于说话者检测）、WavLM、wav2vec 2.0、HuBERT、RoBERTa、MacBERT、VideoMAE、ResNet、CLIP、Video-LLaVA、Qwen-Audio、Chat-UniVi、LLaMA-VID、SALMONN、AffectGPT、EEGNet、ASAC-Net等。开源计划：论文中未提及额外的开源计划。 📌 核心摘要要解决什么问题：本文旨在介绍MER 2026挑战赛，推动情感计算研究从传统的判别式情感识别（预测固定标签）向生成式情感理解（生成细粒度、描述性、符合人类偏好的情感表达）范式转变。方法核心是什么：核心是通过设计四个新的挑战赛道来定义和评估新范式下的情感理解能力：(1) MER-Cross：从识别说话者自身情感转向识别对话者的情感；(2) MER-FG：从基本情感标签扩展到开放词汇的细粒度情感；(3) MER-Prefer：预测人类对不同情感描述的偏好；(4) MER-PS：基于脑电（EEG）和近红外光谱（fNIRS）生理信号进行连续情感预测。与已有方法相比新在哪里：与MER 2023-2025相比，新在三个方面：(1) 场景新：首次引入双人对话交互场景（MER-Cross）；(2) 任务新：首次引入情感偏好预测任务（MER-Prefer），用于训练奖励模型；(3) 模态新：首次系统性地将多模态情感识别扩展到内部生理信号（MER-PS）。整体上，从“识别”走向了更全面的“理解”。主要实验结果如何：论文为每个赛道提供了基线实验结果，关键数据如下： MER-Cross：在测试集上，多模态融合（Top-1）的加权F1分数为57.44%，而单模态最优的视觉特征（CLIP-large）为58.88%。值得注意的是，为个体情感训练的模型在对话者情感上性能大幅下降（如声学特征从76.51%降至35.25%）。 MER-FG：在测试集上，零样本基线中最强的SALMONN得分为47.38%，而经过微调的AffectGPT（使用MER-Caption+数据）得分达到60.27%。 MER-Prefer：在测试集上，零样本基线中最强的多模态模型Qwen2.5-Omni的加权F1分数为78.74%，准确率为78.89%。 MER-PS：在测试集上，最强的基线模型ASAC-Net（EEG+fNIRS）的平均MAE（排名分数）为0.2164。实际意义是什么：为情感计算社区提供了新的、更具挑战性的研究方向和标准化评测平台。特别是对话者情感识别和情感偏好预测，对于提升社交机器人、人机交互系统的共情能力具有直接的应用价值。生理信号赛道则推动了对情感内部机制的客观研究。主要局限性是什么：作为挑战赛公告论文，其局限性在于：(1) 没有提出新的模型或算法，仅提供基线；(2) 对赛道设计背后的深层动机和潜在挑战的讨论有限；(3) 部分赛道（如MER-Cross）的测试集规模较小（574样本），可能影响结论的普适性。 🏗️ 模型架构本文作为挑战赛公告，并未提出一个统一的、端到端的模型架构。其核心是定义了四个独立的任务，并为每个任务提供了基线模型。因此，架构描述将围绕这些任务和基线展开。 ...