情感计算 | 语音/音频论文速递

Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings

📄 Phoneme-Level Deepfake Detection Across Emotional Conditions Using Self-Supervised Embeddings #音频深度伪造检测 #自监督学习 #语音转换 #音素分析 #情感计算 ✅ 7.0/10 | 前50% | #音频深度伪造检测 | #自监督学习 | #语音转换 #音素分析 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Vamshi Nallaguntla（威奇托州立大学）通讯作者：Anderson R. Avila（加拿大国家科学研究所 INRS-EMT）（注：论文未明确指定通讯作者，但提供了其邮箱，通常视为通讯作者）作者列表：Vamshi Nallaguntla（威奇托州立大学）、Shruti Kshirsagar（威奇托州立大学）、Anderson R. Avila（加拿大国家科学研究所 INRS-EMT；INRS-UQO网络安全联合研究中心） 💡 毒舌点评亮点：论文系统性地揭示了不同音素类别对情感语音转换伪造的敏感性层次，为“伪造语音哪里最容易露馅”提供了清晰的声学证据，这种可解释性分析比单纯追求一个检测准确率数字更有学术价值。短板：方法更像一个精致的“分析工具”而非一个即插即用的“检测系统”，且实验未与其他主流端到端检测器（如基于SSL的utterance-level方法）在相同情感伪造数据上对比性能，削弱了其实用价值的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中提到使用了预训练模型 WavLM，其权重链接为：https://huggingface.co/microsoft/wavlm-large 数据集：论文使用了 EmoFake 数据集，并声称发布了一个包含对齐转录和音素级 TextGrid 标注的策划数据集以支持可复现性。具体获取链接论文中未直接给出，但引用了相关论文 [18]，其对应的论文为 “EmoFake: A Multi-Emotion Emotional Voice Conversion Dataset”。通常此类数据集需从引用的原始论文或作者主页获取。论文基础数据集为 Emotional Speech Dataset (ESD) [19]。 Demo：论文中未提及。复现材料：论文详细描述了方法论（如使用 Montreal Forced Aligner 进行对齐，WavLM 提取特征，RBF-SVM 分类器，以及评估指标），但未提供具体的训练配置文件、检查点或详细复现指南。论文中引用的开源项目： Montreal Forced Aligner (MFA)：用于获取音素对齐。论文中提及，但未给出其项目的具体 URL。通常其项目主页为 https://montreal-forced-aligner.readthedocs.io/ 或 GitHub 仓库，但本文未直接引用。 WavLM：自监督语音模型。论文中给出了其 HuggingFace 链接：https://huggingface.co/microsoft/wavlm-large。 ASVspoof 挑战：音频深伪检测基准系列。论文中引用了系列论文，但未给出其数据集或代码的统一 URL。 PhonemeDF：一个用于深度伪造检测和自然度评估的大规模音素标注数据集 [16]。论文中引用但未给出其数据集或代码仓库的直接链接。 VAW-GAN-CWT (EVC1)：情感语音转换模型 [20]。论文中引用但未给出其代码或模型链接。 DeepEST (EVC2)：情感语音转换模型 [21]。论文中引用但未给出其代码或模型链接。 EmoFake：情感音频伪造检测数据集 [18]。论文中引用但未给出其数据集的直接下载链接。 📌 核心摘要本文针对情感语音转换带来的深度伪造检测挑战，提出了一种音素级的分析框架。现有检测方法常忽略语音内部的音素结构，而情感表达本身在音素层面就存在差异。方法核心是：使用蒙特利尔强制对齐工具对齐真实与合成语音的音素边界，提取每个音素片段的WavLM自监督嵌入，并计算真实与合成分布间的对称KL散度（KLD），最后用RBF核SVM进行音素级的二分类以评估可检测性。与已有方法相比，新在将音素级分析从一般TTS场景扩展至情感条件，并系统量化了音素敏感性与伪造可检测性的关联。主要实验结果显示：复杂元音（如/UH/， KLD高达64.29）和擦音（如/JH/， KLD达51.58）表现出最高的分布差异和分类准确率，而简单辅音（如/T/， KLD低至6.68）则更稳定。同时，KLD与分类准确率之间存在显著的正相关（如EVC1-Happy情绪下，元音相关系数r=0.75，p=0.0012）。实际意义在于，为设计更具可解释性和针对性的深度伪造检测器提供了理论依据和特征选择思路。主要局限性在于该框架更侧重于分析而非端到端检测，且实验数据仅限于两个说话人和两个特定的EVC系统，泛化性有待验证。 ...

Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence

📄 Dual-Perspective Multimodal Sentiment Analysis with MoE Fusion: Representation Learning via Semantic Resonance and Divergence #多模态情感分析 #多模态模型 #对比学习 #混合专家 #情感计算 ✅ 7.0/10 | 前50% | #多模态情感分析 | #多模态模型 | #对比学习 #混合专家学术质量 6.0/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Kaiwei Sun（重庆邮电大学数据工程与可视化计算重点实验室）通讯作者：未说明作者列表：Kaiwei Sun（重庆邮电大学数据工程与可视化计算重点实验室）、Yixian Guo（同前）、Jin Wang（同前）、Xin Deng（同前） 💡 毒舌点评亮点在于将“共振”与“分歧”这一对哲学概念巧妙地映射到多模态表示学习中，并借助MoE机制实现了灵活的上下文感知融合，框架设计新颖且具有较好的可解释性潜力。然而，论文的“厚度”不足：训练细节披露不全（如GPU型号、具体训练时长）、消融实验过于“标准”而缺乏更深层的机制探索（如门控网络权重可视化），且对MoE中“专家”的具体结构描述简略，让扎实的创新打了折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用的是公开基准数据集（MOSI, MOSEI, CH-SIMS），但论文未说明是否提供处理好的数据或获取指引。 Demo：未提及。复现材料：提供了部分超参数（学习率、batch size、训练轮数、损失权重），但缺失模型架构具体参数（如层数、维度）、训练硬件、优化器类型等关键信息。论文中引用的开源项目：提到了使用BERT作为文本编码器，但未说明具体是哪个版本或实现。论文中未提及开源计划。 📌 核心摘要要解决什么问题：现有基于表示学习或融合学习的多模态情感分析方法，面临模态间冗余噪声干扰以及融合策略静态、不灵活的挑战。方法核心是什么：提出DPMSA-MoE框架。首先分别提取文本、音频、视觉的单模态特征；然后将每个特征投影到“语义共振”和“语义分歧”两个子空间，共形成六个视角的表征，并通过对比学习进行约束；最后，设计一个基于混合专家（MoE）的“语义中介”模块，利用门控网络动态加权融合这六个专家（每个子空间对应一个专家）的输出，生成最终的多模态表征。与已有方法相比新在哪里：1）首次在多模态情感分析中显式建模“共振”（模态一致情感）与“分歧”（模态冲突情感）的双重视角。2）将MoE机制引入多模态融合，实现了根据输入上下文自适应地选择和组合不同语义来源的动态融合，而非固定的加权拼接或注意力机制。主要实验结果如何：在三个基准数据集上，DPMSA-MoE均取得优异性能。在MOSI数据集上，7分类准确率（Acc-7）达到45.77%，相比次优模型CGGM提升2.56个百分点；在MOSEI上，5分类准确率（Acc-5）达到54.28%，相比基线有显著提升；在CH-SIMS上，3分类准确率（Acc-3）达到71.12%，相比ALMT提升2.19个百分点。消融实验表明，移除分歧建模、共振建模或MoE融合模块都会导致性能显著下降，其中MoE模块的移除影响最大。实际意义是什么：该框架为处理复杂、冲突的多模态情感信号提供了一种新的范式，其动态融合机制增强了模型在真实世界多变场景下的鲁棒性和适应性，可应用于更精细的社交情绪理解、人机交互反馈等场景。主要局限性是什么：论文未公开代码、模型和详细复现实验的硬件环境，降低了可复现性。消融实验未能深入探究MoE中专家数量、门控网络设计等关键超参数的影响。此外，双视角投影层的具体设计（如Tanh激活的作用）缺乏更深入的理论或实验分析。 🏗️ 模型架构论文提出的DPMSA-MoE框架（如图1所示）主要由三个阶段组成： ...

Encoding Emotion Through Self-Supervised Eye Movement Reconstruction

📄 Encoding Emotion Through Self-Supervised Eye Movement Reconstruction #语音情感识别 #自监督学习 #眼动分析 #情感计算 ✅ 7.5/10 | 前25% | #语音情感识别 | #自监督学习 | #眼动分析 #情感计算学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Marcus Ma（南加州大学）通讯作者：未说明作者列表：Marcus Ma（南加州大学），Jordan Prescott（南加州大学），Emily Zhou（南加州大学），Tiantian Feng（南加州大学），Kleanthis Avramidis（南加州大学），Gabor Mihaly Toth（卢森堡大学），Shrikanth Narayanan（南加州大学） 💡 毒舌点评这篇论文巧妙地将NLP领域的自监督预训练思路移植到眼动序列分析上，成功证明了即使是低分辨率视频中“不完美”的眼动数据也蕴含着丰富的情感信息，这种“化腐朽为神奇”的特征挖掘能力是其最大亮点。然而，其情感“真值”标签严重依赖于另一个语音情感识别模型的输出，相当于用一个“黑盒”去标注数据来训练另一个模型，这种“以模型训模型”的范式在引入系统性偏差方面存在潜在风险，让最终结论的纯粹性打了个问号。 🔗 开源详情代码：论文提供了代码仓库链接：github.com/mamarcus64/GLASS。模型权重：论文中未提及公开发布预训练或微调后的模型权重。数据集：核心数据集（USC Shoah Foundation视觉历史档案）为私有数据集，论文中描述了数据获取和处理的途径，但未提供公开下载或获取方式。 Demo：论文中未提及提供在线演示。复现材料：论文详细描述了模型架构（Transformer编码器-解码器）、训练策略（计划采样、Huber损失、AdamW优化器、余弦退火学习率）以及关键超参数（默认输入/输出5秒、模型尺寸分类），并提供了训练的总计算量（~200 petaFLOPs）和时长（~6小时 on A40），复现材料较为充分。论文中引用的开源项目：OpenFace 2.0（用于眼动提取），Whisper和WavLM（用于生成VAD标签），RoPE（旋转位置编码）。 📌 核心摘要要解决什么问题：传统眼动情感识别依赖于昂贵、受限于实验室环境的高精度眼动仪。本文旨在探索能否从自然场景下、低成本的低分辨率视频（30 FPS，320p）中提取眼动信息，并有效预测情感。方法核心是什么：提出了一种名为GLASS的自监督学习框架。首先，利用海量无标签眼动序列数据，通过编码器-解码器Transformer模型，以自回归方式预训练“预测未来眼动”的任务。然后，冻结或微调预训练好的编码器，接上不同的时间建模头（MLP、TCN、GRU、Transformer），在有标签的小规模数据上进行下游情感预测任务的微调。与已有方法相比新在哪里：a) 范式创新：首次将针对语言的自监督预训练思想应用于原始眼动序列的特征学习。b) 数据利用创新：有效利用了大量易于获取但质量较低的视频数据进行预训练，摆脱了对高质量标注眼动数据的依赖。c) 模型设计：通过修改预训练任务的目标（预测未来2秒、5秒、10秒眼动），发现预测时间越长，编码的情感信号越强。主要实验结果如何：在两个下游任务上，GLASS均优于统计特征和CNN基线。实验一（VAD回归）：在5秒输入下，GLASS（预测10秒）取得最优的皮尔逊相关系数r=0.294±0.03。实验二（行为分类：哭、笑、叹气）：在5秒输入下，GLASS（预测5秒）取得最优的宏F1分数0.361±0.02。消融实验表明，预训练时的眼动预测性能与下游情感任务性能呈正相关。实际意义是什么：证明了低质量、自然状态下的视频眼动数据可作为可靠的情感预测源，为情感计算走向大规模、低成本、非侵入式的真实世界应用提供了新的技术路径。主要局限性是什么：a) 标签噪声：实验一的情感VAD标签并非人工标注，而是由基于语音的ASR+情感模型生成，其准确性直接影响模型训练上限。b) 场景特定性：研究数据集为大屠杀幸存者访谈，情感强烈且单一，模型在更普遍、平淡的日常情感场景中的泛化能力未知。c) 数据私有：使用的核心数据集非公开，限制了完全复现与直接比较。 🏗️ 模型架构论文的核心模型GLASS采用经典的两阶段“预训练-微调”范式，其整体架构如图2所示。 ...

Exploring How Audio Effects Alter Emotion with Foundation Models

📄 Exploring How Audio Effects Alter Emotion with Foundation Models #音乐理解 #情感计算 #音频大模型 #模型评估 #预训练 ✅ 7.0/10 | 前50% | #音乐理解 | #预训练 | #情感计算 #音频大模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Stelios Katsis（stelioskatsis12@gmail.com）通讯作者：未说明（论文提供了多位作者的邮箱，但未明确指定通讯作者）作者列表：Stelios Katsis（雅典国立技术大学），Vassilis Lyberatos（雅典国立技术大学），Spyridon Kantarelis（雅典国立技术大学），Edmund Dervakos（雅典国立技术大学），Giorgos Stamou（雅典国立技术大学） 💡 毒舌点评亮点在于研究设计的系统性和全面性，将音频效果的影响拆解为性能、预测、嵌入和真实场景四个层面进行剖析，堪称“模型听觉效应”领域的标准化审计流程。短板则是“浅层分类器探针”方法略显保守，更像是用一个简单模型去“问”复杂模型“你看到了什么”，难以挖掘基础模型内部更深层、更复杂的非线性表征变化。 🔗 开源详情代码：提供代码仓库链接：https://github.com/stelioskt/audioFX。论文明确声明代码、分析细节和完整实验结果均已公开。模型权重：未提及公开任何经过微调的模型权重或探针模型权重。数据集：论文使用的数据集（EMOPIA, DEAM, witheFlow）均为已公开的学术数据集。 Demo：未提及提供在线演示。复现材料：论文中提及GitHub仓库包含“完整实验结果”，但未详细说明是否包含训练脚本、环境配置文件（如requirements.txt）、预训练模型下载指南或详细的复现步骤文档。论文中引用的开源项目：主要引用了pedalboard库（用于应用音频效果），以及三个基础模型（MERT, CLAP, Qwen2-Audio）对应的官方开源实现。 📌 核心摘要问题：音乐制作中常用的音频效果（如混响、失真、调制）会如何系统性地影响人类（或AI）对音乐情感的感知？这一系统性联系尚存研究空白。方法核心：采用三个音频/音乐基础模型（MERT, CLAP, Qwen2-Audio）作为特征提取器，冻结其参数，后接可解释的浅层分类器（XGBoost）进行情感预测。通过施加不同程度的音频效果，探测模型性能、预测结果和嵌入空间的变化。新意：首次大规模、系统性地利用多种基础模型，结合控制实验（六种效果、多强度）与真实场景（艺术家效果链），探究音频效果对模型情感感知的“黑箱”影响，填补了从信号处理到情感计算链路中的关键一环。主要实验结果：如表1所示，随着效果强度增加，模型性能普遍下降。失真（Distortion）和相位器（Phaser）影响最大，例如在witheFlow数据集上，CLAP模型的F1分数因高强度失真下降了0.488。如图1所示，高失真会一致增加“愤怒”预测、减少“平静”预测。嵌入空间分析（图2）显示，CLAP和Qwen的嵌入随效果变化产生大位移，而MERT相对稳定。真实场景效果链（图3）引发更大、更连贯的嵌入偏移。实际意义：为音乐制作人、情感计算研究者提供了关于不同音频效果“情感倾向”的实证参考，并揭示了不同基础模型在音频鲁棒性和情感表征上的差异。主要局限性：研究仅针对三个特定基础模型，结论的普适性有待验证；嵌入空间分析主要依赖UMAP可视化，缺乏更定量的度量；所训练的浅层探针可能无法完全捕捉基础模型的全部复杂性。 🏗️ 模型架构本论文并非提出一个新的端到端架构，而是构建了一个探测性研究框架。其整体流程如下： ...

Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation

📄 Graph-Based Emotion Consensus Perception Learning for Multimodal Emotion Recognition in Conversation #多模态情感识别 #图神经网络 #对比学习 #会话理解 #情感计算 ✅ 7.5/10 | 前25% | #多模态情感识别 | #图神经网络 | #对比学习 #会话理解学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Huan Zhao (论文中作者列表首位，但未明确标注“第一作者”，因此按惯例推断) 通讯作者：Yingxue Gao (论文明确标注“*Corresponding authors: Y. Gao”) 作者列表：Huan Zhao (湖南大学计算机科学与电子工程学院)、Gong Chen (湖南大学计算机科学与电子工程学院)、Zhijie Yu (湖南大学计算机科学与电子工程学院)、Yingxue Gao* (湖南大学计算机科学与电子工程学院) 💡 毒舌点评该论文的亮点在于其“共识感知学习模块”设计得相当精巧，通过原型学习和说话人对比损失双管齐下，直击多模态情感识别中“模态冲突”这一核心痛点，理论动机清晰且有效。短板在于其创新更多是增量式的改进而非范式突破，且“共识原型”的学习本质上还是依赖于有监督的类别标签，对于完全未知的、细粒度的或混合情感表达，其泛化能力有待进一步验证。 🔗 开源详情代码：是。论文提供了GitHub代码仓库链接：https://github.com/Clancyy/ConGraNet。模型权重：未提及。论文未说明是否公开预训练模型权重。数据集：未提及。论文使用的是公开数据集（IEMOCAP， MELD），但未说明是否提供处理后的数据或额外资源。 Demo：未提及。论文未提供在线演示链接。复现材料：提供了部分复现材料，包括：关键的超参数配置表（表1）。模型架构描述和公式。代码仓库（假设包含实现）。但未提供：训练日志、最终检查点、详细的环境配置文档。论文中引用的开源项目：论文在参考文献中引用了多个开源数据集（如IEMOCAP [17]， MELD [18]）和基线模型代码（如DialogueRNN [19]， DialogueGCN [21]等）。 📌 核心摘要要解决的问题：现有对话多模态情感识别（MERC）方法常忽略同一情感类别在不同模态（如声音、语言、表情）下所体现的“情感共识”，导致模态间冲突信号影响识别精度，且难以处理类别混淆和样本不均衡问题。方法核心：提出图基情感共识感知（GECP）框架。其核心是共识感知学习（CAL）模块，包含两阶段：1) 构建多模态传播图以捕获跨模态共享信号与特有差异；2) 通过情感共识学习单元将各模态信号与共同的“情感原型”对齐，提炼类别本质特征。与已有方法相比新在何处：不同于以往主要关注上下文依赖或简单融合的方法，GECP显式地建模并学习了类别级的情感共识原型，并通过引入说话人引导的对比学习损失，在对齐跨模态语义的同时，保留了个体表达的多样性。主要实验结果：在IEMOCAP和MELD数据集上，GECP均取得了最佳性能。 IEMOCAP：Weighted-F1 72.85%， Accuracy 72.91%，较之前最优模型（Frame-SCN）分别提升约1.85%和1.93%。 MELD：Weighted-F1 66.96%， Accuracy 68.08%，较之前最优模型（FrameERC）分别提升约0.33%和0.46%。消融实验证明，移除CA单元或任一损失函数（Lc, LSpk）都会导致性能下降，其中移除CA单元下降最明显。实际意义：提升了机器在复杂对话场景中理解人类情感的能力，尤其在处理情感类别易混淆和样本分布不平衡的情况下更为有效，可直接应用于提升智能客服、社交机器人等系统的交互体验。主要局限性：论文中未深入讨论。潜在局限可能包括：对动态演变的情感共识建模不足（未来工作已提及）、模型复杂度较高、以及在跨文化、跨语言场景下的泛化能力未被验证。 🏗️ 模型架构图1展示了GECP的总体架构，其处理流程如下： ...

MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding

📄 MER 2026: From Discriminative Emotion Recognition to Generative Emotion Understanding #多模态模型 #语音情感识别 #情感计算 #基准测试 #生理信号 ✅ 6.0/10 | 前50% | #语音情感识别 | #多模态模型 | #情感计算 #基准测试 | arxiv 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Zheng Lian（中国科学院自动化研究所）通讯作者：未说明作者列表：Zheng Lian（中国科学院自动化研究所）、Xiaojiang Peng（深圳技术大学）、Kele Xu（国防科技大学）、Ziyu Jia（中国科学院自动化研究所）、Xinyi Che（四川大学）、Zebang Cheng（深圳大学）、Fei Ma（广东省人工智能与数字经济实验室（深圳））、Laizhong Cui（深圳大学）、Yazhou Zhang（天津大学）、Xin Liu（上海交通大学）、Liang Yang（大连理工大学）、Jia Li（合肥工业大学）、Fan Zhang（香港中文大学）、Erik Cambria（南洋理工大学）、Guoying Zhao（奥卢大学）、Björn W. Schuller（慕尼黑工业大学）、Jianhua Tao（清华大学） 💡 毒舌点评这篇论文的最大亮点是其系统性和前瞻性，它清晰地勾勒出了情感识别领域从“给标签”到“懂描述”再到“知偏好”的演进路线，并通过四个精心设计的赛道（尤其是对话者情感和情感偏好）将这一趋势落地为可评估的挑战。然而，其短板也同样明显：作为一篇挑战赛公告，它本质上是“出题者”而非“解题者”，缺乏原创性的技术贡献和深度的算法分析，更像是一份详尽的“竞赛说明书”和“数据集发布文档”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开的模型权重。数据集：论文明确提供了数据集获取网站：https://zeroqiaoba.github.io/MER-Challenge/。MER-Cross、MER-FG、MER-Prefer和MER-PS的数据集均可通过该网站获取。 Demo：未提及在线演示。复现材料：论文提供了基线模型的名称（如WavLM, RoBERTa, CLIP, AffectGPT, EEGNet, ASAC-Net）和部分结果，但未给出具体的训练细节、超参数配置或预训练检查点。论文中引用的开源项目：论文引用了多个开源模型和工具，包括TalkNet（用于说话者检测）、WavLM、wav2vec 2.0、HuBERT、RoBERTa、MacBERT、VideoMAE、ResNet、CLIP、Video-LLaVA、Qwen-Audio、Chat-UniVi、LLaMA-VID、SALMONN、AffectGPT、EEGNet、ASAC-Net等。开源计划：论文中未提及额外的开源计划。 📌 核心摘要要解决什么问题：本文旨在介绍MER 2026挑战赛，推动情感计算研究从传统的判别式情感识别（预测固定标签）向生成式情感理解（生成细粒度、描述性、符合人类偏好的情感表达）范式转变。方法核心是什么：核心是通过设计四个新的挑战赛道来定义和评估新范式下的情感理解能力：(1) MER-Cross：从识别说话者自身情感转向识别对话者的情感；(2) MER-FG：从基本情感标签扩展到开放词汇的细粒度情感；(3) MER-Prefer：预测人类对不同情感描述的偏好；(4) MER-PS：基于脑电（EEG）和近红外光谱（fNIRS）生理信号进行连续情感预测。与已有方法相比新在哪里：与MER 2023-2025相比，新在三个方面：(1) 场景新：首次引入双人对话交互场景（MER-Cross）；(2) 任务新：首次引入情感偏好预测任务（MER-Prefer），用于训练奖励模型；(3) 模态新：首次系统性地将多模态情感识别扩展到内部生理信号（MER-PS）。整体上，从“识别”走向了更全面的“理解”。主要实验结果如何：论文为每个赛道提供了基线实验结果，关键数据如下： MER-Cross：在测试集上，多模态融合（Top-1）的加权F1分数为57.44%，而单模态最优的视觉特征（CLIP-large）为58.88%。值得注意的是，为个体情感训练的模型在对话者情感上性能大幅下降（如声学特征从76.51%降至35.25%）。 MER-FG：在测试集上，零样本基线中最强的SALMONN得分为47.38%，而经过微调的AffectGPT（使用MER-Caption+数据）得分达到60.27%。 MER-Prefer：在测试集上，零样本基线中最强的多模态模型Qwen2.5-Omni的加权F1分数为78.74%，准确率为78.89%。 MER-PS：在测试集上，最强的基线模型ASAC-Net（EEG+fNIRS）的平均MAE（排名分数）为0.2164。实际意义是什么：为情感计算社区提供了新的、更具挑战性的研究方向和标准化评测平台。特别是对话者情感识别和情感偏好预测，对于提升社交机器人、人机交互系统的共情能力具有直接的应用价值。生理信号赛道则推动了对情感内部机制的客观研究。主要局限性是什么：作为挑战赛公告论文，其局限性在于：(1) 没有提出新的模型或算法，仅提供基线；(2) 对赛道设计背后的深层动机和潜在挑战的讨论有限；(3) 部分赛道（如MER-Cross）的测试集规模较小（574样本），可能影响结论的普适性。 🏗️ 模型架构本文作为挑战赛公告，并未提出一个统一的、端到端的模型架构。其核心是定义了四个独立的任务，并为每个任务提供了基线模型。因此，架构描述将围绕这些任务和基线展开。 ...