📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
#语音情感识别 #多模态模型 #偏好优化 #基准测试 #零样本
🔥 8.0/10 | 前25% | #语音情感识别 | #偏好优化 | #多模态模型 #基准测试
学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Ashutosh Chaubey(南加州大学创新技术研究所)
- 通讯作者:Mohammad Soleymani(南加州大学创新技术研究所)
- 作者列表:Ashutosh Chaubey(南加州大学创新技术研究所)、Jiacheng Pang(南加州大学创新技术研究所)、Maksim Siniukov(南加州大学创新技术研究所)、Mohammad Soleymani(南加州大学创新技术研究所)
💡 毒舌点评
本文提出的 EmoReAlM 基准测试系统性地揭示了现有多模态模型在情感推理上“瞎扯淡”的两种主要模式(虚假关联与幻觉),其 AVEm-DPO 优化方法针对性地解决了问题,并在零样本设定下取得了显著提升,是一项扎实且完整的工作。短板在于,其优化方法和基准测试的构建高度依赖 GPT-4o 等大模型,虽然进行了人工验证,但这使得整个工作在一定程度上建立在“模型评价模型”的基础上,其上限可能受制于标注模型自身的理解能力,且引入了难以完全消除的偏差。
📌 核心摘要
- 要解决的问题:现有多模态大语言模型在进行音频视觉情感推理时,存在两大核心缺陷:一是将情绪错误地归因于无关的音视频线索(推理错误),二是为了合理化情绪而“编造”出不存在的音视频线索(感知错误/幻觉)。后者主要由语言模型的文本先验偏差导致。
- 方法核心:论文提出了一个两阶段方案。首先,构建了名为 EmoReAlM 的专用基准测试(包含4000个人工验证的多选题),用于系统评估模型在关联、一致性及幻觉等方面的表现。其次,提出了 AVEm-DPO 技术,这是一种直接偏好优化方法,通过构建两种偏好对来对齐模型响应:a) 基于提示的多模态输入偏好(Prompt-based Modality Preference),确保模型关注正确的模态;b) 基于情感的响应偏好(Emotion-based Response Preference),区分正确、无关和幻觉的响应。此外,引入了 文本先验去偏(Text Prior Debiasing) 正则化项,抑制模型仅凭文本线索生成响应。
- 与已有方法相比新在哪里:
- 评估:超越了现有情感推理或幻觉基准,提供了一个标准化、无需外部LLM评估的、专注于音视觉情感理解中特定错误的测试集。
- 优化:在应用 DPO 到多模态领域时,创新性地结合了“基于提示的模态偏好”和“文本先验去偏”,比通用的 Naive-DPO 和 Vista-DPO 更具针对性。
- 主要实验结果:在零样本设定下,AVEm-DPO 显著提升了两个基线模型(Our base, EmotionLLaMA⋆)的性能。在提出的 EmoReAlM 基准上,相对性能提升达 6-19%。在现有情感识别数据集(DFEW, RAVDESS, MER2023)和推理数据集(EMER)上也取得了最优或极具竞争力的结果。关键结果对比如下表所示:
| 模型 | EmoReAlM (平均准确率) | DFEW (UAR) | RAVDESS (UAR) | MER2023 (F1) | EMER (Clue) |
|---|---|---|---|---|---|
| Our base (基线) | 65.1% | 56.78% | 53.59% | 89.19% | 5.63 |
| + AVEm-DPO | 83.3% | 58.54% | 58.66% | 92.18% | 6.37 |
| EmotionLLaMA⋆ (基线) | 63.8% | 54.89% | 52.59% | 90.01% | 5.78 |
| + AVEm-DPO | 80.1% | 57.06% | 56.21% | 91.68% | 6.02 |
| Qwen 2.5 Omni (SOTA对比) | 70.0% | 46.94% | 32.88% | 79.72% | 5.85 |
- 实际意义:该工作为构建可靠、可解释的社会AI代理提供了更精确的评估工具(EmoReAlM)和更有效的训练方法(AVEm-DPO),有助于减少多模态模型在情感理解中的不准确性,提升人机交互的可靠性。
- 主要局限性:1) EmoReAlM 基准测试源于 DFEW 数据集,可能继承其文化偏见;2) 模型在识别“厌恶”等复杂/模糊情绪时表现仍不佳;3) 论文承认在缓解虚假音频线索关联方面仍有改进空间。
🏗️ 模型架构
本文的核心贡献并非提出一个全新的端到端模型架构,而是提出了一种训练方法(AVEm-DPO) 来提升现有音频视觉多模态大语言模型(MLLMs)的性能。其作用的对象是两个参考基线模型:“Our base”和“EmotionLLaMA⋆”。因此,架构描述将围绕AVEm-DPO如何作用于基础模型展开。
- 基础模型(参考基线)
- “Our base”架构:修改自 EmotionLLaMA。采用标准的“编码器-投影器-LLM”多模态架构。
- 视频编码器:使用 LanguageBind 视频编码器提取视觉特征。
- 音频编码器:使用 Whisper-large-v3 提取音频特征。
- 投影器:包含两个独立的投影器,分别将视觉和音频特征映射到语言模型的输入空间。
- 语言模型骨干:一个大型语言模型(具体未说明),接收融合后的多模态标记和文本提示,生成自然语言响应。
- 训练流程:首先在大规模数据上预训练投影器(视频投影器使用VideoLLaVA数据,音频投影器使用LibriSpeech和SpeechCraft),然后使用包含情感任务的指令数据对整个模型进行微调。
- AVEm-DPO 训练框架(核心创新) AVEm-DPO 不改变基础模型的架构,而是通过修改训练目标来优化模型参数。其核心是一个经过增强的 DPO 损失函数,整合了两个关键组件。
- 输入:音视频对 (a, v) 和文本提示 (x)。
- 输出:文本响应 (y)。
- 数据流与组件交互:
- 偏好数据构建:对于每个训练样本 (a, v, x, y_w)(选择的正确响应),系统地构建两个拒绝响应:
- y_l^{vr} (视频相关但情感无关):包含与音视频输入相关但不能解释当前情绪的线索(推理错误)。
- y_l^{er} (情感相关但音视频无关):包含能解释该情绪但实际不存在于输入中的线索(幻觉)。
- 同时,对于给定的提示 x_m(例如,仅关于视觉的提问),构建一个拒绝的多模态输入 (a_l, v_l),其与原始输入音视频内容不同但情绪相反。
- 目标函数计算:
- 情感响应偏好项 (L^y_{DPO-TPD}):鼓励模型为给定的 (a, v, x) 赋予选择的响应 y_w 更高的概率,同时赋予两个拒绝响应 y_l^{vr} 和 y_l^{er} 更低的概率。此项整合了文本先验去偏。
- 基于提示的模态偏好项 (L^{av-prompt}{DPO}):对于提示 x_m,鼓励模型为选择的输入 (a_w, v_w) 和拒绝的输入 (a_l, v_l) 赋予相同的正确响应 y_w 不同的概率。具体地,如果提示只关注一个模态(如视觉),则只改变该模态的输入构建拒绝对,从而强制模型关注指定的模态。 最终损失 (L{AVEm-DPO}):L^y_{DPO-TPD} + λ_{av} L^{av-prompt}_{DPO}。
- 文本先验去偏 (TPD):在计算响应概率时,减去一个由纯语言模型骨干 π_{text} 计算的“文本先验”项。这惩罚了那些即使没有音视频输入也容易生成的响应,从而减少模型对文本共现模式的依赖,缓解幻觉。
- 训练实施:在基础模型的LLM骨干上附加 LoRA 模块进行高效微调。梯度只通过模型策略 π_θ,不通过参考策略 π_{ref} 和文本先验模型 π_{text}。
- 偏好数据构建:对于每个训练样本 (a, v, x, y_w)(选择的正确响应),系统地构建两个拒绝响应:

关键设计选择与动机:
- 引入多模态输入偏好:动机是防止 DPO 仅在文本响应层面优化,而忽略了多模态输入的一致性,导致模型对输入模态不敏感。
- 细化拒绝响应类型:动机是针对情感推理的两种具体错误类型(虚假关联和幻觉)进行对比学习,使优化更精确。
- 文本先验去偏:动机是直接抑制由LLM文本先验主导的幻觉生成,这是音视频情感推理中的一个关键瓶颈。
💡 核心创新点
- 提出 EmoReAlM 基准测试:首次提供了一个专门针对多模态模型在音视频情感推理中两类关键错误(虚假线索关联与线索幻觉)进行量化评估的、标准化的、无需外部LLM评估的MCQA测试集。
- 提出 AVEm-DPO 优化技术:创新性地将直接偏好优化扩展到音频视觉领域,通过基于提示的模态偏好和情感响应偏好,从输入和输出两个层面构建精细的偏好对,有效对齐模型行为。
- 引入文本先验去偏(TPD):通过一个额外的正则化项,显式地惩罚模型仅基于文本先验生成响应的行为,这是缓解音视频MLLM中“模态特异性线索幻觉”的一种新颖方法。
- 系统性的评估与验证:在多个现有基准(DFEW, RAVDESS, MER2023, EMER)和新提出的EmoReAlM上进行了全面的零样本评估,证明了方法的通用性和有效性,并通过消融实验验证了各组件的贡献。
🔬 细节详述
- 训练数据:
- 基准测试数据:EmoReAlM 包含4000个问题,源自 DFEW 数据集中的2649个视频。通过自动流水线(使用GPT-4o进行字幕生成、情绪分类和问题生成)创建,并经过人类验证(471名参与者)。
- 偏好优化数据:使用 MAFW 和 MER2025 训练集的子集构建。流程类似EmoReAlM的创建,使用 Gemini-2.5 Flash 生成选择响应和两种拒绝响应。共得到 41687 个偏好样本,未进行人工验证。 损失函数:最终损失为 L_{AVEm-DPO} = L^y_{DPO-TPD} + λ_{av} L^{av-prompt}{DPO}。其中 L^y{DPO-TPD} 整合了情感响应偏好和文本先验去偏(公式8),L^{av-prompt}_{DPO} 实现基于提示的模态偏好(公式5)。
- 训练策略:
- 优化器与学习率:使用 Adam 优化器,学习率为 5e-7。
- Batch Size:每GPU batch size为 2。
- 训练轮数:1个epoch。
- 硬件:在 8个 NVIDIA H100 GPU 的DGX节点上训练。
- 高效训练:在LLM骨干上附加 LoRA 模块(秩为8,缩放为4)。
- 梯度累积:进行 4次 迭代的梯度累积。
- 关键超参数:
- β (DPO温度) = 0.1
- λ_{av} (模态偏好权重) = 1.0
- γ_{TPD} (文本先验去偏权重) = 0.2
- β_{er}, β_{vr} (两种拒绝响应的权重) = 0.5
- 推理细节:在评估时,模型采用零样本设定,直接使用基线模型的默认推理设置,未提及特殊的解码策略或温度调整。
- 正则化技巧:除了LoRA,文本先验去偏本身是一种正则化手段。同时,使用DPO损失中的KL散度项(包含在β中)防止策略偏离参考模型过远。
📊 实验结果
- 在 EmoReAlM 基准测试上的核心结果 下表展示了各模型在EmoReAlM各任务上的表现(完整数据见原文Table 13)。AVEm-DPO在所有任务上均大幅超越基线和其他优化方法。
| 模型 | 基础推理 (音频准确率) | 基础推理 (视觉准确率) | 模态一致性 (F1) | 压力测试 (音频F1) | 压力测试 (视觉F1) | 平均准确率 |
|---|---|---|---|---|---|---|
| 闭源模型 | ||||||
| Gemini 2.5 Pro | 72.7% | 87.0% | 46.3% | 62.0% | 69.8% | 70.3% |
| 开源多模态模型 | ||||||
| Qwen 2.5 Omni | 76.8% | 89.2% | 33.3% | 55.0% | 56.8% | 70.0% |
| VITA-1.5 | 63.1% | 84.3% | 30.2% | 52.8% | 56.3% | 65.6% |
| 我们的基线及优化 | ||||||
| Our base | 69.2% | 85.3% | 34.6% | 50.3% | 59.9% | 65.1% |
| + Naive-DPO | 71.3% | 85.9% | 41.6% | 54.8% | 65.9% | 68.1% |
| + Vista-DPO† | 72.4% | 87.8% | 52.1% | 73.6% | 86.7% | 76.9% |
| + AVEm-DPO | 77.9% | 92.5% | 60.0% | 80.9% | 94.6% | 83.3% |

关键结论:
- AVEm-DPO将“我们的基线”模型在EmoReAlM上的平均准确率从65.1%提升至83.3%,相对提升28%。
- 在压力测试(检测幻觉和虚假关联)上提升最为显著,F1分数大幅提升,表明TPD和精心设计的偏好对有效减少了相关错误。
- AVEm-DPO超越了闭源的Gemini 2.5 Pro,以及所有开源的单模态和多模态基线。
- 图5显示,训练后模型对相关模态的注意力增加(左图),且对无关模态的输入扰动更鲁棒(右图)。
- 在现有情感识别/推理基准上的结果 在零样本设定下,AVEm-DPO同样取得显著提升(完整数据见原文Table 2)。关键数据对比如下表:
| 模型 | DFEW (UAR) | RAVDESS (UAR) | MER2023 (F1) | EMER (线索重叠分) |
|---|---|---|---|---|
| Qwen 2.5 Omni | 46.94% | 32.88% | 79.72% | 5.85 |
| Our base | 56.78% | 53.59% | 89.19% | 5.63 |
| + AVEm-DPO | 58.54% | 58.66% | 92.18% | 6.37 |
| EmotionLLaMA⋆ | 54.89% | 52.59% | 90.01% | 5.78 |
| + AVEm-DPO | 57.06% | 56.21% | 91.68% | 6.02 |
- 在跨数据集泛化上表现优异,尤其在Out-of-Domain的RAVDESS数据集上提升明显。
- 在EMER情感推理任务上,减少了虚假关联和幻觉(对应“Spurious”和“Halluc.”指标下降,“Clue”和“Label”指标上升)。
- 消融实验 消融研究(Table 5)证实了每个组件的关键作用:
- 移除任何组件(PMP, ERP, TPD)都会导致性能显著下降,特别是在压力测试任务上。
- 文本先验去偏(TPD) 对减少幻觉(Hall.)至关重要,移除后F1从97.6%暴跌至77.8%。
⚖️ 评分理由
- 学术质量:6.0/7 - 创新性良好,针对性地解决了音视觉情感推理中的具体痛点;技术正确,方法设计合理,实验充分(新基准+多数据集对比+消融分析),证据可信度高。扣分点在于核心方法AVEm-DPO是对DPO的适应性改进,而非范式革新;且整个流程高度依赖GPT-4o等大模型进行数据生成,其潜在偏差可能影响上限。
- 选题价值:1.5/2 - 情感理解和推理是社会AI的关键前沿,选题具有明确的应用价值和学术意义。但领域相对垂直,主要读者为多模态与情感计算社区。0.5分的扣分源于其应用场景的特定性。
- 开源与复现加成:0.5/1 - 论文承诺将开源代码、模型权重和EmoReAlM基准(
avere-iclr.github.io),并提供了详细的实现细节、超参数和附录,复现友好度高。但当前基于提供的文本,具体代码链接和已公开的权重状态未明确,故给予适中加分。