📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization

#情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型

7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试

学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所)
  • 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分)
  • 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所)

💡 毒舌点评

该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。

🔗 开源详情

  • 代码:论文提供了项目页面地址 avere-iclr.github.io,并声明代码、模型和基准将公开。
  • 模型权重:论文声明将公开模型权重。
  • 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。
  • Demo:论文中未提及在线演示。
  • 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。
  • 论文中引用的开源项目:依赖的主要开源项目包括:
    • 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。
    • 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。
    • 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。

📌 核心摘要

  1. 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。
  2. 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。
  3. 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。
  4. 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。
  5. 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。
  6. 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。

🏗️ 模型架构

论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。

整体流程:

  1. 输入:音视频对(a, v)和文本提示(x)。
  2. 模型:一个参考音视频MLLM(πref),包含音频编码器、视频编码器、投影器和语言模型骨干。训练时,语言模型骨干附加了LoRA适配器。
  3. 训练目标(AVEm-DPO Loss):由两部分组成,如公式(9)所示:
    • L^y_{DPO-TPD}:结合了基于情感的响应偏好(ERP)和文本先验去偏(TPD)的DPO损失。它使用一对或多对选择(chosen)和拒绝(rejected)的响应(y)进行优化。拒绝响应有两种:与视频相关但情感关联虚假的(y_vr_l),以���与情感相关但视频中不存在的幻觉(y_er_l)。TPD项通过计算仅文本输入下的响应概率,来惩罚那些仅靠语言先验就能生成的响应。
    • λ_av L^{av-prompt}_{DPO}:基于提示的模态偏好损失。它确保模型根据提示(如关注视觉或听觉)正确关联对应的模态输入。具体做法是,对于关注模态m的提示,拒绝对(al, vl)中只修改模态m的输入(例如换成其他视频或音频)。
  4. 输出:优化后的策略模型πθ,其在生成响应时更少依赖虚假线索和文本先验,更能扎根于正确的视听输入。

关键设计选择及动机:

  • 双拒绝响应:针对情感推理中两种典型错误(虚假关联、幻觉)分别构建拒绝样本,使优化目标更精确。
  • Prompt-based Modality Preference:防止模型在回答关于某个模态的问题时,被无关模态的输入干扰或产生跨模态幻觉。
  • Text-Prior Debiasing:直接抑制语言模型中固有的、与输入内容无关的“常识”偏见,这是情感推理中幻觉的主要来源之一。

论文中的架构图(图4)清晰地展示了这两种偏好对的构建方式:

💡 核心创新点

  1. 提出EmoReAlM基准测试:这是一个专注于评估音视频MLLM情感推理能力的综合MCQA基准。其创新在于同时设计了针对虚假线索-情感关联(推理错误)和线索幻觉(感知错误)的压力测试,并引入了模态一致性任务,弥补了现有基准的不足。该基准完全自动化生成并经过人工验证。
  2. 设计AVEm-DPO偏好优化技术:这是核心方法创新。它不是简单地将DPO应用于MLLM,而是针对情感推理任务的特点,设计了基于提示的模态偏好(PMP) 和基于情感的响应偏好(ERP),并通过文本先验去偏(TPD) 正则化进行增强。这一组合拳系统性地针对了前面提出的两大问题。
  3. 引入文本先验去偏(TPD):通过在DPO目标中加入一个惩罚项,显式地降低模型对“仅文本”就能生成答案的响应的奖励,从而削弱语言模型骨干中与输入视听内容无关的统计偏见,有效缓解幻觉。
  4. 详尽的分析与验证:论文不仅报告了在多个基准上的性能提升,还通过注意力重新分布分析(图5左)、对抗输入鲁棒性测试(图5右)以及消融实验,从机理上验证了方法的有效性,增强了结论的可信度。

🔬 细节详述

  • 训练数据:偏好优化数据使用MAFW和MER2025数据集的一个子集,通过类似EmoReAlM的自动流程(使用Gemini 2.5 Flash)生成,共约41687个偏好样本。基准测试数据来自DFEW数据集。最终模型微调数据还包括原始EmotionLLaMA的数据集以及通过Gemini 2.5 Flash标注的MAFW/MER2025数据。
  • 损失函数:主损失为AVEm-DPO Loss,如公式(9)所示,包含两部分:L^y_{DPO-TPD}(带TPD的响应偏好DPO损失)和λ_av L^{av-prompt}_{DPO}(模态偏好DPO损失)。其中TPD项通过比较完全多模态输入和纯文本输入下的响应概率来计算。
  • 训练策略:
    • 参考模型进行1个epoch的训练。
    • 学习率:5e-7。
    • 批大小:每GPU 2,使用8个NVIDIA H100 GPU。
    • 梯度累积:4步。
    • 优化器:未明确说明,根据上下文应为AdamW。
  • 关键超参数:
    • DPO温度参数β = 0.1。
    • 模态偏好损失权重λ_av = 1.0。
    • 两种拒绝响应的权重β_er = β_vr = 0.5。
    • 文本先验去偏强度γ_TPD = 0.2。
    • LoRA秩为8,缩放因子为4。
  • 训练硬件:NVIDIA DGX节点,配备8块NVIDIA H100 GPU。
  • 推理细节:在零样本设置下评估,具体解码策略(如温度、beam search)未在摘要中提及。
  • 正则化/稳定技巧:使用LoRA进行参数高效微调;在TPD项中,文本模型πtext的梯度被停止(stop-gradient),防止其被更新。

📊 实验结果

论文在多个基准上进行了评估,主要结果如下:

表2:在现有音视频情感识别基准上的零样本性能比较(摘录)

模型模态DFEW (UAR/WAR)RAVDESS (UAR/WAR)MER2023 (F1)
Our baseA,V56.78 / 60.1453.59 / 53.0189.19
+ Naive-DPOA,V55.67 / 59.9053.63 / 52.9488.59
+ Vista-DPO†A,V56.42 / 62.3356.94 / 53.6490.06
+ AVEm-DPOA,V58.54 / 64.2458.66 / 55.4892.18
结论:AVEm-DPO在所有指标上均优于Naive-DPO和Vista-DPO,并提升了基线性能。

表3:在EmoReAlM基准上的性能比较(摘录)

模型基本推理 (Acc.)模态一致性 (F1)压力测试 (F1)
Our base69.234.650.3
+ Naive-DPO71.341.654.8
+ Vista-DPO†72.452.173.6
+ AVEm-DPO77.960.080.9
结论:AVEm-DPO在更关注错误分析的EmoReAlM基准上取得了显著提升,尤其是在压力测试上。

表4:在EMER数据集上的人类评估结果

模型情感描述正确率(↑)情感线索关联率(↑)不一致率(↓)
Qwen 2.5 Omni10.75%18.57%10.13%
EmotionLLaMA1.89%11.53%68.61%
Our + AVEm-DPO54.74%43.35%4.67%
结论:在需要生成长文本描述的任务中,AVEm-DPO训练的模型在人类评估中远超其他基线。

消融实验(表5,摘录)

方法基本推理模态一致性压力测试虚假关联幻觉
Our base77.334.655.147.339.2
AVEm-DPO85.260.187.892.797.6
w/o TPD83.858.978.887.177.8
结论:去除TPD组件后,模型在“幻觉”测试上的性能从97.6%骤降至77.8%,证明TPD对消除幻觉至关重要。

图表分析: 图5: AVEm-DPO的效果分析 左图:AVEm-DPO训练后,模型在音频/视觉推理任务上,对相关模态token的注意力比例显著增加。 右图:AVEm-DPO训练后,对视觉推理任务,当音频输入被攻击性替换时,正确答案的对数似然分布偏移(Shift)从0.78大幅减少至0.04,表明模型鲁棒性增强。

⚖️ 评分理由

  • 学术质量:6.0/7。论文问题识别准确,提出的AVEm-DPO方法技术正确且针对性强。实验设计非常充分,包括新基准测试、多个现有数据集、人类评估、消融实验和机理分析(注意力、鲁棒性)。然而,其方法创新(改进DPO)属于渐进式优化,而非原理性突破。
  • 选题价值:1.0/2。音视频情感推理是情感AI的核心问题之一,具有明确的应用前景。但相对于通用的语音识别或生成任务,该课题相对垂直。论文对于推动该细分领域的可靠性具有价值。
  • 开源与复现加成:0.5/1。论文明确承诺开源代码、模型和基准,并在附录中提供了近乎“菜谱式”的实现细节、超参数和数据生成流程,复现门槛较低,给予正向加分。

← 返回 ICLR 2026 论文分析