📄 AVERE: Improving Audiovisual Emotion Reasoning with Preference Optimization
#情感识别 #多模态模型 #偏好优化 #基准测试 #音频大模型
✅ 7.5/10 | 前25% | #情感识别 | #多模态模型 | #偏好优化 #基准测试
学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Ashutosh Chaubey(南加州大学创意技术研究所)
- 通讯作者:未说明(论文提供了第一作者和通讯作者的邮箱,但未在作者列表中明确区分)
- 作者列表:Ashutosh Chaubey(南加州大学创意技术研究所)、Jiacheng Pang(南加州大学创意技术研究所)、Maksim Siniukov(南加州大学创意技术研究所)、Mohammad Soleymani(南加州大学创意技术研究所)
💡 毒舌点评
该工作像一个严谨的“情感AI产品测试员”,不仅自己设计了一套挑剔的“质检标准”(EmoReAlM基准),还研发了一套让模型“改掉坏习惯”的训练方法(AVEm-DPO),且实验做得很扎实。但它的核心方法(多模态DPO+去偏)更像是对现有技术的巧妙组合与针对性应用,在算法原创性上略显不足,更像是一篇优秀的工程系统论文而非理论突破。
🔗 开源详情
- 代码:论文提供了项目页面地址
avere-iclr.github.io,并声明代码、模型和基准将公开。 - 模型权重:论文声明将公开模型权重。
- 数据集:论文提出的EmoReAlM基准测试和用于AVEm-DPO训练的偏好数据集均承诺开源。代码、模型和基准将统一在上述项目页面提供。
- Demo:论文中未提及在线演示。
- 复现材料:论文提供了极其详尽的附录(Appendix),包括所有数据创建和评估所用的提示(图19-37)、训练细节(C.3)、基准统计(B.3)、人类验证流程(B.2)、消融实验设置(D.5)等,复现材料非常充分。
- 论文中引用的开源项目:依赖的主要开源项目包括:
- 模型:EmotionLLaMA,Whisper (large-v3),LanguageBind (视频编码器),VideoLLaMA,PandaGPT,OneLLM,VITA-1.5,Qwen-2.5 Omni。
- 数据集:DFEW,MAFW,MER2025,RAVDESS,EMER。
- 工具:GPT-4o,Gemini-2.5,Qwen-2.5(用于数据生成和评估)。
📌 核心摘要
- 要解决什么问题:当前多模态大语言模型(MLLMs)在音视频情感推理中存在两大问题:一是“推理错误”,即模型将情感错误地关联到不相关的视听线索上;二是“感知错误”,即模型基于语言模型的文本先验,幻觉出不存在的视听线索来解释情感。
- 方法核心是什么:论文提出一个名为AVEm-DPO的偏好优化技术。它通过构建细粒度的偏好对来对齐模型输出:1)基于提示的模态偏好(PMP),确保模型关注正确的模态;2)基于情感的响应偏好(ERP),直接针对虚假关联和幻觉构建拒绝响应;3)引入文本先验去偏(TPD)正则项,惩罚仅基于文本生成的响应。
- 与已有方法相比新在哪里:相较于简单的DPO应用,AVEm-DPO创新性地提出了针对音视频输入和情感任务的细粒度偏好构建策略,特别是Prompt-based Modality Preference和Text-Prior Debiasing,这比传统只对响应进行偏好优化的方法更精细,更能解决跨模态幻觉问题。
- 主要实验结果如何:在多个数据集上,AVEm-DPO显著提升了基线模型性能。例如,在自有EmoReAlM基准上,以“Our base”模型为例,其平均准确率从基线的65.1%提升至AVEm-DPO的83.3%(相对提升28%)。在EMER情感推理数据集的人类评估中,其“情感描述正确率”从基线的5.63%大幅跃升至54.74%。消融实验证明各组件均有效,特别是TPD对降低幻觉至关重要。
- 实际意义是什么:该工作为评估和改进音视频MLLM的情感推理能力提供了系统性的解决方案,包括一个可复现的基准测试(EmoReAlM)和一套有效的优化方法(AVEm-DPO),有助于构建更可靠、更少幻觉的情感AI代理。
- 主要局限性是什么:论文承认其基准测试(EmoReAlM)源自DFEW数据集,可能继承其文化偏见;训练数据和基准主要基于短视频,长视频情感理解仍是挑战;模型在“厌恶”这一模糊情感上的识别效果不佳,可能源于训练样本不足;且对虚假音频线索的缓解仍有改进空间。
🏗️ 模型架构
论文提出的AVEm-DPO是一种训练方法,而非一个新的神经网络架构。它应用于现有的音视频大语言模型(如EmotionLLaMA或作者自建的基线模型)之上,通过修改训练目标来优化模型。
整体流程:
- 输入:音视频对(a, v)和文本提示(x)。
- 模型:一个参考音视频MLLM(πref),包含音频编码器、视频编码器、投影器和语言模型骨干。训练时,语言模型骨干附加了LoRA适配器。
- 训练目标(AVEm-DPO Loss):由两部分组成,如公式(9)所示:
L^y_{DPO-TPD}:结合了基于情感的响应偏好(ERP)和文本先验去偏(TPD)的DPO损失。它使用一对或多对选择(chosen)和拒绝(rejected)的响应(y)进行优化。拒绝响应有两种:与视频相关但情感关联虚假的(y_vr_l),以���与情感相关但视频中不存在的幻觉(y_er_l)。TPD项通过计算仅文本输入下的响应概率,来惩罚那些仅靠语言先验就能生成的响应。λ_av L^{av-prompt}_{DPO}:基于提示的模态偏好损失。它确保模型根据提示(如关注视觉或听觉)正确关联对应的模态输入。具体做法是,对于关注模态m的提示,拒绝对(al, vl)中只修改模态m的输入(例如换成其他视频或音频)。
- 输出:优化后的策略模型πθ,其在生成响应时更少依赖虚假线索和文本先验,更能扎根于正确的视听输入。
关键设计选择及动机:
- 双拒绝响应:针对情感推理中两种典型错误(虚假关联、幻觉)分别构建拒绝样本,使优化目标更精确。
- Prompt-based Modality Preference:防止模型在回答关于某个模态的问题时,被无关模态的输入干扰或产生跨模态幻觉。
- Text-Prior Debiasing:直接抑制语言模型中固有的、与输入内容无关的“常识”偏见,这是情感推理中幻觉的主要来源之一。
论文中的架构图(图4)清晰地展示了这两种偏好对的构建方式:
💡 核心创新点
- 提出EmoReAlM基准测试:这是一个专注于评估音视频MLLM情感推理能力的综合MCQA基准。其创新在于同时设计了针对虚假线索-情感关联(推理错误)和线索幻觉(感知错误)的压力测试,并引入了模态一致性任务,弥补了现有基准的不足。该基准完全自动化生成并经过人工验证。
- 设计AVEm-DPO偏好优化技术:这是核心方法创新。它不是简单地将DPO应用于MLLM,而是针对情感推理任务的特点,设计了基于提示的模态偏好(PMP) 和基于情感的响应偏好(ERP),并通过文本先验去偏(TPD) 正则化进行增强。这一组合拳系统性地针对了前面提出的两大问题。
- 引入文本先验去偏(TPD):通过在DPO目标中加入一个惩罚项,显式地降低模型对“仅文本”就能生成答案的响应的奖励,从而削弱语言模型骨干中与输入视听内容无关的统计偏见,有效缓解幻觉。
- 详尽的分析与验证:论文不仅报告了在多个基准上的性能提升,还通过注意力重新分布分析(图5左)、对抗输入鲁棒性测试(图5右)以及消融实验,从机理上验证了方法的有效性,增强了结论的可信度。
🔬 细节详述
- 训练数据:偏好优化数据使用MAFW和MER2025数据集的一个子集,通过类似EmoReAlM的自动流程(使用Gemini 2.5 Flash)生成,共约41687个偏好样本。基准测试数据来自DFEW数据集。最终模型微调数据还包括原始EmotionLLaMA的数据集以及通过Gemini 2.5 Flash标注的MAFW/MER2025数据。
- 损失函数:主损失为AVEm-DPO Loss,如公式(9)所示,包含两部分:
L^y_{DPO-TPD}(带TPD的响应偏好DPO损失)和λ_av L^{av-prompt}_{DPO}(模态偏好DPO损失)。其中TPD项通过比较完全多模态输入和纯文本输入下的响应概率来计算。 - 训练策略:
- 参考模型进行1个epoch的训练。
- 学习率:5e-7。
- 批大小:每GPU 2,使用8个NVIDIA H100 GPU。
- 梯度累积:4步。
- 优化器:未明确说明,根据上下文应为AdamW。
- 关键超参数:
- DPO温度参数β = 0.1。
- 模态偏好损失权重λ_av = 1.0。
- 两种拒绝响应的权重β_er = β_vr = 0.5。
- 文本先验去偏强度γ_TPD = 0.2。
- LoRA秩为8,缩放因子为4。
- 训练硬件:NVIDIA DGX节点,配备8块NVIDIA H100 GPU。
- 推理细节:在零样本设置下评估,具体解码策略(如温度、beam search)未在摘要中提及。
- 正则化/稳定技巧:使用LoRA进行参数高效微调;在TPD项中,文本模型πtext的梯度被停止(stop-gradient),防止其被更新。
📊 实验结果
论文在多个基准上进行了评估,主要结果如下:
表2:在现有音视频情感识别基准上的零样本性能比较(摘录)
| 模型 | 模态 | DFEW (UAR/WAR) | RAVDESS (UAR/WAR) | MER2023 (F1) |
|---|---|---|---|---|
| Our base | A,V | 56.78 / 60.14 | 53.59 / 53.01 | 89.19 |
| + Naive-DPO | A,V | 55.67 / 59.90 | 53.63 / 52.94 | 88.59 |
| + Vista-DPO† | A,V | 56.42 / 62.33 | 56.94 / 53.64 | 90.06 |
| + AVEm-DPO | A,V | 58.54 / 64.24 | 58.66 / 55.48 | 92.18 |
| 结论:AVEm-DPO在所有指标上均优于Naive-DPO和Vista-DPO,并提升了基线性能。 |
表3:在EmoReAlM基准上的性能比较(摘录)
| 模型 | 基本推理 (Acc.) | 模态一致性 (F1) | 压力测试 (F1) |
|---|---|---|---|
| Our base | 69.2 | 34.6 | 50.3 |
| + Naive-DPO | 71.3 | 41.6 | 54.8 |
| + Vista-DPO† | 72.4 | 52.1 | 73.6 |
| + AVEm-DPO | 77.9 | 60.0 | 80.9 |
| 结论:AVEm-DPO在更关注错误分析的EmoReAlM基准上取得了显著提升,尤其是在压力测试上。 |
表4:在EMER数据集上的人类评估结果
| 模型 | 情感描述正确率(↑) | 情感线索关联率(↑) | 不一致率(↓) |
|---|---|---|---|
| Qwen 2.5 Omni | 10.75% | 18.57% | 10.13% |
| EmotionLLaMA | 1.89% | 11.53% | 68.61% |
| Our + AVEm-DPO | 54.74% | 43.35% | 4.67% |
| 结论:在需要生成长文本描述的任务中,AVEm-DPO训练的模型在人类评估中远超其他基线。 |
消融实验(表5,摘录)
| 方法 | 基本推理 | 模态一致性 | 压力测试 | 虚假关联 | 幻觉 |
|---|---|---|---|---|---|
| Our base | 77.3 | 34.6 | 55.1 | 47.3 | 39.2 |
| AVEm-DPO | 85.2 | 60.1 | 87.8 | 92.7 | 97.6 |
| w/o TPD | 83.8 | 58.9 | 78.8 | 87.1 | 77.8 |
| 结论:去除TPD组件后,模型在“幻觉”测试上的性能从97.6%骤降至77.8%,证明TPD对消除幻觉至关重要。 |
图表分析:
左图:AVEm-DPO训练后,模型在音频/视觉推理任务上,对相关模态token的注意力比例显著增加。
右图:AVEm-DPO训练后,对视觉推理任务,当音频输入被攻击性替换时,正确答案的对数似然分布偏移(Shift)从0.78大幅减少至0.04,表明模型鲁棒性增强。
⚖️ 评分理由
- 学术质量:6.0/7。论文问题识别准确,提出的AVEm-DPO方法技术正确且针对性强。实验设计非常充分,包括新基准测试、多个现有数据集、人类评估、消融实验和机理分析(注意力、鲁棒性)。然而,其方法创新(改进DPO)属于渐进式优化,而非原理性突破。
- 选题价值:1.0/2。音视频情感推理是情感AI的核心问题之一,具有明确的应用前景。但相对于通用的语音识别或生成任务,该课题相对垂直。论文对于推动该细分领域的可靠性具有价值。
- 开源与复现加成:0.5/1。论文明确承诺开源代码、模型和基准,并在附录中提供了近乎“菜谱式”的实现细节、超参数和数据生成流程,复现门槛较低,给予正向加分。