📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time
#多模态模型 #对比学习 #跨模态 #模型评估
✅ 7.5/10 | 前25% | #多模态幻觉缓解 | #推理时优化 | #多模态模型 #对比学习 | arxiv
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Itai Allouche(Technion, Israel, 电气与计算机工程系)
- 通讯作者:Joseph Keshet(Technion, Israel, 电气与计算机工程系)
- 作者列表:Itai Allouche(Technion, Israel, 电气与计算机工程系)、Joseph Keshet(Technion, Israel, 电气与计算机工程系)
💡 毒舌点评
亮点:这篇工作成功地将视觉领域的幻觉缓解方法无缝扩展到了音频领域,且实验设计严谨,对比基线全面,说服力较强。 短板:推理时每个token都要做多次梯度优化,导致速度慢近10倍,这在实际部署中可能是致命伤,论文对如何权衡这一开销讨论不足。
🔗 开源详情
- 代码: https://github.com/ItaiAllouche/lime
- 模型权重: 论文中未提供具体下载链接。论文使用了以下预训练开源模型:LLaVA-1.5-7B, Qwen-VL-Chat, Qwen2.5-VL-7B-Instruct, SALMONN-7B, Qwen2-Audio-7B-Instruct。
- 数据集: 论文中未提供数据集下载链接。论文在评估中使用了以下公开数据集:MSCOCO, A-OKVQA, POPE (基于MSCOCO和A-OKVQA构建), CHAIR (基于MSCOCO), AIR-Bench, Audio Hallucination QA, DCASE 2019 Task 4。
- Demo: 论文中未提及。
- 复现材料: 论文在附录B.2中提供了详细的超参数设置表(表A.1),包括每个模型的优化步数、学习率、KL权重和温度参数。未提及提供预训练检查点或完整训练代码。
- 论文中引用的开源项目:
- OPERA: 论文引用了方法[12],未提供具体链接。
- Visual Contrastive Decoding (VCD): 论文引用了方法[18],未提供具体链接。
- Instruction Contrastive Decoding (ICD): 论文引用了方法[35],未提供具体链接。
- MemVR: 论文引用了方法[40],未提供具体链接。
- V-ITI: 论文引用了方法[31],未提供具体链接。
- Audio-Aware Decoding (AAD): 论文引用了方法[11],并指出其作者未发布代码。
- AttnLRP (Attention-Aware Layer-wise Relevance Propagation): 论文引用了框架[1],未提供具体链接。
- CLIP: 论文引用了模型[27],未提供具体链接。
- LLaMA: 论文引用了模型[33],未提供具体链接。
- Qwen: 论文引用了模型[4],未提供具体链接。
- Vicuna: 论文引用了模型[7],未提供具体链接。
- Whisper: 论文引用了模型[28],未提供具体链接。
- Adam Optimizer: 论文引用了优化器[15],未提供具体链接。
- GPT-4: 论文在附录B.1中提及使用GPT-4作为AIR-Bench的评估器,但GPT-4是闭源的。
补充信息
- [模型架构] 补充:论文在附录A中详细阐述了用于计算Token级相关性的AttnLRP(Attention-Aware Layer-wise Relevance Propagation) 框架的具体传播规则。这包括:LRP-z规则、LRP-ε规则(用于稳定传播)、通过softmax的传播规则、通过注意力-值矩阵乘积的分解规则,以及对LayerNorm/RMSNorm层的近似恒等映射处理。这些是LIME方法中可解释性信号的技术基础,分析中仅概括提及“基于LRP”,未展开此技术细节。
- [细节详述] 补充:1) 超参数具体值:分析中提及学习率为“3e-5 ~ 5e-5(模型相关)”,原文表A.1给出了具体值:LLaVA-1.5-7B为3e-4,Qwen-VL-Chat为4e-4,SALMONN-7B为3e-4,Qwen2-Audio-7B为5e-4。2) 消融实验具体结果:分析中仅提及“联合修改K和V效果最好”,原文图5的曲线还显示了:在不同λ下,仅修改ΔK、仅修改ΔV、修改ΔKV三者的性能趋势。尤其在Qwen2-Audio模型上,λ过小(如1e-4)时性能显著下降,证明了KL正则化权重的关键作用。3) 优化器细节:论文明确说明使用Adam优化器进行所有推理时优化步骤。
- [实验结果] 补充:1) 更完整的POPE基线对比:分析中仅列出了LLaVA-1.5-7B在MSCOCO上的结果。原文表A.3和表A.4补充了Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct在MSCOCO和A-OKVQA数据集上的结果,以及LLaVA-1.5-7B在A-OKVQA上的结果,提供了更全面的跨模型、跨数据集对比。2) 与SOTA的具体差距数值:在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME的平均准确率(87.89%)比最强基线MemVR(86.93%)高出0.96个百分点;在CHAIR_S上,LIME(42.7%)比MemVR(46.6%)降低了3.9个百分点。在Audio Hallucination QA(Qwen2-Audio-7B, 随机分片)上,LIME的F1(36.85%)显著高于AAD(18.78%)。
- [评分/标签] 补充:主方法标签建议从“#对比学习”调整为更准确的“#推理时KV优化”或“#相关性传播”。因为LIME的核心是通过优化KV扰动来调整相关性,对比学习思想仅用于定义相关性目标函数(式2),并非主要技术手段。
📌 核心摘要
- 要解决的问题:多模态大语言模型在推理时容易产生幻觉,即生成与输入视觉或音频证据不符的内容。根本原因是文本token在生成过程中占据主导地位,而感知模态token未被充分利用。
- 方法核心:提出LIME,一个无需训练的推理时框架。其核心是利用层相关性传播(LRP)量化每个token对输出的贡献,并定义一个基于相关性的目标函数,通过优化模型关键值(KV)表示的加性扰动(ΔKV),在解码时动态增强感知模态token的贡献权重。
- 与已有方法相比新在哪里:现有训练无关方法多基于启发式规则(如惩罚主导token)或对比解码,未直接量化和干预模态token的贡献。LIME首次使用LRP作为信号,在推理时直接优化内部表示(KV),以显式地重新平衡模态与文本token的影响力,同时保持KL散度以稳定原始模型行为。
- 主要实验结果:在视觉(POPE, CHAIR)和音频(Audio Hallucination QA, AIR-Bench)的多个基准测试上,LIME一致减少了幻觉并提升了准确性。例如,在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME将平均准确率从79.83%提升至87.89%;在CHAIR上,将CHAIRS从52%降至42.7%。在音频任务上,同样显著优于基线模型和AAD方法。
- 实际意义:提供了一种通用的、即插即用的推理时增强策略,可直接应用于已训练好的多模态大模型,提升其可靠性和事实依据,对于构建可信AI系统有直接价值。
- 主要局限性:推理时需要为每个生成token进行多次优化步,引入了显著的计算开销(速度降低约9倍),限制了在延迟敏感场景的应用。此外,需要针对不同模型和任务调整超参数(如λ, τ)。
🏗️ 模型架构
本论文并未提出一个新的端到端模型架构,而是提出了一种推理时干预方法(LIME),应用于现有的多模态大语言模型(MLLM)。其核心思想是在模型生成过程中,动态调整中间表示,而非修改模型参数。
图2展示了这一过程。一个典型的MLLM由三部分组成:1)模态编码器(如CLIP视觉编码器或Whisper音频编码器),将原始感知信号转换为潜在表示;2)投影模块,将模态编码器的输出映射到与LLM文本嵌入相同维度的感知token序列;3)LLM主干(如LLaMA, Qwen),负责处理由感知token和文本token组成的序列并生成输出。
LIME的作用点在于LLM主干的内部。在每一步自回归解码时,LIME会对所有Transformer层的关键值(KV) 表示施加一个可学习的加性扰动 Δ = {ΔK, ΔV}。这些扰动在每一步独立优化,用完即弃。优化的目标有两个:1)相关性目标(基于LRP):使感知模态token的贡献分数相对于文本token增加;2)KL散度正则化:使扰动后的输出概率分布接近原始模型的分布,以保持语言流畅性和稳定性。最终,模型使用调整后的KV进行解码。
图3可视化了在图像相关任务中,随着LIME优化步骤的进行,模型分配给图像token的相关性如何从分散逐渐聚焦到与问题相关的区域,直观证明了方法提升了模态的“聚焦”能力。
💡 核心创新点
- 基于LRP的幻觉诊断与量化:创新性地应用LRP分析多模态LLM,通过计算token级贡献,首次为“幻觉源于模态利用不平衡”这一假设提供了直接的可解释性证据(见第1、4.3节)。这超越了以往仅通过对比实验推断的结论。
- 提出LIME推理时优化框架:提出一个新颖的、无需训练的框架,通过优化KV表示来显式增强模态token的贡献。其创新点在于将可解释性方法(LRP)的输出转化为一个可微的优化目标(式2),并通过引入KL正则化(式3)来约束修改幅度,实现了在不改变参数的前提下,动态调整模型的信息聚合方式。
- 跨模态的有效性与泛化性:将缓解多模态幻觉的方法从视觉领域统一扩展至音频领域,并进行了全面的验证。这不仅证明了方法原理的通用性,也填补了音频领域推理时幻觉缓解方法的空白。
🔬 细节详述
- 训练数据:本方法为推理时方法,不涉及训练数据。但评估实验使用了多个公开数据集:MSCOCO、A-OKVQA(视觉POPE, CHAIR), Audio Hallucination QA, AIR-Bench, DCASE 2019 Task 4(音频)。
- 损失函数:LIME在每步优化的损失由两部分组成:
- 相关性损失 (L_rel):如式(2)所示,是一个基于对比学习思想的损失。它将感知模态token视为正样本,通过温度缩放的softmax,鼓励提升这些token的相关性分数相对于所有token(包括文本)的占比。
- KL散度损失 (L_KL):如式(3)所示,计算扰动后模型与原始模型在下一步token分布上的KL散度,作为正则化项,防止优化偏离原始模型太远。
最终损失为:
argmin_Δ L_rel(Δ) + λ * L_KL(Δ),其中λ是平衡权重。
- 训练策略:不适用。优化是在每个解码步骤独立进行的。
- 关键超参数:
- 优化步数:每个解码步进行7次梯度更新。
- 学习率:3e-5 ~ 5e-5(模型相关)。
- KL权重 (λ):0.1(视觉模型), 0.007(Qwen2-Audio)。
- 温度 (τ):0.1。 具体设置见附录表A.1。
- 训练硬件:论文未提及用于优化的硬件要求。所有评估实验在8块NVIDIA A100 GPU上进行。
- 推理细节:
- 解码策略:自回归解码。LIME在每个生成的token步骤运行7次优化迭代。
- 扰动重置:每步优化后的ΔKV在生成下一个token前被重置为零。
- 计算开销:如附录表A.2所示,LIME导致吞吐量下降约9.4倍(LLaVA-1.5-7B从3.02 tokens/sec降至0.32),峰值内存增加约8.5GB。
- 正则化或稳定训练技巧:除了KL散度正则化,优化中使用了Adam优化器,并将ΔK和ΔV在所有注意力头之间共享以减少变量数量。
📊 实验结果
- 视觉基准测试结果
- POPE基准测试(LLaVA-1.5-7B, MSCOCO):
方法 随机(%)↑ 热门(%)↑ 对抗(%)↑ 平均(%)↑ 基准 83.49 79.98 76.03 79.83 OPERA 87.53 84.21 80.88 84.21 MemVR 88.50 87.10 85.20 86.93 V-ITI 89.74 84.96 86.31 87.00 LIME 90.27 87.91 85.51 87.89 结论:LIME在几乎所有指标上取得最优,尤其在平均F1(87.37%)上提升显著,证明其能有效减少对象幻觉。 - CHAIR基准测试(MSCOCO):
方法 CHAIR_S ↓ CHAIR_I ↓ 召回率 ↑ LLaVA-1.5-7B 52 15.8 75.2 MemVR 46.6 13 80.8 V-ITI 46.1 13.5 80.4 LIME 42.7 13 72 结论:LIME大幅降低了生成描述中的幻觉比例(CHAIR_S降至42.7%),虽然召回率略低,但在真实性与覆盖率间取得了更好平衡。
- 音频基准测试结果
- Audio Hallucination QA & AIR-Bench:
方法 Audio HQA (平均Acc/F1)↑ AIR-Bench (Speech)↑ AIR-Bench (Sound)↑ SALMONN-7B 50.31 / 20.01 37.51 33.58 + AAD 48.04 / 17.42 42.62 34.56 + LIME 54.35 / 26.0 45.2 36.9 Qwen2-Audio-7B 50.13 / 20.24 57.56 60.86 + AAD 51.29 / 11.43 60.0 61.9 + LIME 53.10 / 37.08 66.1 66.41 结论:LIME在音频幻觉问答和生成式理解任务上均显著提升了准确率,尤其对Qwen2-Audio的F1分数提升巨大(从20.24到37.08)。
- 模态利用分析(相关性量化)
图4显示,在音频问答中,LIME使相关性分数(绿色)更紧密地集中在与真实声音事件对应的时间段内。
表4的量化分析证实了这一点:
| 指标 | 解码方式 | LLaVA-1.5-7B | Qwen-VL-Chat | SALMONN-7B | Qwen2-Audio-7B |
|---|---|---|---|---|---|
| 空间/时序聚焦度↑ | 标准 | 0.27 | 0.13 | 0.19 | 0.31 |
| LIME | 0.36 | 0.20 | 0.28 | 0.57 | |
| 模态依赖度↑ | 标准 | 0.10 | 0.41 | 0.10 | 0.34 |
| LIME | 0.17 | 0.53 | 0.19 | 0.42 | |
| 结论:LIME同时提升了“聚焦度”(相关性更集中于正确区域)和“依赖度”(感知模态的总体贡献比例),这从机理上解释了幻觉减少的原因。 |
- 消融实验(图5)
结论:1)同时更新K和V(ΔKV)效果最好,表明两者作用互补;2)存在一个最优的λ值(如0.1),过小则模型行为偏移过大,过大则优化无效。
⚖️ 评分理由
- 学术质量:5.5/7:创新性地将LRP与推理时优化结合,解决多模态幻觉,思路清晰新颖。技术实现正确,有充分的消融和深入分析支撑。实验极其全面,覆盖多模型、多模态、多基准,对比公平,结果可信。扣分在于方法本身不改变模型架构,且计算开销较大,使其更偏向于一种有效的“插件”而非底层突破。
- 选题价值:1.5/2:直击多模态LLM的关键痛点(幻觉),对提升模型可靠性和实用性至关重要。研究兼具视觉和音频双轨线,应用面广。对关注音频大模型的研究者,其跨模态的扩展性和音频实验具有高参考价值。
- 开源与复现加成:0.5/1:开源了核心代码(LIME实现),并在附录中提供了所有模型的详细超参数表,极大方便了复现。但未提供预训练模型权重(因其为推理时方法,可直接使用原模型)和训练数据集。