📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time

#多模态模型 #对比学习 #跨模态 #模型评估

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Itai Allouche（Technion, Israel, 电气与计算机工程系）
通讯作者：Joseph Keshet（Technion, Israel, 电气与计算机工程系）
作者列表：Itai Allouche（Technion, Israel, 电气与计算机工程系）、Joseph Keshet（Technion, Israel, 电气与计算机工程系）

💡 毒舌点评

亮点：这篇工作成功地将视觉领域的幻觉缓解方法无缝扩展到了音频领域，且实验设计严谨，对比基线全面，说服力较强。短板：推理时每个token都要做多次梯度优化，导致速度慢近10倍，这在实际部署中可能是致命伤，论文对如何权衡这一开销讨论不足。

🔗 开源详情

代码： https://github.com/ItaiAllouche/lime
模型权重：论文中未提供具体下载链接。论文使用了以下预训练开源模型：LLaVA-1.5-7B， Qwen-VL-Chat， Qwen2.5-VL-7B-Instruct， SALMONN-7B， Qwen2-Audio-7B-Instruct。
数据集：论文中未提供数据集下载链接。论文在评估中使用了以下公开数据集：MSCOCO， A-OKVQA， POPE (基于MSCOCO和A-OKVQA构建)， CHAIR (基于MSCOCO)， AIR-Bench， Audio Hallucination QA， DCASE 2019 Task 4。
Demo：论文中未提及。
复现材料：论文在附录B.2中提供了详细的超参数设置表（表A.1），包括每个模型的优化步数、学习率、KL权重和温度参数。未提及提供预训练检查点或完整训练代码。
论文中引用的开源项目：
- OPERA: 论文引用了方法[12]，未提供具体链接。
- Visual Contrastive Decoding (VCD): 论文引用了方法[18]，未提供具体链接。
- Instruction Contrastive Decoding (ICD): 论文引用了方法[35]，未提供具体链接。
- MemVR: 论文引用了方法[40]，未提供具体链接。
- V-ITI: 论文引用了方法[31]，未提供具体链接。
- Audio-Aware Decoding (AAD): 论文引用了方法[11]，并指出其作者未发布代码。
- AttnLRP (Attention-Aware Layer-wise Relevance Propagation): 论文引用了框架[1]，未提供具体链接。
- CLIP: 论文引用了模型[27]，未提供具体链接。
- LLaMA: 论文引用了模型[33]，未提供具体链接。
- Qwen: 论文引用了模型[4]，未提供具体链接。
- Vicuna: 论文引用了模型[7]，未提供具体链接。
- Whisper: 论文引用了模型[28]，未提供具体链接。
- Adam Optimizer: 论文引用了优化器[15]，未提供具体链接。
- GPT-4: 论文在附录B.1中提及使用GPT-4作为AIR-Bench的评估器，但GPT-4是闭源的。

补充信息

[模型架构] 补充：论文在附录A中详细阐述了用于计算Token级相关性的AttnLRP（Attention-Aware Layer-wise Relevance Propagation）框架的具体传播规则。这包括：LRP-z规则、LRP-ε规则（用于稳定传播）、通过softmax的传播规则、通过注意力-值矩阵乘积的分解规则，以及对LayerNorm/RMSNorm层的近似恒等映射处理。这些是LIME方法中可解释性信号的技术基础，分析中仅概括提及“基于LRP”，未展开此技术细节。
[细节详述] 补充：1) 超参数具体值：分析中提及学习率为“3e-5 ~ 5e-5（模型相关）”，原文表A.1给出了具体值：LLaVA-1.5-7B为3e-4，Qwen-VL-Chat为4e-4，SALMONN-7B为3e-4，Qwen2-Audio-7B为5e-4。2) 消融实验具体结果：分析中仅提及“联合修改K和V效果最好”，原文图5的曲线还显示了：在不同λ下，仅修改ΔK、仅修改ΔV、修改ΔKV三者的性能趋势。尤其在Qwen2-Audio模型上，λ过小（如1e-4）时性能显著下降，证明了KL正则化权重的关键作用。3) 优化器细节：论文明确说明使用Adam优化器进行所有推理时优化步骤。
[实验结果] 补充：1) 更完整的POPE基线对比：分析中仅列出了LLaVA-1.5-7B在MSCOCO上的结果。原文表A.3和表A.4补充了Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct在MSCOCO和A-OKVQA数据集上的结果，以及LLaVA-1.5-7B在A-OKVQA上的结果，提供了更全面的跨模型、跨数据集对比。2) 与SOTA的具体差距数值：在POPE（LLaVA-1.5-7B, MSCOCO）上，LIME的平均准确率（87.89%）比最强基线MemVR（86.93%）高出0.96个百分点；在CHAIR_S上，LIME（42.7%）比MemVR（46.6%）降低了3.9个百分点。在Audio Hallucination QA（Qwen2-Audio-7B, 随机分片）上，LIME的F1（36.85%）显著高于AAD（18.78%）。
[评分/标签] 补充：主方法标签建议从“#对比学习”调整为更准确的“#推理时KV优化”或“#相关性传播”。因为LIME的核心是通过优化KV扰动来调整相关性，对比学习思想仅用于定义相关性目标函数（式2），并非主要技术手段。

📌 核心摘要

要解决的问题：多模态大语言模型在推理时容易产生幻觉，即生成与输入视觉或音频证据不符的内容。根本原因是文本token在生成过程中占据主导地位，而感知模态token未被充分利用。
方法核心：提出LIME，一个无需训练的推理时框架。其核心是利用层相关性传播（LRP）量化每个token对输出的贡献，并定义一个基于相关性的目标函数，通过优化模型关键值（KV）表示的加性扰动（ΔKV），在解码时动态增强感知模态token的贡献权重。
与已有方法相比新在哪里：现有训练无关方法多基于启发式规则（如惩罚主导token）或对比解码，未直接量化和干预模态token的贡献。LIME首次使用LRP作为信号，在推理时直接优化内部表示（KV），以显式地重新平衡模态与文本token的影响力，同时保持KL散度以稳定原始模型行为。
主要实验结果：在视觉（POPE， CHAIR）和音频（Audio Hallucination QA， AIR-Bench）的多个基准测试上，LIME一致减少了幻觉并提升了准确性。例如，在POPE（LLaVA-1.5-7B， MSCOCO）上，LIME将平均准确率从79.83%提升至87.89%；在CHAIR上，将CHAIRS从52%降至42.7%。在音频任务上，同样显著优于基线模型和AAD方法。
实际意义：提供了一种通用的、即插即用的推理时增强策略，可直接应用于已训练好的多模态大模型，提升其可靠性和事实依据，对于构建可信AI系统有直接价值。
主要局限性：推理时需要为每个生成token进行多次优化步，引入了显著的计算开销（速度降低约9倍），限制了在延迟敏感场景的应用。此外，需要针对不同模型和任务调整超参数（如λ， τ）。

🏗️ 模型架构

本论文并未提出一个新的端到端模型架构，而是提出了一种推理时干预方法（LIME），应用于现有的多模态大语言模型（MLLM）。其核心思想是在模型生成过程中，动态调整中间表示，而非修改模型参数。

图2：LIME方法概述图2展示了这一过程。一个典型的MLLM由三部分组成：1）模态编码器（如CLIP视觉编码器或Whisper音频编码器），将原始感知信号转换为潜在表示；2）投影模块，将模态编码器的输出映射到与LLM文本嵌入相同维度的感知token序列；3）LLM主干（如LLaMA， Qwen），负责处理由感知token和文本token组成的序列并生成输出。 LIME的作用点在于LLM主干的内部。在每一步自回归解码时，LIME会对所有Transformer层的关键值（KV）表示施加一个可学习的加性扰动 Δ = {ΔK, ΔV}。这些扰动在每一步独立优化，用完即弃。优化的目标有两个：1）相关性目标（基于LRP）：使感知模态token的贡献分数相对于文本token增加；2）KL散度正则化：使扰动后的输出概率分布接近原始模型的分布，以保持语言流畅性和稳定性。最终，模型使用调整后的KV进行解码。

图3：LIME优化过程中视觉相关性的演变图3可视化了在图像相关任务中，随着LIME优化步骤的进行，模型分配给图像token的相关性如何从分散逐渐聚焦到与问题相关的区域，直观证明了方法提升了模态的“聚焦”能力。

💡 核心创新点

基于LRP的幻觉诊断与量化：创新性地应用LRP分析多模态LLM，通过计算token级贡献，首次为“幻觉源于模态利用不平衡”这一假设提供了直接的可解释性证据（见第1、4.3节）。这超越了以往仅通过对比实验推断的结论。
提出LIME推理时优化框架：提出一个新颖的、无需训练的框架，通过优化KV表示来显式增强模态token的贡献。其创新点在于将可解释性方法（LRP）的输出转化为一个可微的优化目标（式2），并通过引入KL正则化（式3）来约束修改幅度，实现了在不改变参数的前提下，动态调整模型的信息聚合方式。
跨模态的有效性与泛化性：将缓解多模态幻觉的方法从视觉领域统一扩展至音频领域，并进行了全面的验证。这不仅证明了方法原理的通用性，也填补了音频领域推理时幻觉缓解方法的空白。

🔬 细节详述

训练数据：本方法为推理时方法，不涉及训练数据。但评估实验使用了多个公开数据集：MSCOCO、A-OKVQA（视觉POPE， CHAIR）， Audio Hallucination QA， AIR-Bench， DCASE 2019 Task 4（音频）。
损失函数：LIME在每步优化的损失由两部分组成：
1. 相关性损失 (L_rel)：如式(2)所示，是一个基于对比学习思想的损失。它将感知模态token视为正样本，通过温度缩放的softmax，鼓励提升这些token的相关性分数相对于所有token（包括文本）的占比。
2. KL散度损失 (L_KL)：如式(3)所示，计算扰动后模型与原始模型在下一步token分布上的KL散度，作为正则化项，防止优化偏离原始模型太远。最终损失为：argmin_Δ L_rel(Δ) + λ * L_KL(Δ)，其中λ是平衡权重。
训练策略：不适用。优化是在每个解码步骤独立进行的。
关键超参数：
- 优化步数：每个解码步进行7次梯度更新。
- 学习率：3e-5 ~ 5e-5（模型相关）。
- KL权重 (λ)：0.1（视觉模型）， 0.007（Qwen2-Audio）。
- 温度 (τ)：0.1。具体设置见附录表A.1。
训练硬件：论文未提及用于优化的硬件要求。所有评估实验在8块NVIDIA A100 GPU上进行。
推理细节：
- 解码策略：自回归解码。LIME在每个生成的token步骤运行7次优化迭代。
- 扰动重置：每步优化后的ΔKV在生成下一个token前被重置为零。
- 计算开销：如附录表A.2所示，LIME导致吞吐量下降约9.4倍（LLaVA-1.5-7B从3.02 tokens/sec降至0.32），峰值内存增加约8.5GB。
正则化或稳定训练技巧：除了KL散度正则化，优化中使用了Adam优化器，并将ΔK和ΔV在所有注意力头之间共享以减少变量数量。

📊 实验结果

视觉基准测试结果

POPE基准测试（LLaVA-1.5-7B， MSCOCO）：

方法	随机(%)↑	热门(%)↑	对抗(%)↑	平均(%)↑
基准	83.49	79.98	76.03	79.83
OPERA	87.53	84.21	80.88	84.21
MemVR	88.50	87.10	85.20	86.93
V-ITI	89.74	84.96	86.31	87.00
LIME	90.27	87.91	85.51	87.89
结论：LIME在几乎所有指标上取得最优，尤其在平均F1（87.37%）上提升显著，证明其能有效减少对象幻觉。

CHAIR基准测试（MSCOCO）：

方法	CHAIR_S ↓	CHAIR_I ↓	召回率 ↑
LLaVA-1.5-7B	52	15.8	75.2
MemVR	46.6	13	80.8
V-ITI	46.1	13.5	80.4
LIME	42.7	13	72
结论：LIME大幅降低了生成描述中的幻觉比例（CHAIR_S降至42.7%），虽然召回率略低，但在真实性与覆盖率间取得了更好平衡。

音频基准测试结果

Audio Hallucination QA & AIR-Bench：

方法	Audio HQA (平均Acc/F1)↑	AIR-Bench (Speech)↑	AIR-Bench (Sound)↑
SALMONN-7B	50.31 / 20.01	37.51	33.58
+ AAD	48.04 / 17.42	42.62	34.56
+ LIME	54.35 / 26.0	45.2	36.9
Qwen2-Audio-7B	50.13 / 20.24	57.56	60.86
+ AAD	51.29 / 11.43	60.0	61.9
+ LIME	53.10 / 37.08	66.1	66.41
结论：LIME在音频幻觉问答和生成式理解任务上均显著提升了准确率，尤其对Qwen2-Audio的F1分数提升巨大（从20.24到37.08）。

模态利用分析（相关性量化）图4显示，在音频问答中，LIME使相关性分数（绿色）更紧密地集中在与真实声音事件对应的时间段内。表4的量化分析证实了这一点：

指标	解码方式	LLaVA-1.5-7B	Qwen-VL-Chat	SALMONN-7B	Qwen2-Audio-7B
空间/时序聚焦度↑	标准	0.27	0.13	0.19	0.31
	LIME	0.36	0.20	0.28	0.57
模态依赖度↑	标准	0.10	0.41	0.10	0.34
	LIME	0.17	0.53	0.19	0.42
结论：LIME同时提升了“聚焦度”（相关性更集中于正确区域）和“依赖度”（感知模态的总体贡献比例），这从机理上解释了幻觉减少的原因。

消融实验（图5）结论：1）同时更新K和V（ΔKV）效果最好，表明两者作用互补；2）存在一个最优的λ值（如0.1），过小则模型行为偏移过大，过大则优化无效。

⚖️ 评分理由

学术质量：5.5/7：创新性地将LRP与推理时优化结合，解决多模态幻觉，思路清晰新颖。技术实现正确，有充分的消融和深入分析支撑。实验极其全面，覆盖多模型、多模态、多基准，对比公平，结果可信。扣分在于方法本身不改变模型架构，且计算开销较大，使其更偏向于一种有效的“插件”而非底层突破。
选题价值：1.5/2：直击多模态LLM的关键痛点（幻觉），对提升模型可靠性和实用性至关重要。研究兼具视觉和音频双轨线，应用面广。对关注音频大模型的研究者，其跨模态的扩展性和音频实验具有高参考价值。
开源与复现加成：0.5/1：开源了核心代码（LIME实现），并在附录中提供了所有模型的详细超参数表，极大方便了复现。但未提供预训练模型权重（因其为推理时方法，可直接使用原模型）和训练数据集。

← 返回 2026-05-05 语音/音乐/音频论文速递

📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

补充信息#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文