📄 Mitigating Multimodal LLMs Hallucinations via Relevance Propagation at Inference Time #多模态模型 #对比学习 #跨模态 #模型评估
✅ 7.5/10 | 前25% | #多模态幻觉缓解 | #推理时优化 | #多模态模型 #对比学习 | arxiv
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构 第一作者:Itai Allouche(Technion, Israel, 电气与计算机工程系) 通讯作者:Joseph Keshet(Technion, Israel, 电气与计算机工程系) 作者列表:Itai Allouche(Technion, Israel, 电气与计算机工程系)、Joseph Keshet(Technion, Israel, 电气与计算机工程系) 💡 毒舌点评 亮点:这篇工作成功地将视觉领域的幻觉缓解方法无缝扩展到了音频领域,且实验设计严谨,对比基线全面,说服力较强。 短板:推理时每个token都要做多次梯度优化,导致速度慢近10倍,这在实际部署中可能是致命伤,论文对如何权衡这一开销讨论不足。
🔗 开源详情 代码: https://github.com/ItaiAllouche/lime 模型权重: 论文中未提供具体下载链接。论文使用了以下预训练开源模型:LLaVA-1.5-7B, Qwen-VL-Chat, Qwen2.5-VL-7B-Instruct, SALMONN-7B, Qwen2-Audio-7B-Instruct。 数据集: 论文中未提供数据集下载链接。论文在评估中使用了以下公开数据集:MSCOCO, A-OKVQA, POPE (基于MSCOCO和A-OKVQA构建), CHAIR (基于MSCOCO), AIR-Bench, Audio Hallucination QA, DCASE 2019 Task 4。 Demo: 论文中未提及。 复现材料: 论文在附录B.2中提供了详细的超参数设置表(表A.1),包括每个模型的优化步数、学习率、KL权重和温度参数。未提及提供预训练检查点或完整训练代码。 论文中引用的开源项目: OPERA: 论文引用了方法[12],未提供具体链接。 Visual Contrastive Decoding (VCD): 论文引用了方法[18],未提供具体链接。 Instruction Contrastive Decoding (ICD): 论文引用了方法[35],未提供具体链接。 MemVR: 论文引用了方法[40],未提供具体链接。 V-ITI: 论文引用了方法[31],未提供具体链接。 Audio-Aware Decoding (AAD): 论文引用了方法[11],并指出其作者未发布代码。 AttnLRP (Attention-Aware Layer-wise Relevance Propagation): 论文引用了框架[1],未提供具体链接。 CLIP: 论文引用了模型[27],未提供具体链接。 LLaMA: 论文引用了模型[33],未提供具体链接。 Qwen: 论文引用了模型[4],未提供具体链接。 Vicuna: 论文引用了模型[7],未提供具体链接。 Whisper: 论文引用了模型[28],未提供具体链接。 Adam Optimizer: 论文引用了优化器[15],未提供具体链接。 GPT-4: 论文在附录B.1中提及使用GPT-4作为AIR-Bench的评估器,但GPT-4是闭源的。 补充信息 [模型架构] 补充:论文在附录A中详细阐述了用于计算Token级相关性的AttnLRP(Attention-Aware Layer-wise Relevance Propagation) 框架的具体传播规则。这包括:LRP-z规则、LRP-ε规则(用于稳定传播)、通过softmax的传播规则、通过注意力-值矩阵乘积的分解规则,以及对LayerNorm/RMSNorm层的近似恒等映射处理。这些是LIME方法中可解释性信号的技术基础,分析中仅概括提及“基于LRP”,未展开此技术细节。 [细节详述] 补充:1) 超参数具体值:分析中提及学习率为“3e-5 ~ 5e-5(模型相关)”,原文表A.1给出了具体值:LLaVA-1.5-7B为3e-4,Qwen-VL-Chat为4e-4,SALMONN-7B为3e-4,Qwen2-Audio-7B为5e-4。2) 消融实验具体结果:分析中仅提及“联合修改K和V效果最好”,原文图5的曲线还显示了:在不同λ下,仅修改ΔK、仅修改ΔV、修改ΔKV三者的性能趋势。尤其在Qwen2-Audio模型上,λ过小(如1e-4)时性能显著下降,证明了KL正则化权重的关键作用。3) 优化器细节:论文明确说明使用Adam优化器进行所有推理时优化步骤。 [实验结果] 补充:1) 更完整的POPE基线对比:分析中仅列出了LLaVA-1.5-7B在MSCOCO上的结果。原文表A.3和表A.4补充了Qwen-VL-Chat、Qwen2.5-VL-7B-Instruct在MSCOCO和A-OKVQA数据集上的结果,以及LLaVA-1.5-7B在A-OKVQA上的结果,提供了更全面的跨模型、跨数据集对比。2) 与SOTA的具体差距数值:在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME的平均准确率(87.89%)比最强基线MemVR(86.93%)高出0.96个百分点;在CHAIR_S上,LIME(42.7%)比MemVR(46.6%)降低了3.9个百分点。在Audio Hallucination QA(Qwen2-Audio-7B, 随机分片)上,LIME的F1(36.85%)显著高于AAD(18.78%)。 [评分/标签] 补充:主方法标签建议从“#对比学习”调整为更准确的“#推理时KV优化”或“#相关性传播”。因为LIME的核心是通过优化KV扰动来调整相关性,对比学习思想仅用于定义相关性目标函数(式2),并非主要技术手段。 📌 核心摘要 要解决的问题:多模态大语言模型在推理时容易产生幻觉,即生成与输入视觉或音频证据不符的内容。根本原因是文本token在生成过程中占据主导地位,而感知模态token未被充分利用。 方法核心:提出LIME,一个无需训练的推理时框架。其核心是利用层相关性传播(LRP)量化每个token对输出的贡献,并定义一个基于相关性的目标函数,通过优化模型关键值(KV)表示的加性扰动(ΔKV),在解码时动态增强感知模态token的贡献权重。 与已有方法相比新在哪里:现有训练无关方法多基于启发式规则(如惩罚主导token)或对比解码,未直接量化和干预模态token的贡献。LIME首次使用LRP作为信号,在推理时直接优化内部表示(KV),以显式地重新平衡模态与文本token的影响力,同时保持KL散度以稳定原始模型行为。 主要实验结果:在视觉(POPE, CHAIR)和音频(Audio Hallucination QA, AIR-Bench)的多个基准测试上,LIME一致减少了幻觉并提升了准确性。例如,在POPE(LLaVA-1.5-7B, MSCOCO)上,LIME将平均准确率从79.83%提升至87.89%;在CHAIR上,将CHAIRS从52%降至42.7%。在音频任务上,同样显著优于基线模型和AAD方法。 实际意义:提供了一种通用的、即插即用的推理时增强策略,可直接应用于已训练好的多模态大模型,提升其可靠性和事实依据,对于构建可信AI系统有直接价值。 主要局限性:推理时需要为每个生成token进行多次优化步,引入了显著的计算开销(速度降低约9倍),限制了在延迟敏感场景的应用。此外,需要针对不同模型和任务调整超参数(如λ, τ)。 🏗️ 模型架构 本论文并未提出一个新的端到端模型架构,而是提出了一种推理时干预方法(LIME),应用于现有的多模态大语言模型(MLLM)。其核心思想是在模型生成过程中,动态调整中间表示,而非修改模型参数。
...