Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

📄 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning #多模态推理 #基准测试 #大语言模型 #跨模态 ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 代码:论文声明代码和数据公开可用(附录提到GitHub仓库),提供了生成脚本和评估协议。 模型权重:未提供。使用的是四个公开的开源模型(Baichuan-Omni, Qwen2.5-Omni, MiniCPM-o, Phi-4 Multimodal)。 数据集:合成数据,论文提供了生成代码,但未提及独立的数据集下载包。 Demo:未提及。 复现材料:提供了详细的实验设置、提示模板(附录A.3)、线性探针设置(附录A.2),复现材料充分。 论文中引用的开源项目:依赖CosyVoice2 TTS进行音频生成,依赖GraphViz进行视觉图表生成,引用了Clark et al. (2020)和Liang et al. (2023)的代码用于事实和规则生成。 📌 核心摘要 要解决什么问题:解决多模态大语言模型(MLLM)在推理时,额外模态有时有帮助、有时有害的矛盾现象,缺乏一个可控的评估框架来隔离分析其内部原因。 方法核心是什么:提出一个基于逻辑推理的评估框架,将多模态交互系统性地分为六种模式(等价、替代、蕴含、独立、矛盾、互补),通过合成数据控制事实信息在模态间的分布与组合逻辑,以隔离不同因素的影响。 与已有方法相比新在哪里:超越了将模型视为黑盒的性能评估,转向对模态交互模式的系统性诊断和内部机制(注意力、层内表征)的探针分析。新在提出了任务组合瓶颈和融合瓶颈这两个核心诊断概念,并通过干预实验验证。 主要实验结果如何: 整体发现:文本单模态基线通常已接近天花板性能。多模态仅在提供独立且充分的推理路径(替代模式)时略有帮助(平均+12.7%至+14.8% vs 视觉/音频单模态基线);冗余信息(等价模式)无益甚至有害;跨模态多跳链(蕴含模式)严重损害性能(平均下降7.1%-12.8%)。 瓶颈诊断:独立模式暴露性能偏差(如文本最强,视觉最弱);矛盾模式暴露偏好偏差(模型在冲突时倾向某些模态,与其自身单模态性能不一致);互补模式暴露融合偏差(性能低于任何单模态基线,平均仅52.0% vs 文本94.6%)。 内部机制分析:注意力模式无法有效编码信息的“有用性”;两步提示法(先识别后推理)显著缓解了任务组合瓶颈;模态身份在早期层高度可辨识,调整早期层注意力温度可改善融合偏差。 实际意义是什么:指明了MLLM的核心障碍在于信息整合而非感知。未来的模型设计应关注组合感知的训练目标、早期融合的控制机制以及显式的证据选择能力。 主要局限性:实验完全基于精心构造的合成逻辑推理任务(单步演绎),其结论是否能泛化到更复杂、更开放的真实世界多模态推理(如视觉问答、文档理解)有待验证。所选模态(文本、TTS音频、图表视觉)过于简化,未涵盖自然图像、视频等更常见的模态。 🏗️ 模型架构 本文并非提出一个新的端到端多模态大语言模型架构,而是提出一个用于诊断现有MLLM推理瓶颈的评估与分析框架。其“架构”主要指实验设置和分析流程。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 301 words

ICLR 2026 - 多模态推理 论文列表

ICLR 2026 - 多模态推理 共 1 篇论文 ← 返回 ICLR 2026 总览 排名 论文 评分 分档 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in 7.5分 前25% 📋 论文详情 🥇 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning ✅ 7.5/10 | 前25% | #多模态推理 | #基准测试 | #大语言模型 #跨模态 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(苏黎世联邦理工学院计算机系,标注为同等贡献) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 作者列表:Yucheng Wang(苏黎世联邦理工学院计算机系)、Yifan Hou(苏黎世联邦理工学院计算机系)、Aydin Javadov(苏黎世联邦理工学院计算机系)、Mubashara Akhtar(苏黎世联邦理工学院计算机系)、Mrinmaya Sachan(苏黎世联邦理工学院计算机系) 💡 毒舌点评 亮点:论文构建了一套精妙的逻辑推理框架,将模态交互分解为六种可控模式,这种“解剖学”式的系统评估在当前多模态评估中少见且有价值。短板:依赖高度简化的合成逻辑数据来揭示“根本瓶颈”,其结论能否无缝迁移到复杂、开放的真实世界多模态推理场景中,存疑。 🔗 开源详情 ...

2026-05-04 · 更新于 2026-05-19 · 1 min · 102 words

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

📄 Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning #多模态推理 #评估框架 #多模态模型 #逻辑推理 #基准测试 🔥 8.5/10 | 前25% | #多模态推理 | #评估框架 | #多模态模型 #逻辑推理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yucheng Wang, Yifan Hou(共同第一作者,苏黎世联邦理工学院) 通讯作者:Mrinmaya Sachan(苏黎世联邦理工学院) 作者列表:Yucheng Wang(苏黎世联邦理工学院),Yifan Hou(苏黎世联邦理工学院),Aydin Javadov(苏黎世联邦理工学院),Mubashara Akhtar(苏黎世联邦理工学院),Mrinmaya Sachan(苏黎世联邦理工学院) 💡 毒舌点评 亮点在于提出了一个非常系统、基于命题逻辑的六类模态交互评估框架,并对“识别”与“推理”的分离进行了严谨的实验验证,为理解多模态模型瓶颈提供了清晰的诊断工具。短板是使用高度受控的合成数据进行评估,虽然逻辑清晰但可能无法完全反映真实世界中多模态信息的复杂性和噪声,且评估的模型规模较小(7-8B),对超大模型是否适用有待验证。 🔗 开源详情 代码:论文提到“Our code and data are publicly available”,但未提供具体链接。 模型权重:评估的是公开的第三方模型(Baichuan, Qwen, MiniCPM, Phi4),未提及作者自己训练或微调的模型。 数据集:作者生成的合成评估数据集,论文表示将公开,但未提供获取方式。 Demo:未提及。 复现材料:提供了极其详细的实验设置(附录A)、所有提示模板(附录A.3及图4-11)、线性探针设置和评估协议,复现指南性强。 论文中引用的开源项目:CosyVoice2 TTS(用于生成音频)、GraphViz(用于生成图像)、HuggingFace(用于模型推理)。 📌 核心摘要 问题:现有研究对多模态大语言模型(MLLMs)在推理任务中,额外模态(如图像、音频)究竟是助力还是阻碍存在矛盾结论,缺乏系统性的评估框架来隔离和分析模态交互的作用。 方法:提出了一个基于命题逻辑的六类模态交互评估框架(等价、替代、蕴含、独立、矛盾、互补),通过控制信息在模态间的分布和逻辑组合方式,系统性地测试MLLMs的推理能力。同时,通过注意力探针和两步提示等方法剖析模型内部机制。 创新:与已有工作相比,本文的创新在于:(1) 提供了统一的、可控的逻辑框架来分类和测试模态交互;(2) 明确分离并诊断出MLLMs的两个核心瓶颈:“任务组合瓶颈”(识别与推理难以在一次前向传播中联合完成)和“融合瓶颈”(早期融合导致模态偏见)。 实验结果:在四个开源MLLMs(Baichuan-Omni-1.5d, Qwen2.5-Omni, MiniCPM-o-2.6, Phi-4 Multimodal)上的实验表明:(1) 仅当额外模态提供独立、充分的推理路径时(如“替代”交互),性能才略有提升(平均+1.7% to text-only);(2) 蕴含、矛盾、互补交互均导致性能显著下降(平均分别比text-only基线下降12.8%,导致偏好不一致,且无法有效整合互补信息)。关键实验结果如表1、2、3、4所示。 实际意义:研究结论表明,当前MLLMs的核心障碍并非感知,而是信息整合。这为未来的模型设计指明了方向:需要发展“感知-组成感知”的训练目标、显式的证据选择监督以及能控制早期融合的架构。 局限性:评估任务基于简化的单步逻辑推理和合成数据,可能无法完全代表复杂的真实世界推理场景;所评估的模型参数规模均在8B以下,对更大型模型的表现未知。 主要实验结果表格: ...

2026-05-02 · 更新于 2026-05-19 · 2 min · 355 words