Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought

📄 Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought #音视频问答 #多模态模型 #跨模态推理 #幻觉缓解 #强化学习 #链式思维 ✅ 6.0/10 | 前50% | #音视频问答 | #结构化推理 | #多模态模型 #跨模态推理 | arxiv 学术质量 6.0/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度 高 👥 作者与机构 第一作者:Xuanchen (未说明) 通讯作者:未说明 作者列表:Xuanchen Li (未说明), Yuheng Lu (未说明), Chenrui Cui (未说明), Tianrui Wang (未说明), Zikang Huang (未说明), Yu Jiang (未说明), Long Zhou (未说明), Longbiao Wang (未说明), Jianwu Dang (未说明) 💡 毒舌点评 论文针对音视频LLM中的跨模态干扰和幻觉问题,提出了一个结构清晰、动机合理的“先分离后融合”框架。其核心贡献在于将“模态分离推理”的文本结构与“模态非对称注意力掩码”的底层计算约束相结合,并用两阶段强化学习进行训练。然而,其创新性更多体现在对已有技术(结构化CoT、自定义注意力掩码、RL奖励工程)的针对性组合与应用,而非提出根本性的新机制。此外,论文声称的“state-of-the-art”性能建立在与并非当前最强基线的对比之上,且实验缺乏统计显著性检验,这在一定程度上削弱了结论的强度。 ...

2026-05-12 · 更新于 2026-05-19 · 4 min · 660 words