跨模态推理

📄 Separate First, Fuse Later: Mitigating Cross-Modal Interference in Audio-Visual LLMs Reasoning with Modality-Specific Chain-of-Thought #音视频问答 #多模态模型 #跨模态推理 #幻觉缓解 #强化学习 #链式思维 ✅ 6.0/10 | 前50% | #音视频问答 | #结构化推理 | #多模态模型 #跨模态推理 | arxiv 学术质量 6.0/8 | 影响力 0.4/2 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Xuanchen (未说明) 通讯作者：未说明作者列表：Xuanchen Li (未说明), Yuheng Lu (未说明), Chenrui Cui (未说明), Tianrui Wang (未说明), Zikang Huang (未说明), Yu Jiang (未说明), Long Zhou (未说明), Longbiao Wang (未说明), Jianwu Dang (未说明) 💡 毒舌点评论文针对音视频LLM中的跨模态干扰和幻觉问题，提出了一个结构清晰、动机合理的“先分离后融合”框架。其核心贡献在于将“模态分离推理”的文本结构与“模态非对称注意力掩码”的底层计算约束相结合，并用两阶段强化学习进行训练。然而，其创新性更多体现在对已有技术（结构化CoT、自定义注意力掩码、RL奖励工程）的针对性组合与应用，而非提出根本性的新机制。此外，论文声称的“state-of-the-art”性能建立在与并非当前最强基线的对比之上，且实验缺乏统计显著性检验，这在一定程度上削弱了结论的强度。 ...