When Vision Speaks for Sound
📄 When Vision Speaks for Sound #音视频 #偏好优化 #多模态模型 #鲁棒性 #诊断框架 ✅ 7.7/10 | 前25% | #音视频 | #偏好优化 | #多模态模型 #鲁棒性 | arxiv 学术质量 6/8 | 影响力 0.9/1 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Xiaofei Wen(University of California, Davis) 通讯作者:论文未明确标注通讯作者。 作者列表:Xiaofei Wen(University of California, Davis)、Wenjie Jacky Mo(University of California, Davis)、Xingyu Fu(Princeton University)、Rui Cai(University of California, Davis)、Tinghui Zhu(University of California, Davis)、Wendi Li(University of Wisconsin–Madison)、Yanan Xie(Uniphore)、Muhao Chen(University of California, Davis)、Peng Qi(Uniphore)。注:Xiaofei Wen与Wenjie Jacky Mo标注为共同第一作者(d)。 💡 毒舌点评 这篇论文敏锐地抓住了当前视频多模态模型“重看轻听”的要害,用一个精巧的Thud诊断框架把“聪明汉斯效应”量化得明明白白。提出的两阶段对齐配方(SFT+DPO+混合数据)在解决特定问题上取得了显著的数值提升,尤其是时间同步任务。然而,论文的核心结论“28%平均提升”主要建立在自建的Thud诊断集上,其泛化性存疑。更关键的是,对Mute和Swap两种干预的对齐训练探索极为初步,远未达到时间同步任务的深度,这使得论文关于“干预训练可扩展”的论断显得根基不稳。实验主要基于单一基座模型(Qwen3-Omni-30B),在更广泛模型上的有效性未经验证,限制了工作的普适性。 ...