音频视觉理解

📄 LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning #音频视觉理解 🔥 9.0/10 | 前10% | #跨模态 | #跨模态 | #音频视觉理解 | arxiv 学术质量 7.0/7 | 影响力 2.0/2 | 可复现性 0/2 👥 作者与机构一作：Yifan Dai (上海交通大学，快手) 通讯作者（推断）：Wentao Zhang (北京大学)，Fangcheng Fu (上海交通大学) 核心机构：快手 (Kling Team)、北京大学、上海交通大学其他合作机构：香港科技大学、中科院自动化所、南京大学、中国人民大学、清华大学 💡 毒舌点评创新性有限：本文核心思想“在连续潜在空间中进行多模态推理”并非原创，Coconut、Monet等已有工作。其主要贡献是将此思想适配到音视频联合推理场景并加入了数据合成流程，更像是一项扎实的系统性工程，而非原理性突破。技术“黑箱”问题严重：论文对“潜在推理状态”的具体语义解释几乎为零。这些连续状态到底编码了什么？是高层次的语义摘要，还是某种特征混合？论文选择回避这一关键问题，只通过注意力可视化来间接佐证，这使得方法的“可解释性”大打折扣。可复现性堪忧：论文声称代码和模型权重“未提及”，这在一个强调“合成数据流程”的工作里是重大缺陷。读者无法验证其复杂的多阶段数据合成管道是否真能产出高质量数据，也让“潜在空间推理有效”的结论打折扣。基线比较策略存疑：将Monet和LVR的“视觉单模态”结果与本文的“音视频全模态”结果直接对比（Table 3）有失公允。本文在单模态评估协议下的“SOTA”说服力不足。同时，缺乏与更强大的开源闭源模型（如GPT-4o、Gemini Pro系列）在相同协议下的直接对比。训练细节不透明：虽然附录B列出了部分超参数，但关键细节如“如何为每个样本分配固定的40个潜在token及其音视频比例”未加说明。这种固定预算在处理动态时长的视频时是否合理？存在疑问。 📌 核心摘要本文针对多模态大语言模型（MLLM）在音视频联合推理中因文本化思维链（CoT）导致信息损失和语言先验偏倚的问题，提出了LatentOmni框架。该框架将文本推理与音频、视觉的潜在状态交错在统一的连续潜在空间中进行。核心设计包括：1）特征级潜在监督（\(\mathcal{L}_{\text{latent}}\)），将生成的潜在状态与原始感官特征对齐；2）Omni-Sync位置编码（OSPE），用于维持潜在音频和视觉状态间的时序一致性。为训练该模型，作者构建了一个三阶段的数据合成流程，生成了LatentOmni-Instruct-35K数据集。在四个音视频推理基准测试中，LatentOmni优于其基线模型（Qwen2.5-Omni-7B）及显式文本CoT基线，并在所评估的开源模型中取得最佳性能，验证了潜在空间联合推理的有效性。 🔗 开源详情代码：论文未提及提供代码。模型权重：论文未提及提供预训练或微调后的模型权重。数据集：论文提及构建了 LatentOmni-Instruct-35K，但未提供任何公开下载链接或托管地址。论文中用于数据合成的原始数据集 ASID 和 AVoCaDO 同样未提供链接。 Demo：论文未提及。复现材料：论文在附录B中提供了部分训练超参数配置。然而，完整的数据合成流程（各阶段使用的具体提示词虽在附录A，但模型访问受限）、训练代码、模型检查点均未开源，导致无法完整复现。论文中引用的开源项目：论文中提到了Qwen2.5-Omni（基座模型）、VideoLLaMA2-7B、MiniCPM-o-7B等模型，但均未提供这些项目的具体开源链接。引用的数据集（如ASID, AVoCaDO）同样未提供链接。 🏗️ 方法概述和架构 LatentOmni是一个用于音视频联合推理的后训练框架，其核心思想是将连续的推理过程保留在统一的潜在空间中，以避免文本化CoT导致的信息瓶颈。该框架主要包含以下几个关键组件和流程： ...