多模态模型

PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios

📄 PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios #音视频问答 #基准测试 #多模态模型 #流式处理 #数据集 7.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.3/10 | 前50% | #音视频问答 | #多模态模型 | #基准测试 #流式处理 | arxiv 👥 作者与机构第一作者：Xudong Lu（香港中文大学 MMLab）通讯作者：Rui Liu（华为研究，liu.rui2@huawei.com）、Hongsheng Li（香港中文大学 MMLab，hsli@ee.cuhk.edu.hk）作者列表：Xudong Lu（香港中文大学 MMLab）、Huankang Guan（华为研究）、Yang Bo（华为研究）、Jinpeng Chen（华为研究）、Xintong Guo（华为研究）、Shuhan Li（华为研究）、Fang Liu（香港城市大学）、Peiwen Sun（香港中文大学 MMLab）、Xueying Li（上海交通大学）、Wei Zhang（上海交通大学）、Xue Yang（上海交通大学）、Rui Liu（华为研究）、Hongsheng Li（香港中文大学 MMLab） 💡 毒舌点评这篇论文发现了一个真实且普遍的“模型太猴急”问题，用精心设计的流式基准把主流 MLLM 都打回了原形，Forward 任务的惨淡分数极具说服力。但作为 benchmark 论文，它过度依赖 Gemini 3 Pro 做数据生成和 Qwen3-235B 做评估，一旦这两个闭源/强模型更新，基准的稳定性和公平性就很微妙；而且在多模态流式领域，作者把“音频”当成了加分项来宣传，结果消融实验却显示开音频反而让 Forward 性能更差，这个自曝其短的结论让人既敬佩又哭笑不得。 ...

PRIM：Cooperative Dynamic Token Compression for Efficient Large Multimodal Models

📄 PRIM：Cooperative Dynamic Token Compression for Efficient Large Multimodal Models #多模态模型 #音视频理解 3.6/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0/1.5 📝 3.6/10 | 后50% | #音视频理解 | #多模态模型 | arxiv 👥 作者与机构第一作者：Song Li（北京邮电大学网络与交换技术国家重点实验室）通讯作者：Yongping Xiong（北京邮电大学网络与交换技术国家重点实验室）其他作者：无。论文仅列出两位作者。 💡 毒舌点评本文基于对多模态大模型中注意力的观察，构建了一套无训练的推理阶段令牌压缩流水线。这种“观察-设计-验证”的套路本身并无新意，且每个模块（早期融合、注意力剪枝、频域压缩）均是现有技术的直接借用或微调。更致命的是，论文声称“高效推理”，却完全没有提供任何代码、模型权重或复现配置，这使得所有所谓的效率提升、记忆开销减少和延迟降低都成了无法核实的“纸上谈兵”。在开源已成为顶级会议标配的今天，这种做法严重削弱了论文的可信度和影响力，对于注重实践和复现的语音/音频社区而言，这更是一篇参考价值几乎为零的工作。 📌 核心摘要这篇论文旨在解决大型多模态模型（LMMs）在推理长音视频内容时，因输入令牌数量巨大而导致的计算和内存开销过高的问题。文章通过对LLM内部注意力分布的分析，做出了两个核心观察：（1）跨模态交互主要集中在LLM的浅层，深层则趋于稀疏和抽象；（2）在所有层中，音频令牌获得的注意力权重始终高于视频令牌，表明音频包含更密集的语义信息，而视频则存在大量冗余。基于这些观察，作者提出了PRIM，一个无需额外训练、即插即用的推理阶段协同压缩框架。该框架包含四个主要模块：多模态交叉融合（MCF）将文本-音视频的早期交互外移至LLM之前；注意力引导的选择（AGS）利用音频显著性动态控制各时间窗口的视频令牌压缩比率；频率感知压缩（FAC）利用2D-DCT保留低频能量分量以压缩视频令牌；任务自适应剪枝（TAA）则根据指令复杂度在LLM内部动态分配令牌预算。实验在Qwen2.5-Omni、LLaVA-OneVision、LLaVA-Video等模型和多个音视频基准（如MVBench、VideoMME、AVUT）上展开，结果表明PRIM在显著降低FLOPs（低至28%）和推理延迟的同时，能保持与全量模型接近甚至更优的准确率。其声称的实际意义在于为多模态模型的部署提供了一种低成本方案。核心实验数据（基于Qwen2.5-Omni-7B）如下所示：方法保留率 FLOPs比 MVBench MLVU LongVideoBench VideoMME Overall 平均分 Qwen2.5-Omni-7B (全量) 100% 100% 59.0 58.5 67.3 60.7 61.4 PRIM (Ours) 65% 54% 58.8 58.3 67.1 60.3 61.1 PRIM (Ours) 50% 41% 57.6 58.4 65.9 59.6 60.4 PRIM (Ours) 35% 28% 54.3 53.2 62.9 56.2 56.7 主要局限包括：方法强依赖于固定时间窗口划分，无法直接处理流式输入；所有评估均基于离线长视频理解基准，缺乏对纯音频任务（如ASR、音频事件检测）的验证，在多任务/多场景下如何自动、泛化地分配压缩比率仍未解决；完全没有提供开源代码或模型，复现和实际应用价值存疑。 ...

Probing Cross-modal Information Hubs in Audio-Visual LLMs

📄 Probing Cross-modal Information Hubs in Audio-Visual LLMs #音视频理解 #可解释性 #多模态模型 7.2/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音视频理解 | #多模态模型 | #可解释性 | arxiv 👥 作者与机构第一作者：Jihoo Jung（KAIST 电气工程系）通讯作者：Joon Son Chung（KAIST 电气工程系）作者列表：Jihoo Jung（KAIST 电气工程系）、Chaeyoung Jung（KAIST 电气工程系）、Ji-Hoon Kim（中央大学先进影像科学研究生院）、Joon Son Chung（KAIST 电气工程系） 💡 毒舌点评论文提出了一个有趣的反直觉发现：在音视频大模型中，承载跨模态融合信息的并非承载物体语义的"对象token"，而是一类被视为信息盲区的"attention sink token"。这个发现本身对多模态LLM的机制理解有一定价值。但是，作者基于此洞察提出的ASD方法虽然训练免费，却带来了高达3.7倍的推理延迟，这对于一个"即插即用"的工程方案而言，实用价值大打折扣。更致命的是，所有实验仅局限于captioning任务，对更广泛的QA、推理等场景的适用性存疑。此外，AVLLM的可解释性领域整体体量尚小，该工作的实际影响力还有待时间检验。总体来看，洞察有趣但应用路径尚有距离，是一篇典型的"机制分析强但下游应用弱"的论文。 ...

SAM Audio: Segment Anything in Audio

📄 SAM Audio: Segment Anything in Audio #音频分离 #流匹配 #多模态模型 #基准测试 #音视频 9.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 1.4/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.2/10 | 前10% | #音频分离 | #流匹配 | #多模态模型 #基准测试 | arxiv 👥 作者与机构第一作者：Bowen Shi（Meta SuperIntelligence Labs）通讯作者：Bowen Shi（Meta SuperIntelligence Labs）、Andros Tjandra（Meta SuperIntelligence Labs）作者列表：Bowen Shi、Andros Tjandra、John Hoffman、Helin Wang、Yi-Chiao Wu、Luya Gao、Julius Richter、Matthew Le、Apoorv Vyas、Sanyuan Chen、Christoph Feichtenhofer、Piotr Dollár、Wei-Ning Hsu、Ann Lee（均来自 Meta SuperIntelligence Labs） 💡 毒舌点评 SAM AUDIO以统一架构首次整合文本、视觉和时间跨度提示，在通用音频分离任务上取得了令人瞩目的SOTA，其精心设计的伪标签数据流水线和大规模评测体系颇具工程借鉴价值。然而，视觉提示的实际表现远逊于文本提示，且整个系统严重依赖大规模预训练和高性能硬件，在实时性或低资源场景下的适用性仍存疑。 ...

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

📄 Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis #音视频生成 #流匹配 #自监督学习 #多模态模型 #扩散模型 7.2/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | #音视频生成 | #流匹配 | #自监督学习 #多模态模型 | arxiv 👥 作者与机构第一作者：Hila Chefer (Black Forest Labs) 与 Patrick Esser (Black Forest Labs)（并列第一作者）通讯作者：Hila Chefer hila@blackforestlabs.ai, Patrick Esser patrick@blackforestlabs.ai 作者列表：Hila Chefer（Black Forest Labs），Patrick Esser（Black Forest Labs），Dominik Lorenz（Black Forest Labs），Dustin Podell（Black Forest Labs），Vikash Raja（Black Forest Labs），Vinh Tong（Black Forest Labs），Antonio Torralba（MIT, Black Forest Labs），Robin Rombach（Black Forest Labs） 💡 毒舌点评这篇工作用一个巧妙的双时间步噪声调度在流匹配中灌入了自监督表征学习，彻底摆脱了对冻住外部编码器的依赖，多模态齐头并进的效果让人眼前一亮。然而，音频实验更像顺带的点缀，真正的音频领域读者难以从中获得实质推动力，且没有任何开源承诺，工业界光鲜的“self-flow”目前还止于纸上。 ...

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering #音频修复 #流匹配 #多模态模型 #指令微调 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #音频修复 | #流匹配 | #多模态模型 #指令微调 | arxiv 👥 作者与机构第一作者：Jan Melechovsky （Singapore University of Technology and Design）通讯作者：Jan Melechovsky （Singapore University of Technology and Design）作者列表：Jan Melechovsky（Singapore University of Technology and Design）、Ambuj Mehrish（Ca’ Foscari University of Venice）、Abhinaba Roy（Singapore University of Technology and Design）、Dorien Herremans（Singapore University of Technology and Design） 💡 毒舌点评 SonicMaster在"All-in-One"音乐修复上的尝试是勇敢且及时的，用一套流匹配框架统一了19种退化类型的处理，避免了以往的级联错误。但数据生成高度依赖模拟退化，而真实世界录音的退化远比参数化函数复杂和混沌得多，模型对真实复杂混合退化的泛化能力仍是未知数。VAE潜在空间的引入确实提升了效率，但也带来了可闻的编解码伪影——论文自己都承认会出现“机器人嗓音”和清晰度损失，这在一个标榜“专业级”的母带处理场景下显得不够“clean”。与效应移除模型的对比更像是一场不公平的“表演赛”，高得惊人的SI-SDR背后，很可能只是模型学会了把音频“母带化”得更响、更亮，而非真正忠实地修复了信号。 ...

Stable Spectral Copula Alignment for Robust Multimodal Learning

📄 Stable Spectral Copula Alignment for Robust Multimodal Learning #鲁棒性 #多模态模型 5.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.4/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.1/1.5 📝 5.2/10 | 后50% | #鲁棒性 | #多模态模型 | arxiv 👥 作者与机构第一作者：Hongkang Zhang（Tsinghua Shenzhen International Graduate School, Tsinghua University）通讯作者：Shao-Lun Huang（Tsinghua Shenzhen International Graduate School, Tsinghua University）作者列表：Hongkang Zhang, Shao-Lun Huang, Yanlong Wang, Ercan Engin KURUOGLU（均为Tsinghua Shenzhen International Graduate School） 💡 毒舌点评这篇论文试图构建一个“可审计”的多模态对齐协议，利用Copula理论与光谱扰动理论提供一种部署阶段抵御分布偏移的稳定契约精神。将错误的溯源与可执行的门控决策结合起来，想法在MLOps导向的多模态学习里算是有新意。然而，作品的写作风格沉重拖沓，导论部分沉迷于宏观宣誓而技术细节被稀释殆尽；更致命的是，全文完全没有提供任何形式的代码或数据链接，在这个号称“可审计”的协议里，自身的可复现性却是零。实验虽覆盖了不少漂移场景，但主要聚焦于情感分析和图像-文本检索，在音频处理的核心高地（如语音识别/分离）上毫无建树，这让它在多模态社区内难以跨越“小圈子自嗨”的界限。 ...

STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits

📄 STARCaster: Spatio-Temporal AutoRegressive Video Diffusion for Identity- and View-Aware Talking Portraits #音视频生成 #语音合成 #扩散模型 #自回归模型 #多模态模型 6.8/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.8/10 | 前50% | #音视频生成 | #扩散模型 | #语音合成 #自回归模型 | arxiv 👥 作者与机构第一作者：Foivos Paraperas Papantoniou（Imperial College London, UK）通讯作者：Foivos Paraperas Papantoniou（Imperial College London, UK）作者列表：Foivos Paraperas Papantoniou（Imperial College London, UK）、Stathis Galanakis（Imperial College London, UK）、Rolandos Alexandros Potamias（Imperial College London, UK）、Bernhard Kainz（Imperial College London, UK; FAU Erlangen–Nürnberg, Germany）、Stefanos Zafeiriou（Imperial College London, UK） 💡 毒舌点评这篇论文把一个音频驱动说话人脸生成和一个新视角合成任务塞进了同一个框架，工程整合能力值得肯定，自强迫训练策略和纯ID驱动生成确实让动画没那么“僵尸”了。但本质上，它就是拿Arc2Face当骨架，套上AnimateDiff的时间层，加个ReferenceNet，再用自强迫和唇读损失微调一下——每个组件都是现成的，论文没在理论或架构上给出让人眼前一亮的新洞见。最致命的还是不提供代码和模型，在如今“没有开源就别想拿高分”的顶会气氛下，这种做法无异于自断一臂，尤其是实验结果里那些微小的LSE-C领先，没给置信区间，完全是给人留质疑的把柄。 ...

T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

📄 T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation #基准测试 #多模态模型 #音视频生成 7.9/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0.7/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.9/10 | 前25% | #音视频生成 | #多模态模型 | #基准测试 | arxiv 👥 作者与机构第一作者：Zhe Cao, Tao Wang, Jiaming Wang, Yanghai Wang（并列一作，均标注为南京大学）通讯作者：Jiaheng Liu（南京大学）其他作者：Yuanxing Zhang（快手科技 Kling Team）、Jiahao Wang（南京大学）、Jialu Chen（快手科技 Kling Team）、Miao Deng（南京大学）、Chenxi Liao（南京大学）、Yize Zhang（南京大学）、Yubin Guo（南京大学）、Zhaoxiang Zhang（中国科学院自动化研究所） 💡 毒舌点评这篇论文在 T2AV 评估领域迈出了扎实的一步：500条高复杂度prompt配合同一框架下的双层级评估，确实暴露了SOTA模型在“音频真实感”和“长时叙述”上的系统性瓶颈，诊断价值明确。但MLLM-as-a-Judge的可靠性验证仅覆盖50个样本且音频Realism一致性较弱（L1高达1.420），若不能规模化解决judge bias，这套框架的权威性就只能停留在“参考级”而非“标准级”。 ...

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

📄 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions #音视频理解 #音频字幕生成 #多模态模型 #数据集 #基准测试 #强化学习 9.4/10 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 0.8/1 | 影响 0.9/1.5 | 开源 1.5/1.5 | 复现 0.4/0.5 | 工程 1.4/1.5 🔥 9.4/10 | 前10% | #音视频理解 | #多模态模型 | #音频字幕生成 #数据集 | arxiv 👥 作者与机构第一作者：Linli Yao（北京大学计算机学院，快手科技Kling团队）通讯作者：Xu Sun（北京大学计算机学院）作者列表：Linli Yao（北京大学，快手科技Kling团队）、Yuancheng Wei（华南理工大学）、Yaojie Zhang（电子科技大学）、Lei Li（香港大学）、Xinlong Chen（中国科学院自动化研究所，快手科技Kling团队）、Feifan Song（北京大学）、Ziyue Wang（北京大学）、Kun Ouyang（北京大学）、Yuanxin Liu（北京大学）、Lingpeng Kong（香港大学）、Qi Liu（香港大学）、Pengfei Wan（快手科技Kling团队）、Kun Gai（快手科技Kling团队）、Yuanxing Zhang（快手科技Kling团队）、Xu Sun（北京大学） 💡 毒舌点评该工作在音视频密集字幕生成领域投下了一枚“定义即创新”的炸弹。其提出的OmniDenseCaptioning任务和SodaM评估指标，直击当前音视频理解缺乏时间粒度和结构化描述的痛点，堪称一次教科书式的任务重塑。7B开源模型在精细定义的子任务上干翻Gemini-2.5-Pro，工程整合能力令人叹服，为社区贡献了完整的开原语料。然而，剥开任务定义与指标的糖衣，模型本身是Qwen2.5-Omni与GRPO的精心调配，缺乏算法层面的范式突破。更令人警惕的是，其引以为傲的SodaM指标和训练数据完全由Gemini系列模型闭环驱动，这种“以子之矛攻子之盾”的策略虽精彩，但也埋下了系统性偏见的隐患，评估的可信度也因此被蒙上一层阴影。 ...