Iclr-2026

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频问答 #音频大模型 #强化学习 #数据集 #后训练 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Haolin He（香港中文大学、蚂蚁集团）通讯作者：Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学）作者列表：Haolin He（香港中文大学、蚂蚁集团）， Xingjian Du（罗切斯特大学）， Renhe Sun（蚂蚁集团）， Zheqi Dai（香港中文大学）， Yujia Xiao（香港中文大学）， Mingru Yang（蚂蚁集团）， Jiayi Zhou（蚂蚁集团）， Xiquan Li（上海交通大学）， Zhengxi Liu（香港中文大学）， Zining Liang（香港中文大学）， Chunyat Wu（香港中文大学）， Qianhua He（华南理工大学）， Tan Lee（香港中文大学）， Xie Chen（上海交通大学）， Wei-Long Zheng（上海交通大学）， Weiqiang Wang（蚂蚁集团）， Mark D Plumbley（伦敦国王学院）， Jian Liu（蚂蚁集团）， Qiuqiang Kong（香港中文大学） 💡 毒舌点评亮点：论文敏锐地捕捉并量化了“音频语言模型不听音频”这一核心问题，提出的“音频贡献”度量与过滤方法逻辑自洽，且基于此设计的Weak-to-Strong和Mixed-to-Strong训练范式确实有效，在多个基准上取得了扎实的SOTA结果。短板：整个框架高度依赖Qwen2.5-Omni作为基座模型验证，其结论在不同架构（如纯编码器-解码器模型）上的泛化性未可知；且“音频贡献”的定义（用静音替换音频）过于粗暴，无法区分解码器是“忽略”了音频还是“错误处理”了音频。 ...

MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications

📄 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications #生态计算 #数据增强 #多模态模型 #鲁棒性 🔥 8.5/10 | 前25% | #生态计算 | #数据增强 | #多模态模型 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Robin Zbinden（洛桑联邦理工学院，EPFL）通讯作者：Robin Zbinden（robin.zbinden@epfl.ch，洛桑联邦理工学院，EPFL）作者列表： Robin Zbinden（洛桑联邦理工学院，EPFL，*共同第一作者） Wesley Monteith-Finas（洛桑联邦理工学院，EPFL，*共同第一作者） Gencer Sumbul（洛桑联邦理工学院，EPFL） Nina van Tiel（洛桑联邦理工学院，EPFL） Chiara Vanalli（洛桑联邦理工学院，EPFL） Devis Tuia（洛桑联邦理工学院，EPFL） 💡 毒舌点评这篇论文的亮点在于它将一个看似简单的技术问题（掩码策略）进行了深入的理论形式化，并以此为基础设计出针对性的解决方案，实验部分尤其扎实，在生态数据集上挖掘出的可解释性发现（如NDVI和热浪的影响）也颇具价值。短板在于，其方法核心（动态调整Beta分布参数）依赖于无标签数据下对“模态性能”的估计（如重构损失），这在更通用的无监督场景下可能不稳定，且其有效性在模态数量较少（如仅有2种模态）的场景下可能被削弱。 🔗 开源详情代码：是。提供了完整的开源代码仓库链接：https://github.com/zbirobin/MIAM。模型权重：是。提供了在HuggingFace上发布的预训练模型权重链接：https://huggingface.co/zbirobin/MIAM。数据集：GeoPlant和TaxaBench均为公开生态数据集，论文中提供了获取方式（引用原数据集论文）。SatBird也是公开数据集。未提供论文自行创建的新数据集。 Demo：论文中未提及在线演示。复现材料：提供了极为充分的复现材料，包括：详细的模型架构和超参数设置、训练脚本、数据划分的具体代码（附录A.1）、所有消融实验和基线方法的配置、对关键超参数λ和κ的敏感性分析结果。论文中明确声明致力于可复现性。论文中引用的开源项目： AdamW优化器 (Loshchilov & Hutter, 2017) Verde库，用于空间分块交叉验证 (Roberts et al., 2017) 多模态Transformer架构 (Vaswani et al., 2017; Gorishniy et al., 2021) 训练调度方法 (Defazio et al., 2024) Token化方法 (Dosovitskiy et al., 2020; Gorishniy et al., 2022) 📌 核心摘要解决的问题：生态应用中的多模态学习面临数据在模态间和模态内缺失的普遍问题，且现有掩码训练策略无法有效应对“模态不平衡”（主导模态阻碍其他模态学习）这一挑战。方法核心：提出MIAM（模态不平衡感知掩码），一种动态掩码策略。其核心是：a) 将掩码策略形式化为单位超立方体上的概率分布；b) 设计一个混合乘积Beta分布，能探索完整的输入组合空间并优先采样超立方体的“角落”（即模态全存在或全缺失的极端情况）；c) 根据训练过程中各模态的相对性能（s_m）和学习速度（d_m，性能的绝对导数）动态调整分布参数，对“强势”模态（高性能、学习稳定）施加更高的掩码概率。创新之处：a) 首次系统性地将掩码策略形式化，并指出有效策略应具备全支持、角落优先、不平衡感知三大特性；b) 提出的混合Beta分布设计巧妙地兼顾了探索多样性与关键训练场景；c) 引入基于性能和学习动态的双重动态调整机制，比仅依赖静态性能的OPM方法更有效。主要实验结果：在GeoPlant（物种分布建模，3种模态，多Token）和TaxaBench（物种分类，5种模态，单Token）两个生态数据集上评估。在GeoPlant测试集上，MIAM平均AUC达到86.1%，比第二好的基线（OPM，83.8%）高出2.3个百分点，尤其在被主导的卫星影像单模态评估上提升显著（见表1）。在TaxaBench测试集上，MIAM平均Top-1准确率为38.7%，优于所有基线（见表2）。消融实验（图4）证实，从均匀分布->Beta超立方体->MIAM的每一步改进都有效，且动态不平衡系数（ρ_sm, ρ_dm）对弱势模态性能至关重要。实际意义：MIAM使多模态模型能更好地处理生态监测中常见的数据缺失，提升预测鲁棒性。更重要的是，它支持细粒度的贡献分析，能揭示哪些具体变量（如BIO1）、时间片段（如包含2003年热浪的年份）或图像区域（如计算NDVI的红光与近红外波段组合）对预测最关键（图5），为生态学研究提供了可解释的AI工具。主要局限性：a) 方法的有效性高度依赖准确的、无偏的模态性能估计，在无标签的自监督场景下，使用重构损失作为代理可能不理想；b) 论文评估主要集中在模态数量中等（3-5种）的生态场景，其在模态极多或极少的通用多模态任务中的泛化能力有待验证；c) 虽然进行了敏感性分析，但超参数λ和κ仍需根据具体任务调整。 🏗️ 模型架构 MIAM本身并非一个完整的预测模型，而是一种应用于多模态Transformer架构的训练期掩码策略。其核心组件是掩码概率采样器。 ...

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频分类 #预训练 #对比学习 #跨模态 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Rui Liu（香港理工大学）通讯作者：Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学）作者列表：Rui Liu（香港理工大学），Zhige Chen（香港理工大学），Shu Peng（香港理工大学），Wenlong You（香港理工大学），Zhi-An Huang（香港城市大学（东莞）），Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学） 💡 毒舌点评亮点：这篇论文最大的亮点是“用事实说话”——它不像许多基础模型论文那样只提理论创新，而是直接用一套横跨注意力解码、情感分析、音乐检索的“组合拳”实验结果，无可辩驳地证明了其提出的CALRA模块在建立深度神经-声学对齐上的巨大威力，尤其是在AAD任务上近乎100%的准确率堪称惊艳。短板：然而，论文也坦承了“配对数据稀缺”这一阿喀琉斯之踵。当前实验所用的100多小时对齐数据量，相对于其宣称的“基础模型”定位和庞大的单模态预训练数据（3500+小时）而言仍显单薄，这限制了我们对模型在更复杂、更嘈杂的真实世界声学场景下是否依然如此“全能”且“鲁棒”的判断。 📌 核心摘要这篇论文旨在解决现有EEG基础模型在听觉感知解码任务中效果有限的问题，其根源在于模型缺乏与声学刺激信息的深度耦合。作者提出了MindMix，一个专门为学习神经-声学对齐表征而设计的多模态基础模型。与以往方法相比，MindMix的创新在于：1) 采用两阶段训练，先用大规模单模态EEG数据预训练一个高容量编码器，再用配对的EEG-音频数据进行跨模态对齐；2) 引入了一个新颖的“跨注意力低秩对齐”（CALRA）模块，该模块包含类型特定对齐器、双向跨注意力机制和共享低秩融合，实现了模态间细粒度的深度交互。在听觉注意力解码（AAD）、听觉情感识别和跨模态音乐检索等多个任务上的实验表明，MindMix显著超越了现有的任务特定模型和单模态基础模型。例如，在KUL数据集上的AAD任务，MindMix达到了99.82%的平衡准确率，远超最强基线DARNet的94.81%。该工作为多模态脑解码和听觉脑机接口的研究奠定了重要基础。其主要局限性在于，当前领域内大规模配对EEG-音频语料库的稀缺，限制了对模型性能缩放定律的进一步探索。详细分析 01.模型架构 MindMix采用双流架构，通过对比学习目标在共享嵌入空间中对齐EEG和音频表征。整体流程如图1所示：输入一对EEG片段（\(S_{EEG}\)）和音频片段（\(S_{Audio}\)），分别通过各自的编码器生成初始嵌入（\(E_{proj}, A_{proj}\)），然后输入核心的CALRA模块进行深度交互和对齐，输出最终对齐嵌入（\(E_{aligned}, A_{aligned}\)），用于对比损失计算。 ...

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 ✅ 7.5/10 | 前50% | #基准测试 | #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Dingdong Wang（香港中文大学）通讯作者：未说明作者列表：Dingdong Wang（香港中文大学），Junan Li（香港中文大学），Jincenzi Wu（香港中文大学），Dongchao Yang（香港中文大学），Xueyuan Chen（香港中文大学），Tianhua Zhang（香港中文大学），Helen M. Meng（香港中文大学） 💡 毒舌点评这篇论文的核心贡献在于构建了一个任务体系非常庞大、且强调语言学理论指导的语音理解基准，其对“听觉细节”（如韵律、语音学）的侧重确实弥补了现有SLU基准只关注语义的盲区。然而，作为一篇Benchmark论文，它在提出评估标准后，并未对如何改进模型以攻克这些新挑战给出方法论层面的洞察，其价值更偏向于“诊断”而非“治疗”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。本文是基准论文，不涉及提出新模型。数据集：已公开。论文明确指出基准数据集在Hugging Face上可用：https://huggingface.co/datasets/ddwang2000/MMSU。 Demo：未提及。复现材料：附录提供了非常详细的数据构建细节，包括数据来源列表、任务定义与示例、数据分布、错误案例分析、以及GPT-4o的使用提示，这有助于理解基准构建过程。论文中引用的开源项目：引用了多个用于数据构建的开源数据集（如MELD, GigaSpeech, CommonVoice, Switchboard等）和模型（如Whisper, GPT-4o）。 📌 核心摘要要解决什么问题：现有语音大模型（SpeechLLMs）的评估基准主要关注语义内容，忽略了语音中丰富的声学特征（如韵律、重音、副语言特征）以及基于这些特征的复杂推理能力，导致对模型真实语音理解能力的评估不全面。方法核心：提出MMSU基准，包含5000个由专家精心设计和审核的“音频-问题-答案”三元组，覆盖47个细粒度任务，这些任务系统性地根植于语言学理论（包括语音学、韵律学、修辞学、句法学、语义学和副语言学）。与已有方法相比新在哪里：与现有基准相比，MMSU首次系统性地将语言学理论融入任务设计，覆盖了更广泛的声学特征（如口音、语速变化、停顿、延长音、非言语声音等），并强调了基于声学线索的推理任务（如基于韵律的推理、讽刺检测、双关语解释）。主要实验结果：对22个先进的SpeechLLMs和OmniLLMs进行了评估。结果显示，当前模型与人类表现存在显著差距：最佳人类评估者平均准确率为89.72%，而表现最好的模型（Gemini-1.5-Pro）仅为60.68%。模型普遍在语音学（如近音感知、音节感知）和部分推理任务（如讽刺检测、对联匹配）上表现不佳。噪声实验表明模型确实利用了声学信号，而非仅依赖文本统计。关键性能对比见下表。模型参数量感知平均准确率 (%) 推理平均准确率 (%) 总体平均准确率 (%) Human - 91.24 86.77 89.72 Gemini-1.5-Pro - 46.10 76.16 60.68 Qwen2.5-Omni-7B 7B 42.50 79.83 60.57 Kimi-Audio 7B 43.52 76.03 59.28 MiniCPM-o 8.6B 40.54 73.57 56.53 GPT-4o-Audio - 39.67 71.96 56.38 Random Guess - 24.90 25.02 25.37 实际意义：MMSU为全面评估语音大模型在真实、复杂语音交互中的能力提供了新的标准，其发现（如模型在声学细节感知上的普遍短板）为未来模型的训练和改进指明了具体方向。主要局限性：1) 基准规模（5000题）相对于47个任务来说，每个任务平均数据量有限；2) 所有任务均为选择题，可能无法完全模拟真实世界中开放式、生成式的语音交互场景；3) 作为评估基准，论文本身并未提出提升模型在MMSU上表现的新方法。 🏗️ 模型架构本文并非提出一个新的语音大模型架构，而是提出了一个用于评估现有语音大模型的基准框架。其架构设计体现在基准本身的结构上。 ...

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #音频大模型 #预训练 #强化学习 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #音频大模型 | #预训练 #强化学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Sreyan Ghosh (University of Maryland, College Park & NVIDIA), Arushi Goel (NVIDIA) (论文注明二者同等贡献) 通讯作者：sreyang@umd.edu, arushig@nvidia.com 作者列表：Sreyan Ghosh (University of Maryland, College Park & NVIDIA)、Arushi Goel (NVIDIA)、Lasha Koroshinadze (University of Maryland, College Park)、Sang-gil Lee (NVIDIA)、Zhifeng Kong (NVIDIA)、Joao Felipe Santos (NVIDIA)、Ramani Duraiswami (University of Maryland, College Park)、Dinesh Manocha (University of Maryland, College Park)、Wei Ping (NVIDIA)、Mohammad Shoeybi (NVIDIA)、Bryan Catanzaro (NVIDIA) 💡 毒舌点评论文的最大亮点是构建了一个覆盖多层次、多文化、带推理链的音乐理解数据集（MF-Skills & MF-Think），并通过GRPO强化学习有效提升了模型的“音乐家式”分析能力，使其输出从“列标签”升级到了“写乐评”。短板在于，尽管数据集声称覆盖多元文化，但模型在对非西方音乐（如印度拉格、非洲节奏）的深层理论分析上仍可能受限于训练数据的偏见，且对复杂乐器特定技法的识别能力有待验证。 ...

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者：未明确说明（论文中未以“Corresponding author”标注单独作者，但提供了多个联系邮箱）作者列表： Run Luo (中国科学院深圳先进技术研究院，中国科学院大学) Xiaobo Xia (新加坡国立大学，中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院，中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院，中国科学院大学) Min Yang (中国科学院深圳先进技术研究院，深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评亮点在于论文提出了一个干净利落的统一框架（DFM），避免了自回归范式在理解/生成任务间的先天矛盾，并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力（如文本生成图像）的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖，且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）通讯作者：Jin Xu（阿里巴巴通义团队），Xie Chen（上海交通大学，上海创新研究院）作者列表： Ziyang Ma（上海交通大学，南洋理工大学）* Ruiyang Xu（上海交通大学）* Zhenghao Xing（香港中文大学）* Yunfei Chu（阿里巴巴通义团队） Yuxuan Wang（阿里巴巴通义团队） Jinzheng He（阿里巴巴通义团队） Jin Xu†（阿里巴巴通义团队） Pheng-Ann Heng（香港中文大学） Kai Yu（上海交通大学） Junyang Lin（阿里巴巴通义团队） Eng Siong Chng（南洋理工大学） Xie Chen‡（上海交通大学，上海创新研究院） 💡 毒舌点评亮点：论文针对多模态细粒度感知中“描述越详细，幻觉越多”的核心矛盾，提出了一个从“侦探”式数据生成到两阶段模型训练，再到全新填空式评估基准的完整解决方案框架，逻辑闭环非常扎实。短板：虽然设计了智能体数据管线，但其质量上限仍受限于所调用的闭源模型（如Gemini 2.5 Pro）的能力，本质上是用更强的闭源模型给开源模型生成训练数据，创新中略带一丝“取巧”；新基准Omni-Cloze虽然高效，但其“填空”形式与自由生成任务仍有一定差距。 ...

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度高 👥 作者与机构第一作者：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）通讯作者：Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所，国家认知与决策智能重点实验室）作者列表：Zhuoran Jin（中国科学院大学人工智能学院，中国科学院自动化研究所）， Hongbang Yuan（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kejian Zhu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jiachun Li（中国科学院大学人工智能学院，中国科学院自动化研究所）， Pengfei Cao（中国科学院大学人工智能学院，中国科学院自动化研究所）， Yubo Chen（中国科学院大学人工智能学院，中国科学院自动化研究所）， Kang Liu（中国科学院大学人工智能学院，中国科学院自动化研究所）， Jun Zhao（中国科学院大学人工智能学院，中国科学院自动化研究所） 💡 毒舌点评这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集，填补了领域空白，为后续研究提供了标准评测场。其短板在于模型架构本身（Omni-RewardModel）是现有技术（如Bradley-Terry框架、GRPO强化学习）在更大规模多模态数据上的直接应用，缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情代码：提供了GitHub仓库链接：https://github.com/HongbangYuan/OmniReward 模型权重：提及了公开Omni-RewardModel权重，下载链接为：https://hf.co/datasets/HongbangYuan/OmniRewardBench (注：此处链接标签为Dataset，但文中暗示模型权重也可能在此或类似路径) 数据集：明确公开两个数据集：Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData)，均托管于HuggingFace。 Demo：论文中未提及在线演示。复现材料：论文在正文和附录中描述了数据收集、标注流程、模型训练细节（如骨干模型选择、训练数据比例、强化学习算法）以及评估协议，复现信息较为充分。引用的开源项目：模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集，如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要要解决什么问题：现有的奖励模型存在两个核心挑战：一是模态不平衡，主要关注文本和图像，对音频、视频、3D等模态支持不足；二是偏好刚性，基于固定的二元偏好对训练，无法捕捉复杂多样的个性化偏好。方法核心是什么：提出Omni-Reward框架，包含三个核心组件：(1) 评测基准Omni-RewardBench，首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集；(2) 训练数据集Omni-RewardData，包含248K通用偏好对和69K用于指令微调的自由格式偏好对；(3) 模型Omni-RewardModel，包括判别式（BT）和生成式（R1）两种全模态奖励模型。与已有方法相比新在哪里：(1) 首次系统性地将奖励建模扩展到全模态场景（包括音频、3D）；(2) 首次在奖励建模中引入自由形式的自然语言偏好描述，替代传统的二元选择，以支持动态、个性化的偏好对齐；(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。主要实验结果如何：在自有基准Omni-RewardBench（w/ Ties设置）上，Omni-RewardModel-BT达到65.36% 准确率，超越最强基线（Claude 3.5 Sonnet的66.54%已属顶级，但模型整体仍有提升空间）。在公开基准VL-RewardBench上，Omni-RewardModel-BT达到76.3% 准确率，取得SOTA性能。消融实验证明，使用混合多模态数据进行训练比单模态数据显著提升泛化能力；指令微调数据对于处理自由格式偏好至关重要。模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告实际意义是什么：为未来的全模态大模型（如GPT-4o, Qwen2.5-Omni）提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变，使AI系统能更灵活地适应不同用户或场景的具体需求。主要局限性是什么：(1) Omni-RewardBench的规模（3.7K对）相对较小，可能不足以全面评估超大规模模型；(2) 任务定义相对粗粒度，每种模态任务内的多样性还可进一步细分；(3) 当前数据仅限单轮交互，未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体，其整体架构如下图所示。核心是基于一个多模态大语言模型（如MiniCPM-o-2.6或Qwen2.5-VL）作为骨干网络，处理来自文本、图像、视频、音频等模态的输入。 ...

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Junyang Ji（清华大学、南方科技大学、快手科技）通讯作者：Zhihai He（南方科技大学）、Wenming Yang（清华大学）作者列表：Junyang Ji（清华大学，南方科技大学，快手科技），Shengjun Zhang（快手科技），Da Li（快手科技，中国科学院大学），Yuxiao Luo（快手科技，北京大学），Yan Wang（快手科技），Di Xu（快手科技），Biao Yang（快手科技），Wei Yuan（快手科技，项目负责人），Fan Yang（快手科技，项目负责人），Zhihai He（南方科技大学，通讯作者），Wenming Yang（清华大学，通讯作者） 💡 毒舌点评亮点：论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题，并通过一个高质量、大规模的诊断基准（OmniCVR）将其量化，这比提出一个改进模型更有价值。短板：提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型，这种“音频-文本化”的工程化方案虽然有效，但显得不够优雅，且引入了额外的延迟和潜在信息损失，算不上是最根本的端到端解决方案。 🔗 开源详情代码：论文承诺将开源完整代码库，包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示，但提到数据将发布在HuggingFace（https://huggingface.co/datasets/Jun-Yang/OmniCVR），代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。模型权重：论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。数据集：OmniCVR数据集（包括160K+片段、50K+三元组、5K测试集）将完全开源。获取方式为通过上述HuggingFace链接。 Demo：论文中未提及是否提供在线演示。复现材料：论文在附录（Appendix G）中提供了用于数据生成（如生成视频描述、修改指令）的完整提示词模板，以及详细的双重验证协议说明，这对于复现数据生成管线至关重要。然而，关于模型训练的具体细节（学习率、优化器、批次大小等）论文中未提及。论文中引用的开源项目/模型：论文明确使用了以下开源模型作为组件或基线： Qwen2.5-Omni：用于视频音频标注生成。 Gemini 2.5 Pro：用于数据验证。 Qwen2-Audio-7B-Instruct：用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL：作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect：用于视频分割。所有使用的数据集（HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR）均为公开数据集。 📌 核心摘要本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR，该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组（源视频、修改文本、目标视频）的大规模数据集，其中超过57%的查询需要同时修改视觉和音频（集成查询）。为此，作者设计了一个可扩展的自动化数据生成管线，并通过大模型与人类专家的双重验证确保数据质量。为验证基准，论文提出了AudioVLM2Vec模型，其核心创新是利用音频理解大模型（Qwen2-Audio）将音频转为细粒度描述文本，再与视觉信息一同输入VLM2Vec框架。主要实验结果表明，AudioVLM2Vec在OmniCVR基准上取得了最优性能，尤其是在音频中心查询上，相比基线VLM2Vec实现了巨大的性能提升（R@1从12.4提升到77.2）。这证明了显式注入音频语义对于跨模态检索的关键作用，并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准，推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟（约1.77倍），且该方案可能无法完美捕捉音频的所有非语义信息（如音色、节奏等）。 ...

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Caorui Li（东南大学、南京大学）通讯作者：Jiaheng Liu（南京大学）作者列表：Caorui Li（东南大学、南京大学）、Yu Chen（东南大学、南京大学）、Yiyan Ji（南京大学）、Jin Xu（阿里巴巴集团）、Zhenyu Cui（东南大学）、Shihao Li（南京大学）、Yuanxing Zhang（快手科技）、Zhenghao Song（M-A-P）、Dingling Zhang（南京大学）、Ying He（北京科技大学）、Haoxiang Liu（北京科技大学）、Yuxuan Wang（阿里巴巴集团）、Qiufeng Wang（东南大学）、Jiafu Tang（南京大学）、Zhenhe Wu（M-A-P）、Jiehui Luo（中央音乐学院）、Zhiyu Pan（南京大学）、Weihao Xie（华中科技大学）、Chenchen Zhang（M-A-P）、Zhaohui Wang（南京大学）、Jiayi Tian（阿里巴巴集团）、Yanghai Wang（南京大学）、Zhe Cao（南京大学）、Minxin Dai（南京大学）、Ke Wang（M-A-P）、Runzhe Wen（南京大学）、Yinghao Ma（伦敦玛丽女王大学）、Yaning Pan（复旦大学）、Sungkyun Chang（伦敦玛丽女王大学）、Termeh Taheri（伦敦玛丽女王大学）、Haiwen Xia（北京大学）、Christos Plachouras（伦敦玛丽女王大学）、Emmanouil Benetos（伦敦玛丽女王大学）、Yizhi Li（曼彻斯特大学）、Ge Zhang（M-A-P）、Jian Yang（M-A-P）、Tianhao Peng（M-A-P）、Zili Wang（M-A-P）、Minghao Liu（2077AI）、Junran Peng（北京科技大学）、Zhaoxiang Zhang（中国科学院）、Jiaheng Liu（南京大学） 💡 毒舌点评该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题，并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集，其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而，其核心贡献是一个评测基准（Benchmark）而非一个解决该难题的新模型，且目前数据集尚未完全公开，这限制了其即时影响力。 ...