MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications

📄 MIAM: Modality Imbalance-Aware Masking for Multimodal Ecological Applications #生态计算 #数据增强 #多模态模型 #鲁棒性 🔥 8.5/10 | 前25% | #生态计算 | #数据增强 | #多模态模型 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Robin Zbinden(洛桑联邦理工学院,EPFL) 通讯作者:Robin Zbinden(robin.zbinden@epfl.ch,洛桑联邦理工学院,EPFL) 作者列表: Robin Zbinden(洛桑联邦理工学院,EPFL,*共同第一作者) Wesley Monteith-Finas(洛桑联邦理工学院,EPFL,*共同第一作者) Gencer Sumbul(洛桑联邦理工学院,EPFL) Nina van Tiel(洛桑联邦理工学院,EPFL) Chiara Vanalli(洛桑联邦理工学院,EPFL) Devis Tuia(洛桑联邦理工学院,EPFL) 💡 毒舌点评 这篇论文的亮点在于它将一个看似简单的技术问题(掩码策略)进行了深入的理论形式化,并以此为基础设计出针对性的解决方案,实验部分尤其扎实,在生态数据集上挖掘出的可解释性发现(如NDVI和热浪的影响)也颇具价值。短板在于,其方法核心(动态调整Beta分布参数)依赖于无标签数据下对“模态性能”的估计(如重构损失),这在更通用的无监督场景下可能不稳定,且其有效性在模态数量较少(如仅有2种模态)的场景下可能被削弱。 🔗 开源详情 代码:是。提供了完整的开源代码仓库链接:https://github.com/zbirobin/MIAM。 模型权重:是。提供了在HuggingFace上发布的预训练模型权重链接:https://huggingface.co/zbirobin/MIAM。 数据集:GeoPlant和TaxaBench均为公开生态数据集,论文中提供了获取方式(引用原数据集论文)。SatBird也是公开数据集。未提供论文自行创建的新数据集。 Demo:论文中未提及在线演示。 复现材料:提供了极为充分的复现材料,包括:详细的模型架构和超参数设置、训练脚本、数据划分的具体代码(附录A.1)、所有消融实验和基线方法的配置、对关键超参数λ和κ的敏感性分析结果。论文中明确声明致力于可复现性。 论文中引用的开源项目: AdamW优化器 (Loshchilov & Hutter, 2017) Verde库,用于空间分块交叉验证 (Roberts et al., 2017) 多模态Transformer架构 (Vaswani et al., 2017; Gorishniy et al., 2021) 训练调度方法 (Defazio et al., 2024) Token化方法 (Dosovitskiy et al., 2020; Gorishniy et al., 2022) 📌 核心摘要 解决的问题:生态应用中的多模态学习面临数据在模态间和模态内缺失的普遍问题,且现有掩码训练策略无法有效应对“模态不平衡”(主导模态阻碍其他模态学习)这一挑战。 方法核心:提出MIAM(模态不平衡感知掩码),一种动态掩码策略。其核心是:a) 将掩码策略形式化为单位超立方体上的概率分布;b) 设计一个混合乘积Beta分布,能探索完整的输入组合空间并优先采样超立方体的“角落”(即模态全存在或全缺失的极端情况);c) 根据训练过程中各模态的相对性能(s_m)和学习速度(d_m,性能的绝对导数)动态调整分布参数,对“强势”模态(高性能、学习稳定)施加更高的掩码概率。 创新之处:a) 首次系统性地将掩码策略形式化,并指出有效策略应具备全支持、角落优先、不平衡感知三大特性;b) 提出的混合Beta分布设计巧妙地兼顾了探索多样性与关键训练场景;c) 引入基于性能和学习动态的双重动态调整机制,比仅依赖静态性能的OPM方法更有效。 主要实验结果:在GeoPlant(物种分布建模,3种模态,多Token)和TaxaBench(物种分类,5种模态,单Token)两个生态数据集上评估。在GeoPlant测试集上,MIAM平均AUC达到86.1%,比第二好的基线(OPM,83.8%)高出2.3个百分点,尤其在被主导的卫星影像单模态评估上提升显著(见表1)。在TaxaBench测试集上,MIAM平均Top-1准确率为38.7%,优于所有基线(见表2)。消融实验(图4)证实,从均匀分布->Beta超立方体->MIAM的每一步改进都有效,且动态不平衡系数(ρ_sm, ρ_dm)对弱势模态性能至关重要。 实际意义:MIAM使多模态模型能更好地处理生态监测中常见的数据缺失,提升预测鲁棒性。更重要的是,它支持细粒度的贡献分析,能揭示哪些具体变量(如BIO1)、时间片段(如包含2003年热浪的年份)或图像区域(如计算NDVI的红光与近红外波段组合)对预测最关键(图5),为生态学研究提供了可解释的AI工具。 主要局限性:a) 方法的有效性高度依赖准确的、无偏的模态性能估计,在无标签的自监督场景下,使用重构损失作为代理可能不理想;b) 论文评估主要集中在模态数量中等(3-5种)的生态场景,其在模态极多或极少的通用多模态任务中的泛化能力有待验证;c) 虽然进行了敏感性分析,但超参数λ和κ仍需根据具体任务调整。 🏗️ 模型架构 MIAM本身并非一个完整的预测模型,而是一种应用于多模态Transformer架构的训练期掩码策略。其核心组件是掩码概率采样器。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 421 words

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频分类 #预训练 #对比学习 #跨模态 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Rui Liu(香港理工大学) 通讯作者:Jibin Wu(香港理工大学),Kay Chen Tan(香港理工大学) 作者列表:Rui Liu(香港理工大学),Zhige Chen(香港理工大学),Shu Peng(香港理工大学),Wenlong You(香港理工大学),Zhi-An Huang(香港城市大学(东莞)),Jibin Wu(香港理工大学),Kay Chen Tan(香港理工大学) 💡 毒舌点评 亮点:这篇论文最大的亮点是“用事实说话”——它不像许多基础模型论文那样只提理论创新,而是直接用一套横跨注意力解码、情感分析、音乐检索的“组合拳”实验结果,无可辩驳地证明了其提出的CALRA模块在建立深度神经-声学对齐上的巨大威力,尤其是在AAD任务上近乎100%的准确率堪称惊艳。 短板:然而,论文也坦承了“配对数据稀缺”这一阿喀琉斯之踵。当前实验所用的100多小时对齐数据量,相对于其宣称的“基础模型”定位和庞大的单模态预训练数据(3500+小时)而言仍显单薄,这限制了我们对模型在更复杂、更嘈杂的真实世界声学场景下是否依然如此“全能”且“鲁棒”的判断。 📌 核心摘要 这篇论文旨在解决现有EEG基础模型在听觉感知解码任务中效果有限的问题,其根源在于模型缺乏与声学刺激信息的深度耦合。作者提出了MindMix,一个专门为学习神经-声学对齐表征而设计的多模态基础模型。与以往方法相比,MindMix的创新在于:1) 采用两阶段训练,先用大规模单模态EEG数据预训练一个高容量编码器,再用配对的EEG-音频数据进行跨模态对齐;2) 引入了一个新颖的“跨注意力低秩对齐”(CALRA)模块,该模块包含类型特定对齐器、双向跨注意力机制和共享低秩融合,实现了模态间细粒度的深度交互。在听觉注意力解码(AAD)、听觉情感识别和跨模态音乐检索等多个任务上的实验表明,MindMix显著超越了现有的任务特定模型和单模态基础模型。例如,在KUL数据集上的AAD任务,MindMix达到了99.82%的平衡准确率,远超最强基线DARNet的94.81%。该工作为多模态脑解码和听觉脑机接口的研究奠定了重要基础。其主要局限性在于,当前领域内大规模配对EEG-音频语料库的稀缺,限制了对模型性能缩放定律的进一步探索。 详细分析 01.模型架构 MindMix采用双流架构,通过对比学习目标在共享嵌入空间中对齐EEG和音频表征。整体流程如图1所示:输入一对EEG片段(\(S_{EEG}\))和音频片段(\(S_{Audio}\)),分别通过各自的编码器生成初始嵌入(\(E_{proj}, A_{proj}\)),然后输入核心的CALRA模块进行深度交互和对齐,输出最终对齐嵌入(\(E_{aligned}, A_{aligned}\)),用于对比损失计算。 ...

2026-05-04 · 更新于 2026-06-19 · 3 min · 444 words

MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video

📄 MMAudio-LABEL: Audio Event Labeling via Audio Generation for Silent Video #音频生成 #流匹配 #音频事件检测 #多任务学习 #多模态模型 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #音频事件检测 #多任务学习 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Kazuya Tateishi(索尼集团,日本) 通讯作者:未说明 作者列表:Kazuya Tateishi(索尼集团,日本)、Akira Takahashi(索尼集团,日本)、Atsuo Hiroe(索尼集团,日本)、Hirofumi Takeda(索尼集团,日本)、Shusuke Takahashi(索尼集团,日本)、Yuki Mitsufuji(索尼集团,日本 & 索尼AI,美国) 💡 毒舌点评 这篇论文的亮点在于它巧妙地利用视频到音频生成任务作为“桥梁”,将音频事件检测任务“融入”生成过程本身,通过联合建模显著提升了事件预测的准确性和生成音频的质量,这是一个思路清晰且实用的改进。但其短板也很明显:所有实验仅在一个高度受控、类别单一的“敲击”数据集(Greatest Hits)上进行,结论对于更复杂、声学环境多样的真实世界场景(如电影、自然录音)的泛化能力未经检验,显得说服力不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及预训练或微调后模型权重的下载链接。 数据集:论文中未提及具体的数据集下载链接或开源协议,仅说明使用了Greatest Hits dataset。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及训练配置文件、检查点文件或代码附录等具体复现材料的下载链接。但文中提供了详细的实现细节(3.2节),包括硬件环境、优化器、学习率策略、训练步数等超参数信息。 论文中引用的开源项目: MMAudio:论文中作为基础模型引用,但未提供其开源仓库链接。 MMAudioSep:论文中作为下游任务应用引用,但未提供链接。 VGGish:论文中作为基线模型引用,但未提供链接。 论文中引用的其他方法(如CondFoley等)也均未提供具体开源链接。 补充信息 [细节详述] 补充:论文明确指出,对于材质分类任务中官方测试集未涵盖的材料类别,评估时使用了验证集中的样本(“For materials not present in the test split, we used samples from the validation split.”)。这一做法可能影响评估结果的严格性与公平性,值得在复现和理解其性能数据时加以注意。 [实验结果] 补充:在材质分类任务的讨论中,论文具体指出了即使经过微调,模型在识别地毯、石膏板和玻璃等形状特征不明显的材质时仍面临挑战(“recognizing materials with less distinctive shapes, such as carpet, drywall, and glass remains a challenge”)。这指出了当前方法在细粒度视觉-声音关联建模上的局限性。 [实验结果] 补充:为确保测试时输入时长(2秒)与训练时(8秒)匹配,论文采用了循环拼接(loop and concatenate)策略(“we looped and concatenated each clip to 8 s before running inference. We used the predictions corresponding to the first 2 s for evaluation.”)。这是一种常见的处理方式,但可能引入不自然的重复内容,论文未讨论其对生成音频质量或事件检测的潜在影响。 [细节详述] 补充:论文在讨论联合头架构时指出,为将事件逻辑值(logits)与音频潜变量拼接,需要扩展潜变量维度。具体地,起始点检测任务为21维(20维音频+1维事件),材质分类任务为37维(20维音频+17维事件),并在流预测头输出后进行拆分(“we augmented the audio latent dimensionality with the number of event classes… and split them into audio and event components after the flow head.”)。 📌 核心摘要 这篇论文针对从静音视频生成音频的实用化需求,提出了MMAudio-LABEL框架。其要解决的问题是,现有方法要么只生成音频而缺乏事件级信息,要么采用“生成后检测”的流水线,易受误差累积影响且丢失视觉上下文。方法核心是构建一个“事件感知”的生成框架,联合学习音频生成和帧级声音事件预测,而不是后接独立的分类器。与已有方法相比,新在提出了“联合头”(Joint Heads)架构,将事件逻辑值视为连续变量并加入噪声,与音频潜变量拼接后,由统一的流匹配生成头在同一个生成轨迹内联合预测音频和事件,从而在共享的潜空间中更好地融合视觉、音频和事件信息。主要实验结果显示,在Greatest Hits数据集上,该方法在起始点检测(Onset Detection)的准确率从基线的46.7%提升至75.0%,材料分类(Material Classification)的准确率从40.6%提升至61.0%,同时生成音频的质量(MCD指标)也得到提升。实际意义在于,该方法为视频到音频合成提供了更可解释和实用的输出(音频+对齐的事件标签),有助于音视频内容创作。主要局限性是评估局限于特定的打击类动作数据集,缺乏更广泛音频事件和复杂场景的验证;此外,论文未提供开源代码或模型权重,影响了可复现性。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 373 words

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统 学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者:未明确说明(论文中未以“Corresponding author”标注单独作者,但提供了多个联系邮箱) 作者列表: Run Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Xiaobo Xia (新加坡国立大学, 中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院, 中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Min Yang (中国科学院深圳先进技术研究院, 深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评 亮点在于论文提出了一个干净利落的统一框架(DFM),避免了自回归范式在理解/生成任务间的先天矛盾,并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力(如文本生成图像)的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖,且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 316 words

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文针对多模态细粒度感知中“描述越详细,幻觉越多”的核心矛盾,提出了一个从“侦探”式数据生成到两阶段模型训练,再到全新填空式评估基准的完整解决方案框架,逻辑闭环非常扎实。 短板:虽然设计了智能体数据管线,但其质量上限仍受限于所调用的闭源模型(如Gemini 2.5 Pro)的能力,本质上是用更强的闭源模型给开源模型生成训练数据,创新中略带一丝“取巧”;新基准Omni-Cloze虽然高效,但其“填空”形式与自由生成任务仍有一定差距。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 364 words

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 通讯作者:Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院,中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院,中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院,中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院,中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所) 💡 毒舌点评 这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集,填补了领域空白,为后续研究提供了标准评测场。其短板在于模型架构本身(Omni-RewardModel)是现有技术(如Bradley-Terry框架、GRPO强化学习)在更大规模多模态数据上的直接应用,缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情 代码:提供了GitHub仓库链接:https://github.com/HongbangYuan/OmniReward 模型权重:提及了公开Omni-RewardModel权重,下载链接为:https://hf.co/datasets/HongbangYuan/OmniRewardBench (注:此处链接标签为Dataset,但文中暗示模型权重也可能在此或类似路径) 数据集:明确公开两个数据集:Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData),均托管于HuggingFace。 Demo:论文中未提及在线演示。 复现材料:论文在正文和附录中描述了数据收集、标注流程、模型训练细节(如骨干模型选择、训练数据比例、强化学习算法)以及评估协议,复现信息较为充分。 引用的开源项目:模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集,如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要 要解决什么问题:现有的奖励模型存在两个核心挑战:一是模态不平衡,主要关注文本和图像,对音频、视频、3D等模态支持不足;二是偏好刚性,基于固定的二元偏好对训练,无法捕捉复杂多样的个性化偏好。 方法核心是什么:提出Omni-Reward框架,包含三个核心组件:(1) 评测基准Omni-RewardBench,首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集;(2) 训练数据集Omni-RewardData,包含248K通用偏好对和69K用于指令微调的自由格式偏好对;(3) 模型Omni-RewardModel,包括判别式(BT)和生成式(R1)两种全模态奖励模型。 与已有方法相比新在哪里:(1) 首次系统性地将奖励建模扩展到全模态场景(包括音频、3D);(2) 首次在奖励建模中引入自由形式的自然语言偏好描述,替代传统的二元选择,以支持动态、个性化的偏好对齐;(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。 主要实验结果如何: 在自有基准Omni-RewardBench(w/ Ties设置)上,Omni-RewardModel-BT达到65.36% 准确率,超越最强基线(Claude 3.5 Sonnet的66.54%已属顶级,但模型整体仍有提升空间)。 在公开基准VL-RewardBench上,Omni-RewardModel-BT达到76.3% 准确率,取得SOTA性能。 消融实验证明,使用混合多模态数据进行训练比单模态数据显著提升泛化能力;指令微调数据对于处理自由格式偏好至关重要。 模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告 实际意义是什么:为未来的全模态大模型(如GPT-4o, Qwen2.5-Omni)提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变,使AI系统能更灵活地适应不同用户或场景的具体需求。 主要局限性是什么:(1) Omni-RewardBench的规模(3.7K对)相对较小,可能不足以全面评估超大规模模型;(2) 任务定义相对粗粒度,每种模态任务内的多样性还可进一步细分;(3) 当前数据仅限单轮交互,未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体,其整体架构如下图所示。核心是基于一个多模态大语言模型(如MiniCPM-o-2.6或Qwen2.5-VL)作为骨干网络,处理来自文本、图像、视频、音频等模态的输入。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 367 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、南方科技大学、快手科技) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学,南方科技大学,快手科技),Shengjun Zhang(快手科技),Da Li(快手科技,中国科学院大学),Yuxiao Luo(快手科技,北京大学),Yan Wang(快手科技),Di Xu(快手科技),Biao Yang(快手科技),Wei Yuan(快手科技,项目负责人),Fan Yang(快手科技,项目负责人),Zhihai He(南方科技大学,通讯作者),Wenming Yang(清华大学,通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题,并通过一个高质量、大规模的诊断基准(OmniCVR)将其量化,这比提出一个改进模型更有价值。短板:提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型,这种“音频-文本化”的工程化方案虽然有效,但显得不够优雅,且引入了额外的延迟和潜在信息损失,算不上是最根本的端到端解决方案。 🔗 开源详情 代码:论文承诺将开源完整代码库,包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示,但提到数据将发布在HuggingFace(https://huggingface.co/datasets/Jun-Yang/OmniCVR),代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。 模型权重:论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。 数据集:OmniCVR数据集(包括160K+片段、50K+三元组、5K测试集)将完全开源。获取方式为通过上述HuggingFace链接。 Demo:论文中未提及是否提供在线演示。 复现材料:论文在附录(Appendix G)中提供了用于数据生成(如生成视频描述、修改指令)的完整提示词模板,以及详细的双重验证协议说明,这对于复现数据生成管线至关重要。然而,关于模型训练的具体细节(学习率、优化器、批次大小等)论文中未提及。 论文中引用的开源项目/模型:论文明确使用了以下开源模型作为组件或基线: Qwen2.5-Omni:用于视频音频标注生成。 Gemini 2.5 Pro:用于数据验证。 Qwen2-Audio-7B-Instruct:用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL:作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect:用于视频分割。 所有使用的数据集(HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR)均为公开数据集。 📌 核心摘要 本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR,该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组(源视频、修改文本、目标视频)的大规模数据集,其中超过57%的查询需要同时修改视觉和音频(集成查询)。为此,作者设计了一个可扩展的自动化数据生成管线,并通过大模型与人类专家的双重验证确保数据质量。为验证基准,论文提出了AudioVLM2Vec模型,其核心创新是利用音频理解大模型(Qwen2-Audio)将音频转为细粒度描述文本,再与视觉信息一同输入VLM2Vec框架。主要实验结果表明,AudioVLM2Vec在OmniCVR基准上取得了最优性能,尤其是在音频中心查询上,相比基线VLM2Vec实现了巨大的性能提升(R@1从12.4提升到77.2)。这证明了显式注入音频语义对于跨模态检索的关键作用,并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准,推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟(约1.77倍),且该方案可能无法完美捕捉音频的所有非语义信息(如音色、节奏等)。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 247 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Caorui Li(东南大学、南京大学) 通讯作者:Jiaheng Liu(南京大学) 作者列表:Caorui Li(东南大学、南京大学)、Yu Chen(东南大学、南京大学)、Yiyan Ji(南京大学)、Jin Xu(阿里巴巴集团)、Zhenyu Cui(东南大学)、Shihao Li(南京大学)、Yuanxing Zhang(快手科技)、Zhenghao Song(M-A-P)、Dingling Zhang(南京大学)、Ying He(北京科技大学)、Haoxiang Liu(北京科技大学)、Yuxuan Wang(阿里巴巴集团)、Qiufeng Wang(东南大学)、Jiafu Tang(南京大学)、Zhenhe Wu(M-A-P)、Jiehui Luo(中央音乐学院)、Zhiyu Pan(南京大学)、Weihao Xie(华中科技大学)、Chenchen Zhang(M-A-P)、Zhaohui Wang(南京大学)、Jiayi Tian(阿里巴巴集团)、Yanghai Wang(南京大学)、Zhe Cao(南京大学)、Minxin Dai(南京大学)、Ke Wang(M-A-P)、Runzhe Wen(南京大学)、Yinghao Ma(伦敦玛丽女王大学)、Yaning Pan(复旦大学)、Sungkyun Chang(伦敦玛丽女王大学)、Termeh Taheri(伦敦玛丽女王大学)、Haiwen Xia(北京大学)、Christos Plachouras(伦敦玛丽女王大学)、Emmanouil Benetos(伦敦玛丽女王大学)、Yizhi Li(曼彻斯特大学)、Ge Zhang(M-A-P)、Jian Yang(M-A-P)、Tianhao Peng(M-A-P)、Zili Wang(M-A-P)、Minghao Liu(2077AI)、Junran Peng(北京科技大学)、Zhaoxiang Zhang(中国科学院)、Jiaheng Liu(南京大学) 💡 毒舌点评 该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题,并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集,其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而,其核心贡献是一个评测基准(Benchmark)而非一个解决该难题的新模型,且目前数据集尚未完全公开,这限制了其即时影响力。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 292 words

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #语音大模型 #对比学习 #跨模态 #大语言模型 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hanrong Ye(NVIDIA) 通讯作者:Hongxu Yin(NVIDIA), Pavlo Molchanov(NVIDIA) 作者列表:Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang(以上作者标注为“Core Contribution”,均来自NVIDIA), Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Yao Lu, Oluwatobi Olabiyi, Yu-Chiang Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin§†, Pavlo Molchanov§*(标注“§Equal Advisory”,“†Corresponding Authors”), 机构均为NVIDIA。 💡 毒舌点评 论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实,尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而,论文对模型的具体规模(参数量、计算成本)和数据合成管道的细节披露略显不足,使得“效率优势”的宣称(如0.2T token训练)的完整上下文不够透明,更像是一个精心调优的大型系统工程展示,而非在某个单一技术点上的颠覆性创新。 ...

2026-05-04 · 更新于 2026-06-19 · 2 min · 406 words

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型评估 #模型比较 #迁移学习 #多任务学习 ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxian Wei (清华大学) 通讯作者:Chun Yuan (清华大学) 作者列表:Yongxian Wei (清华大学), Runxi Cheng (清华大学), Weike Jin (华为诺亚方舟实验室), Enneng Yang (中山大学), Li Shen (中山大学), Lu Hou (华为诺亚方舟实验室), Sinan Du (清华大学), Chun Yuan (清华大学), Xiaochun Cao (中山大学), Dacheng Tao (南洋理工大学) 💡 毒舌点评 亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路,为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合,与真正意义上的通用全能模型差距较大,且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。 ...

2026-05-04 · 更新于 2026-06-19 · 3 min · 464 words