MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation

📄 MMAudioReverbs: Video-Guided Acoustic Modeling for Dereverberation and Room Impulse Response Estimation #语音增强 #跨模态 #预训练 #迁移学习 ✅ 6.0/10 | 前50% | #语音增强 | #预训练 | #跨模态 #迁移学习 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Akira Takahashi (Sony Group Corporation, Sony AI) 通讯作者:未明确说明(但第一作者Akira Takahashi与第四作者Yuki Mitsufuji均来自Sony AI,且Yuki Mitsufuji为机构负责人,可能是主要联络人) 作者列表:Akira Takahashi (Sony Group Corporation, Sony AI)、Ryosuke Sawata (Sony AI)、Shusuke Takahashi (Sony Group Corporation)、Yuki Mitsufuji (Sony Group Corporation, Sony AI) 💡 毒舌点评 亮点:该研究巧妙地将一个为视频生成音频(V2A)的基础模型(MMAudio)通过“无需修改架构”的方式,重新用于解决物理声学问题(去混响和RIR估计),这种“模型复用”的思路颇具启发性,展示了预训练多模态模型作为通用物理先验的潜力。短板:实验的局限性过于明显——仅在一个数据集(SoundSpaces-Speech)上进行验证,且与多个SOTA方法(如AV-RIR)对比时,在关键指标(如RIR估计的ΔRT60)上并未显示出稳定优势,使得其“统一框架”的优越性难以服众。同时,完全缺乏开源承诺,极大地削弱了研究的可验证性和社区影响力。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 382 words

MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark

📄 MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark #基准测试 ✅ 7.5/10 | 前50% | #基准测试 | #模型评估 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Dingdong Wang(香港中文大学) 通讯作者:未说明 作者列表:Dingdong Wang(香港中文大学),Junan Li(香港中文大学),Jincenzi Wu(香港中文大学),Dongchao Yang(香港中文大学),Xueyuan Chen(香港中文大学),Tianhua Zhang(香港中文大学),Helen M. Meng(香港中文大学) 💡 毒舌点评 这篇论文的核心贡献在于构建了一个任务体系非常庞大、且强调语言学理论指导的语音理解基准,其对“听觉细节”(如韵律、语音学)的侧重确实弥补了现有SLU基准只关注语义的盲区。然而,作为一篇Benchmark论文,它在提出评估标准后,并未对如何改进模型以攻克这些新挑战给出方法论层面的洞察,其价值更偏向于“诊断”而非“治疗”。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。本文是基准论文,不涉及提出新模型。 数据集:已公开。论文明确指出基准数据集在Hugging Face上可用:https://huggingface.co/datasets/ddwang2000/MMSU。 Demo:未提及。 复现材料:附录提供了非常详细的数据构建细节,包括数据来源列表、任务定义与示例、数据分布、错误案例分析、以及GPT-4o的使用提示,这有助于理解基准构建过程。 论文中引用的开源项目:引用了多个用于数据构建的开源数据集(如MELD, GigaSpeech, CommonVoice, Switchboard等)和模型(如Whisper, GPT-4o)。 📌 核心摘要 要解决什么问题:现有语音大模型(SpeechLLMs)的评估基准主要关注语义内容,忽略了语音中丰富的声学特征(如韵律、重音、副语言特征)以及基于这些特征的复杂推理能力,导致对模型真实语音理解能力的评估不全面。 方法核心:提出MMSU基准,包含5000个由专家精心设计和审核的“音频-问题-答案”三元组,覆盖47个细粒度任务,这些任务系统性地根植于语言学理论(包括语音学、韵律学、修辞学、句法学、语义学和副语言学)。 与已有方法相比新在哪里:与现有基准相比,MMSU首次系统性地将语言学理论融入任务设计,覆盖了更广泛的声学特征(如口音、语速变化、停顿、延长音、非言语声音等),并强调了基于声学线索的推理任务(如基于韵律的推理、讽刺检测、双关语解释)。 主要实验结果:对22个先进的SpeechLLMs和OmniLLMs进行了评估。结果显示,当前模型与人类表现存在显著差距:最佳人类评估者平均准确率为89.72%,而表现最好的模型(Gemini-1.5-Pro)仅为60.68%。模型普遍在语音学(如近音感知、音节感知)和部分推理任务(如讽刺检测、对联匹配)上表现不佳。噪声实验表明模型确实利用了声学信号,而非仅依赖文本统计。关键性能对比见下表。 模型 参数量 感知平均准确率 (%) 推理平均准确率 (%) 总体平均准确率 (%) Human - 91.24 86.77 89.72 Gemini-1.5-Pro - 46.10 76.16 60.68 Qwen2.5-Omni-7B 7B 42.50 79.83 60.57 Kimi-Audio 7B 43.52 76.03 59.28 MiniCPM-o 8.6B 40.54 73.57 56.53 GPT-4o-Audio - 39.67 71.96 56.38 Random Guess - 24.90 25.02 25.37 实际意义:MMSU为全面评估语音大模型在真实、复杂语音交互中的能力提供了新的标准,其发现(如模型在声学细节感知上的普遍短板)为未来模型的训练和改进指明了具体方向。 主要局限性:1) 基准规模(5000题)相对于47个任务来说,每个任务平均数据量有限;2) 所有任务均为选择题,可能无法完全模拟真实世界中开放式、生成式的语音交互场景;3) 作为评估基准,论文本身并未提出提升模型在MMSU上表现的新方法。 🏗️ 模型架构 本文并非提出一个新的语音大模型架构,而是提出了一个用于评估现有语音大模型的基准框架。其架构设计体现在基准本身的结构上。 ...

2026-05-04 · 更新于 2026-05-22 · 1 min · 176 words

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #音频大模型 #预训练 #强化学习 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #音频大模型 | #预训练 #强化学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sreyan Ghosh (University of Maryland, College Park & NVIDIA), Arushi Goel (NVIDIA) (论文注明二者同等贡献) 通讯作者:sreyang@umd.edu, arushig@nvidia.com 作者列表:Sreyan Ghosh (University of Maryland, College Park & NVIDIA)、Arushi Goel (NVIDIA)、Lasha Koroshinadze (University of Maryland, College Park)、Sang-gil Lee (NVIDIA)、Zhifeng Kong (NVIDIA)、Joao Felipe Santos (NVIDIA)、Ramani Duraiswami (University of Maryland, College Park)、Dinesh Manocha (University of Maryland, College Park)、Wei Ping (NVIDIA)、Mohammad Shoeybi (NVIDIA)、Bryan Catanzaro (NVIDIA) 💡 毒舌点评 论文的最大亮点是构建了一个覆盖多层次、多文化、带推理链的音乐理解数据集(MF-Skills & MF-Think),并通过GRPO强化学习有效提升了模型的“音乐家式”分析能力,使其输出从“列标签”升级到了“写乐评”。短板在于,尽管数据集声称覆盖多元文化,但模型在对非西方音乐(如印度拉格、非洲节奏)的深层理论分析上仍可能受限于训练数据的偏见,且对复杂乐器特定技法的识别能力有待验证。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 392 words

NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching

📄 NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching #多模态模型 #流匹配 #跨模态检索 #语音对话系统 #模型评估 🔥 8.0/10 | 前25% | #多模态模型 | #流匹配 | #跨模态检索 #语音对话系统 学术质量 5.8/7 | 选题价值 1.7/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Run Luo (中国科学院深圳先进技术研究院、中国科学院大学) 通讯作者:未明确说明(论文中未以“Corresponding author”标注单独作者,但提供了多个联系邮箱) 作者列表: Run Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Xiaobo Xia (新加坡国立大学, 中国科学技术大学) * Lu Wang (Rtizz-AI) Longze Chen (中国科学院深圳先进技术研究院, 中国科学院大学) Renke Shan (Rtizz-AI) Jing Luo (中国科学院深圳先进技术研究院, 中国科学院大学) Min Yang (中国科学院深圳先进技术研究院, 深圳大学) * Tat-Seng Chua (新加坡国立大学) 标注的作者在作者列表中被提及为通讯作者。 💡 毒舌点评 亮点在于论文提出了一个干净利落的统一框架(DFM),避免了自回归范式在理解/生成任务间的先天矛盾,并且在跨模态检索这类需要深度融合表征的任务上展现了架构优势。短板在于其核心生成能力(如文本生成图像)的绝对质量与FLUX等专用模型的差距可能被“统一”的光环所掩盖,且论文中“动态长度生成策略”等优化的具体效果有待更细粒度的分析。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 316 words

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyang Ma(上海交通大学,南洋理工大学) 通讯作者:Jin Xu(阿里巴巴通义团队),Xie Chen(上海交通大学,上海创新研究院) 作者列表: Ziyang Ma(上海交通大学,南洋理工大学)* Ruiyang Xu(上海交通大学)* Zhenghao Xing(香港中文大学)* Yunfei Chu(阿里巴巴通义团队) Yuxuan Wang(阿里巴巴通义团队) Jinzheng He(阿里巴巴通义团队) Jin Xu†(阿里巴巴通义团队) Pheng-Ann Heng(香港中文大学) Kai Yu(上海交通大学) Junyang Lin(阿里巴巴通义团队) Eng Siong Chng(南洋理工大学) Xie Chen‡(上海交通大学,上海创新研究院) 💡 毒舌点评 亮点:论文针对多模态细粒度感知中“描述越详细,幻觉越多”的核心矛盾,提出了一个从“侦探”式数据生成到两阶段模型训练,再到全新填空式评估基准的完整解决方案框架,逻辑闭环非常扎实。 短板:虽然设计了智能体数据管线,但其质量上限仍受限于所调用的闭源模型(如Gemini 2.5 Pro)的能力,本质上是用更强的闭源模型给开源模型生成训练数据,创新中略带一丝“取巧”;新基准Omni-Cloze虽然高效,但其“填空”形式与自由生成任务仍有一定差距。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 364 words

Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

📄 Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences #多模态模型 #基准测试 #数据集 #强化学习 🔥 8.0/10 | 前25% | #基准测试 #数据集 | #强化学习 #多任务学习 | #多模态模型 #基准测试 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.9 | 置信度 高 👥 作者与机构 第一作者:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 通讯作者:Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所,国家认知与决策智能重点实验室) 作者列表:Zhuoran Jin(中国科学院大学人工智能学院,中国科学院自动化研究所), Hongbang Yuan(中国科学院大学人工智能学院,中国科学院自动化研究所), Kejian Zhu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jiachun Li(中国科学院大学人工智能学院,中国科学院自动化研究所), Pengfei Cao(中国科学院大学人工智能学院,中国科学院自动化研究所), Yubo Chen(中国科学院大学人工智能学院,中国科学院自动化研究所), Kang Liu(中国科学院大学人工智能学院,中国科学院自动化研究所), Jun Zhao(中国科学院大学人工智能学院,中国科学院自动化研究所) 💡 毒舌点评 这篇论文最大的贡献是“立规矩、搭台子”——提出了首个覆盖全模态且支持自由格式偏好的奖励建模基准和数据集,填补了领域空白,为后续研究提供了标准评测场。其短板在于模型架构本身(Omni-RewardModel)是现有技术(如Bradley-Terry框架、GRPO强化学习)在更大规模多模态数据上的直接应用,缺乏针对“自由格式偏好”理解的独创性建模机制。 🔗 开源详情 代码:提供了GitHub仓库链接:https://github.com/HongbangYuan/OmniReward 模型权重:提及了公开Omni-RewardModel权重,下载链接为:https://hf.co/datasets/HongbangYuan/OmniRewardBench (注:此处链接标签为Dataset,但文中暗示模型权重也可能在此或类似路径) 数据集:明确公开两个数据集:Omni-RewardBench (https://hf.co/datasets/HongbangYuan/OmniRewardBench) 和 Omni-RewardData (https://hf.co/datasets/jinzhuoran/OmniRewardData),均托管于HuggingFace。 Demo:论文中未提及在线演示。 复现材料:论文在正文和附录中描述了数据收集、标注流程、模型训练细节(如骨干模型选择、训练数据比例、强化学习算法)以及评估协议,复现信息较为充分。 引用的开源项目:模型构建依赖MiniCPM-o-2.6和Qwen2.5-VL等开源多模态模型。训练数据整合了多个公开数据集,如Skywork-Reward-Preference, RLAIF-V, HPDv2, VideoDPO等。 📌 核心摘要 要解决什么问题:现有的奖励模型存在两个核心挑战:一是模态不平衡,主要关注文本和图像,对音频、视频、3D等模态支持不足;二是偏好刚性,基于固定的二元偏好对训练,无法捕捉复杂多样的个性化偏好。 方法核心是什么:提出Omni-Reward框架,包含三个核心组件:(1) 评测基准Omni-RewardBench,首个支持自由格式偏好描述、覆盖9类任务5种模态的奖励模型评测集;(2) 训练数据集Omni-RewardData,包含248K通用偏好对和69K用于指令微调的自由格式偏好对;(3) 模型Omni-RewardModel,包括判别式(BT)和生成式(R1)两种全模态奖励模型。 与已有方法相比新在哪里:(1) 首次系统性地将奖励建模扩展到全模态场景(包括音频、3D);(2) 首次在奖励建模中引入自由形式的自然语言偏好描述,替代传统的二元选择,以支持动态、个性化的偏好对齐;(3) 构建了迄今为止最全面的多模态奖励建模训练数据集。 主要实验结果如何: 在自有基准Omni-RewardBench(w/ Ties设置)上,Omni-RewardModel-BT达到65.36% 准确率,超越最强基线(Claude 3.5 Sonnet的66.54%已属顶级,但模型整体仍有提升空间)。 在公开基准VL-RewardBench上,Omni-RewardModel-BT达到76.3% 准确率,取得SOTA性能。 消融实验证明,使用混合多模态数据进行训练比单模态数据显著提升泛化能力;指令微调数据对于处理自由格式偏好至关重要。 模型 Omni-RewardBench (w/ Ties) VL-RewardBench Claude 3.5 Sonnet (最强基线) 66.54% 55.3% Omni-RewardModel-BT 65.36% 76.3% Omni-RewardModel-R1 60.18% 未报告 实际意义是什么:为未来的全模态大模型(如GPT-4o, Qwen2.5-Omni)提供了对齐所需的关键基础设施——评测标准和训练数据。推动了奖励建模从“固定偏好”向“个性化偏好”的范式转变,使AI系统能更灵活地适应不同用户或场景的具体需求。 主要局限性是什么:(1) Omni-RewardBench的规模(3.7K对)相对较小,可能不足以全面评估超大规模模型;(2) 任务定义相对粗粒度,每种模态任务内的多样性还可进一步细分;(3) 当前数据仅限单轮交互,未涵盖多轮对话偏好。 🏗️ 模型架构 Omni-RewardModel包含两个变体,其整体架构如下图所示。核心是基于一个多模态大语言模型(如MiniCPM-o-2.6或Qwen2.5-VL)作为骨干网络,处理来自文本、图像、视频、音频等模态的输入。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 367 words

OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text

📄 OmniCVR: A Benchmark for Omni-Composed Video Retrieval with Vision, Audio, and Text #音频检索 #多模态模型 #基准测试 #数据集 ✅ 7.0/10 | 前25% | #音频检索 | #多模态模型 | #基准测试 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Junyang Ji(清华大学、南方科技大学、快手科技) 通讯作者:Zhihai He(南方科技大学)、Wenming Yang(清华大学) 作者列表:Junyang Ji(清华大学,南方科技大学,快手科技),Shengjun Zhang(快手科技),Da Li(快手科技,中国科学院大学),Yuxiao Luo(快手科技,北京大学),Yan Wang(快手科技),Di Xu(快手科技),Biao Yang(快手科技),Wei Yuan(快手科技,项目负责人),Fan Yang(快手科技,项目负责人),Zhihai He(南方科技大学,通讯作者),Wenming Yang(清华大学,通讯作者) 💡 毒舌点评 亮点:论文一针见血地指出了当前多模态模型“视觉-文本”偏科、严重忽视音频信息的普遍问题,并通过一个高质量、大规模的诊断基准(OmniCVR)将其量化,这比提出一个改进模型更有价值。短板:提出的解决方案“AudioVLM2Vec”本质上是把音频先转录/描述成文本再喂给视觉语言模型,这种“音频-文本化”的工程化方案虽然有效,但显得不够优雅,且引入了额外的延迟和潜在信息损失,算不上是最根本的端到端解决方案。 🔗 开源详情 代码:论文承诺将开源完整代码库,包括数据生成脚本、训练代码和评估协议。具体代码仓库链接在提供的论文全文中未直接显示,但提到数据将发布在HuggingFace(https://huggingface.co/datasets/Jun-Yang/OmniCVR),代码链接可能随发布同步公开。论文中未明确给出代码仓库的直接URL。 模型权重:论文承诺将公开AudioVLM2Vec模型权重。未提及具体模型权重的发布链接。 数据集:OmniCVR数据集(包括160K+片段、50K+三元组、5K测试集)将完全开源。获取方式为通过上述HuggingFace链接。 Demo:论文中未提及是否提供在线演示。 复现材料:论文在附录(Appendix G)中提供了用于数据生成(如生成视频描述、修改指令)的完整提示词模板,以及详细的双重验证协议说明,这对于复现数据生成管线至关重要。然而,关于模型训练的具体细节(学习率、优化器、批次大小等)论文中未提及。 论文中引用的开源项目/模型:论文明确使用了以下开源模型作为组件或基线: Qwen2.5-Omni:用于视频音频标注生成。 Gemini 2.5 Pro:用于数据验证。 Qwen2-Audio-7B-Instruct:用于AudioVLM2Vec中的音频描述生成。 Qwen2-VL:作为VLM2Vec和AudioVLM2Vec的视觉-语言骨干。 CLIP、BLIP、BLIP-2、ImageBind 等作为基线模型。 PySceneDetect:用于视频分割。 所有使用的数据集(HowTo100M, MSR-VTT, VATEX, YouTube8M, YouCook2, VALOR)均为公开数据集。 📌 核心摘要 本文旨在解决现有视频检索基准和模型普遍忽视音频模态的关键问题。论文提出了首个全模态组合视频检索基准OmniCVR,该基准将视觉、音频和文本视为同等重要的第一类模态。核心方法是构建了一个包含50,000个三元组(源视频、修改文本、目标视频)的大规模数据集,其中超过57%的查询需要同时修改视觉和音频(集成查询)。为此,作者设计了一个可扩展的自动化数据生成管线,并通过大模型与人类专家的双重验证确保数据质量。为验证基准,论文提出了AudioVLM2Vec模型,其核心创新是利用音频理解大模型(Qwen2-Audio)将音频转为细粒度描述文本,再与视觉信息一同输入VLM2Vec框架。主要实验结果表明,AudioVLM2Vec在OmniCVR基准上取得了最优性能,尤其是在音频中心查询上,相比基线VLM2Vec实现了巨大的性能提升(R@1从12.4提升到77.2)。这证明了显式注入音频语义对于跨模态检索的关键作用,并暴露了现有“全模态”模型在音频推理上的根本缺陷。该工作的实际意义在于为更真实的多模态视频理解设立了新标准,推动研究向听觉-视觉-语言融合迈进。主要局限性在于提出的“音频转文本”方案带来了额外的推理延迟(约1.77倍),且该方案可能无法完美捕捉音频的所有非语义信息(如音色、节奏等)。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 247 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #多模态模型 #跨模态 #模型评估 🔥 8.5/10 | 前25% | #基准测试 | #多模态模型 | #跨模态 #模型评估 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Caorui Li(东南大学、南京大学) 通讯作者:Jiaheng Liu(南京大学) 作者列表:Caorui Li(东南大学、南京大学)、Yu Chen(东南大学、南京大学)、Yiyan Ji(南京大学)、Jin Xu(阿里巴巴集团)、Zhenyu Cui(东南大学)、Shihao Li(南京大学)、Yuanxing Zhang(快手科技)、Zhenghao Song(M-A-P)、Dingling Zhang(南京大学)、Ying He(北京科技大学)、Haoxiang Liu(北京科技大学)、Yuxuan Wang(阿里巴巴集团)、Qiufeng Wang(东南大学)、Jiafu Tang(南京大学)、Zhenhe Wu(M-A-P)、Jiehui Luo(中央音乐学院)、Zhiyu Pan(南京大学)、Weihao Xie(华中科技大学)、Chenchen Zhang(M-A-P)、Zhaohui Wang(南京大学)、Jiayi Tian(阿里巴巴集团)、Yanghai Wang(南京大学)、Zhe Cao(南京大学)、Minxin Dai(南京大学)、Ke Wang(M-A-P)、Runzhe Wen(南京大学)、Yinghao Ma(伦敦玛丽女王大学)、Yaning Pan(复旦大学)、Sungkyun Chang(伦敦玛丽女王大学)、Termeh Taheri(伦敦玛丽女王大学)、Haiwen Xia(北京大学)、Christos Plachouras(伦敦玛丽女王大学)、Emmanouil Benetos(伦敦玛丽女王大学)、Yizhi Li(曼彻斯特大学)、Ge Zhang(M-A-P)、Jian Yang(M-A-P)、Tianhao Peng(M-A-P)、Zili Wang(M-A-P)、Minghao Liu(2077AI)、Junran Peng(北京科技大学)、Zhaoxiang Zhang(中国科学院)、Jiaheng Liu(南京大学) 💡 毒舌点评 该工作系统性地定义了评估全模态大语言模型音频-视觉协同推理能力的难题,并通过一套严谨的“人-模型”协作流程构建了一个高质量的评测集,其发现揭示了当前模型在“真正理解”音视频内容上的巨大鸿沟。然而,其核心贡献是一个评测基准(Benchmark)而非一个解决该难题的新模型,且目前数据集尚未完全公开,这限制了其即时影响力。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 292 words

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #语音大模型 #对比学习 #跨模态 #大语言模型 ✅ 7.5/10 | 前25% | #多模态模型 | #多模态模型 | #语音大模型 #对比学习 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hanrong Ye(NVIDIA) 通讯作者:Hongxu Yin(NVIDIA), Pavlo Molchanov(NVIDIA) 作者列表:Hanrong Ye, Chao-Han Huck Yang, Arushi Goel, Wei Huang, Ligeng Zhu, Yuanhang Su, Sean Lin, An-Chieh Cheng, Zhen Wan, Jinchuan Tian, Yuming Lou, Dong Yang(以上作者标注为“Core Contribution”,均来自NVIDIA), Zhijian Liu, Yukang Chen, Ambrish Dantrey, Ehsan Jahangiri, Sreyan Ghosh, Daguang Xu, Ehsan Hosseini-Asl, Danial Mohseni Taheri, Vidya Murali, Sifei Liu, Yao Lu, Oluwatobi Olabiyi, Yu-Chiang Frank Wang, Rafael Valle, Bryan Catanzaro, Andrew Tao, Song Han, Jan Kautz, Hongxu Yin§†, Pavlo Molchanov§*(标注“§Equal Advisory”,“†Corresponding Authors”), 机构均为NVIDIA。 💡 毒舌点评 论文在系统性地探索全模态LLM架构与数据配方上做得非常扎实,尤其是OmniAlignNet结合时间编码的设计有清晰的工程动机。然而,论文对模型的具体规模(参数量、计算成本)和数据合成管道的细节披露略显不足,使得“效率优势”的宣称(如0.2T token训练)的完整上下文不够透明,更像是一个精心调优的大型系统工程展示,而非在某个单一技术点上的颠覆性创新。 ...

2026-05-04 · 更新于 2026-05-22 · 2 min · 406 words

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

📄 OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging #多模态模型 #模型评估 #模型比较 #迁移学习 #多任务学习 ✅ 7.0/10 | 前25% | #模型比较 | #迁移学习 | #多模态模型 #模型评估 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yongxian Wei (清华大学) 通讯作者:Chun Yuan (清华大学) 作者列表:Yongxian Wei (清华大学), Runxi Cheng (清华大学), Weike Jin (华为诺亚方舟实验室), Enneng Yang (中山大学), Li Shen (中山大学), Lu Hou (华为诺亚方舟实验室), Sinan Du (清华大学), Chun Yuan (清华大学), Xiaochun Cao (中山大学), Dacheng Tao (南洋理工大学) 💡 毒舌点评 亮点在于提出了首个系统性的MLLM能力融合基准和“无数据”的模态融合思路,为社区提供了重要的评估框架和基线。短板是论文标题中的“Omni-language model”在实验中仅限于简单的音视频问答融合,与真正意义上的通用全能模型差距较大,且核心方法OptMerge在理论层面更像是对现有技术的巧妙组合。 ...

2026-05-04 · 更新于 2026-05-22 · 3 min · 464 words