UALM: Unified Audio Language Model for Understanding, Generation and Reasoning

📄 UALM: Unified Audio Language Model for Understanding, Generation and Reasoning #统一音频模型 #音频生成 #音频问答 #自回归模型 #多模态模型 🔥 8.5/10 | 前25% | #音频生成 | #自回归模型 | #统一音频模型 #音频问答 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jinchuan Tian(卡内基梅隆大学,NVIDIA) 通讯作者:未明确标注,论文指出所有作者贡献相等(Equal Contribution) 作者列表: Jinchuan Tian(卡内基梅隆大学,NVIDIA) Sang-gil Lee(NVIDIA) Zhifeng Kong(NVIDIA) Sreyan Ghosh(NVIDIA,马里兰大学) Arushi Goel(NVIDIA) Chao-Han Huck Yang(NVIDIA) Wenliang Dai(NVIDIA) Zihan Liu(NVIDIA) Hanrong Ye(NVIDIA) Shinji Watanabe(卡内基梅隆大学) Mohammad Shoeybi(NVIDIA) Bryan Catanzaro(NVIDIA) Rafael Valle(NVIDIA) Wei Ping(NVIDIA) 💡 毒舌点评 亮点在于首次系统性地证明了一个基于自回归语言模型的音频模型,可以通过数据缩放和特定技巧(如CFG和DPO)在生成质量上追平甚至超越扩散模型,并进一步将其扩展为能进行文本-音频联合推理的统一模型,技术路线清晰且有效。短板则在于其宣称的“统一”模型,其核心的音频理解数据集(AF3)和大规模生成数据(30M)并未公开,这使得“统一训练”和“匹配专用模型性能”的结论在独立复现层面打了折扣,更像一个强大的NVIDIA内部能力展示。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 386 words

WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables

📄 WearVox: An Egocentric Multichannel Voice Assistant Benchmark for Wearables #基准测试 #多通道 #语音大模型 #音频问答 🔥 8.0/10 | 前25% | #基准测试 | #麦克风阵列 | #多通道 #语音大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta)(论文明确标注三位为共同第一作者:Joint first author) 通讯作者:未明确说明(但Zhaojiang Lin提供了联系邮箱zhaojiang@meta.com) 作者列表:Zhaojiang Lin(Meta),Yong Xu(Meta),Kai Sun(Meta),Jing Zheng(Meta),Yin Huang(Meta),Surya Teja Appini(Meta),Krish Narang(Meta),Renjie Tao(Meta),Ishan Kapil Jain(Meta),Siddhant Arora(Carnegie Mellon University,标注工作在Meta完成),Ruizhi Li(Meta),Yiteng Huang(Meta),Kaushik Patnaik(Meta),Wenfang Xu(Meta),Suwon Shon(Meta),Yue Liu(Meta),Ahmed A Aly(Meta),Anuj Kumar(Meta),Florian Metze(Meta),Xin Luna Dong(Meta) 💡 毒舌点评 亮点在于首次针对可穿戴场景定义了多通道、自我中心语音助手评测标准,数据基于真实AI眼镜采集,任务设计紧贴现实痛点(如侧向对话拒绝)。短板是数据集规模相对有限(3.8k样本),且评估的大部分现有SLLM只能基于波束成形后的单通道音频输入,未能充分验证多通道架构的潜力,论文中提出的MC WearLlama也仅是案例研究,非核心贡献。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 327 words

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

📄 WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs #多模态模型 #基准测试 #音频问答 #视频理解 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #基准测试 | #多模态模型 #视频理解 学术质量 6.5/7 | 选题价值 7.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Jack Hong(小红书公司) 通讯作者:Weidi Xie(上海交通大学) 作者列表:Jack Hong(小红书公司)、Shilin Yan(小红书公司)、Jiayin Cai(小红书公司)、Xiaolong Jiang(小红书公司)、Yao Hu(小红书公司)、Weidi Xie(上海交通大学) 💡 毒舌点评 这篇论文最大的亮点在于它指出了一个残酷的现实:现有最强的多模态大模型在需要同时理解声音和画面的真实世界场景中,表现最好的也只达到了65.1%的准确率,离可靠应用还差得远。然而,它的短板也同样明显:作为一个评测基准论文,它更像是为其他研究者“立规矩”和“出考卷”,本身在模型架构或训练方法上的原创性贡献有限。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开模型权重。 数据集:公开。论文明确说明WorldSense数据集已公开发布,可在其项目主页和GitHub/HuggingFace获取。 Demo:未提供在线演示链接。 复现材料:提供了详细的评估设置(如帧采样方法、API使用)、评估Prompt模板(附录A.4)和数据集统计信息,足以复现其评估实验。 论文中引用的开源项目:引用了多个被评估的开源模型,如OneLLM, VideoLLaMA2, Qwen2-VL, LLaVA-OneVision等,以及数据集来源FineVideo和MusicAVQA。 开源计划:论文中未提及除数据集之外的额外开源计划。 📌 核心摘要 该论文旨在解决当前多模态大语言模型(MLLM)评估中忽略音频模态、场景简单、任务单一的问题。为此,作者提出了WorldSense,这是首个专注于评估MLLM对真实世界音视频同步内容进行全模态理解的基准测试。该基准的核心创新在于设计了紧密耦合音视频的任务,使得单独依赖任一模态都无法正确回答问题。它包含1662个来自8大领域、67个子类别的音频同步视频,以及3172个跨越26种认知任务的高质量多选题QA对。所有问答对由80名专家标注员多轮校对,确保质量。实验对众多开源和闭源模型进行了广泛评估。结果表明,现有模型在真实世界场景下面临巨大挑战,最佳模型Gemini 2.5 Pro的准确率仅为65.1%,而许多开源音视频模型的表现甚至接近随机猜测(约25%)。消融研究证实了原始音频信号比文本转录包含更多信息(如韵律、情感),对提升理解至关重要。该基准旨在推动更全面的多模态理解研究,为构建能够整合上下文信息的模型提供平台。主要局限性在于其采用的多选题格式限制了对模型生成能力的评估。 🏗️ 模型架构 本文未提出一个新的模型架构,而是设计了一个用于评估现有模型的基准框架。其核心是评估流程,如下: ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 240 words

XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models

📄 XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models #基准测试 #多模态模型 #音频问答 #跨模态 #模型评估 ✅ 7.5/10 | 前25% | #基准测试 | #多模态模型 | #音频问答 #跨模态 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Xingrui Wang (1. Advanced Micro Devices, 2. Johns Hopkins University) 通讯作者:Jiang Liu (Advanced Micro Devices) 作者列表:Xingrui Wang (Advanced Micro Devices, Johns Hopkins University), Jiang Liu (Advanced Micro Devices), Chao Huang (Advanced Micro Devices, University of Rochester), Xiaodong Yu (Advanced Micro Devices), Ze Wang (Advanced Micro Devices), Ximeng Sun (Advanced Micro Devices), Jialian Wu (Advanced Micro Devices), Alan Yuille (Johns Hopkins University), Emad Barsoum (Advanced Micro Devices), Zicheng Liu (Advanced Micro Devices) 💡 毒舌点评 亮点: 基准设计极其系统且具有诊断性,通过“模态平衡”的六种排列组合,像精密仪器一样能测量出模型对不同模态的“偏科”程度,这是超越简单平均分的深度评测。 短板: 论文将最强的闭源模型(Gemini)作为标杆,但自身并未提出新的模型或算法,因此更像一份详尽的“体检报告”而非“治疗方案”;同时,尽管承诺开源,但评测完全依赖现有模型,缺乏对新模型训练的直接指导细节。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 269 words

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

📄 Can Vision-Language Models Answer Face to Face Questions in the Real-World? #音频问答 #基准测试 #数据集 #流式处理 ✅ 7.5/10 | 前25% | #音频问答 | #基准测试 | #数据集 #流式处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Reza Pourreza(Qualcomm AI Research) 通讯作者:未说明 作者列表:Reza Pourreza(Qualcomm AI Research),Rishit Dagli(University of Toronto,实习于Qualcomm AI Research),Apratim Bhattacharyya(Qualcomm AI Research),Sunny Panchal(Qualcomm AI Research),Guillaume Berger(Qualcomm AI Research),Roland Memisevic(Qualcomm AI Research) 💡 毒舌点评 这篇论文犀利地戳破了“多模态模型已懂交流”的泡沫,用精心设计的QIVD数据集证明,让AI像人一样“边看边听边聊”还差得远,尤其是在把握“回答时机”和理解动态动作上。遗憾的是,其提出的流式处理基线(拼接ASR和视频LLM)更像是权宜之计,而非优雅的端到端解决方案,这或许暗示了当前模型架构的根本性局限。 🔗 开源详情 代码:论文中未提及公开的代码仓库链接。 模型权重:评估中使用了多个公开的预训练模型权重(如VideoLLaMA系列、Qwen系列、GPT-4o等)。论文本身贡献的微调模型权重(如微调后的VideoLLaMA2.1-7B-FT-AV, Stream-Qwen-Omni)未明确说明是否公开。 数据集:QIVD数据集已提供访问链接(qualcomm.com/developer/software/qualcomm-interactive-video-dataset-qivd),应为公开可用。 Demo:论文中未提及在线演示。 复现材料:提供了详尽的附录,包含训练超参数(表D.2)、模型模块冻结/训练状态(表D.1)、评估用的LLM裁判提示词(表D.3, D.4)、GPT-4o的提示词(表D.5)以及对数据集语义分类的详细定义,复现材料非常充分。 引用的开源项目:引用了Whisper, Whisper-Streaming, Cosmos-Tokenizer, BEATs, SigLIP等开源工具或模型作为技术组件。 开源计划:论文中未明确提及后续开源代码的计划。 📌 核心摘要 解决的问题:现有大型多模态模型(LMM)虽然能描述图片、回答静态问题,但在需要结合实时视频和音频流进行情境化问答时表现不佳。它们难以整合多模态信息来理解指代(如“这个”)、判断动态事件,并且最关键的是,不知道“何时”回答。 方法核心:提出了一个全新的数据集和基准——Qualcomm Interactive Video Dataset (QIVD)。该数据集通过众包收集,参与者用手机边拍视频边提出开放性问题,数据集包含原始视频、音频、问题的文字转录、答案以及至关重要的“最佳回答时机”时间戳。 与已有方法的对比新意:与现有离线视频问答数据集不同,QIVD强制模型处理在线、实时、自包含的问答场景。它不仅评估模型能否“答对”,更评估其能否在动态场景中“听懂”问题并在信息充分时“恰当地”作答,这是对模型情境理解和时序推理能力的直接测试。 主要实验结果: 人类表现:在子集上人类正确率约为87.3%。 模型表现:最强的开源模型(如VideoLLaMA3-7B)在提供完美问题和时机的离线设置下正确率仅为56.4%;最强闭源模型(GPT-4o)正确率为58.8%,远低于人类。 时机至关重要:使用模型自身预测的“最佳回答时机”(Stream-Qwen-Omni)会比使用固定时机(如问题结束时)显著提升性能,但仍然存在误差。 音频的作用:直接使用音频信息并不总是能提升性能,但经过在QIVD上微调后,模型能有效利用音频,特别是在主观、动作计数等任务上提升巨大(如主观任务+23.26%,动作计数+16.96%)。 关键差距:模型在“动作计数”、“音视频理解”、“物体指代”等需要时序推理和跨模态理解的任务上,与人类差距最大。 实际意义:为构建能够与人类进行实时视频通话的AI助手、人形机器人或远程协作系统提供了关键的评估基准和瓶颈分析,明确了未来模型需要突破的方向。 主要局限性:数据集规模(2900个视频)和类别多样性有限;数据主要来自众包的日常场景,可能缺乏专业或复杂场景;研究的“流式基线”方法本质上是模块化拼接,而非真正的端到端实时系统。 🏗️ 模型架构 本文主要贡献是数据集和评估框架,而非一个全新的端到端模型。论文提出的模型架构是用于评估的基线系统,其设计体现了对当前技术路径的分析: ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 254 words

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Daiqing Wu(中国科学院信息工程研究所;字节跳动) 通讯作者:Yangyang Kang(字节跳动),Yu Zhou(南开大学) 作者列表: Daiqing Wu(中国科学院信息工程研究所;字节跳动;中国科学院大学) Xuan Zhang(字节跳动) Dongbao Yang(中国科学院信息工程研究所) Jiashu Yao(字节跳动) Longfei Chen(上海科技大学) Qingsong Liu(字节跳动) Sicheng Zhao(清华大学) Can Ma(中国科学院信息工程研究所) Yangyang Kang(浙江大学;字节跳动) Yu Zhou(南开大学) 💡 毒舌点评 亮点: 论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题,并受人类听觉认知启发,提出了“音频交错推理”这一新颖且合理的范式,通过两阶段训练框架(SFT+RL)使其落地,并在多个专家级音频理解基准上取得了SOTA性能,验证了范式的有效性。 短板: 训练数据完全依赖LLM(DeepSeek-R1)基于音频描述自动生成,其质量和与真实音频的匹配度可能存在噪声,且数据筛选过程引入了额外的不确定性;虽然提供了代码,但模型权重未公开,限制了复现和直接比较的便利性。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/wdqqdw/Echo,包含训练代码和脚本。 模型权重:论文中未提及公开模型权重。 数据集:论文中提及构建了EAQA-SFT和EAQA-RL数据集,但未明确说明是否公开下载。训练中使用的其他数据集(AudioSet-Strong, MusicBench, AVQA)为公开数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了详细的训练超参数、数据统计(附录F)、伪代码(附录D)、提示词模板(附录E)和评估设置,复现细节较为充分。 引用的开源项目:模型基座为Qwen2.5-Omni,数据合成使用了DeepSeek-R1,训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要 解决的问题: 现有大音频语言模型(LALMs)在推理时普遍采用“一次性编码”的音频条件化文本推理,将连续音频信号压缩为静态嵌入,导致关键细节信息丢失,形成“信息瓶颈”,限制了模型处理复杂、多源音频的能力。 方法核心: 提出“音频交错推理”范式,将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段(通过<seg>标签),将原始音频token插入推理上下文,形成多模态推理过程。为实现此范式,设计了两阶段训练框架:(1) 监督微调(SFT)使模型学会生成包含时间戳的音频定位推理链;(2) 强化学习(RL)通过设计的奖励函数(准确度、格式、一致性、片段奖励)优化模型的回听策略。同时,构建了一个利用LLM自动生成高质量音频问答及思维链(CoT)的数据生产流水线。 创新之处: 核心创新在于提出了“音频交错推理”这一新的推理格式,改变了模型与音频交互的方式,从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。 主要结果: Echo模型在MMAR(平均69.99%)、MMAU-mini(平均80.41%)和MMAU(平均76.61%)等强调高级推理的音频理解基准上,取得了开源模型中的最优性能,并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明,音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果: 模型 类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义: 为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径,特别是在需要精细时序分析和多轮音频感知的任务中(如多说话人角色映射、事件推理)。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。 主要局限性: (1) 训练数据依赖于LLM的合成,其“听觉”基于文本描述而非原始音频,可能存在语义偏差和幻觉,尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段,未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型(Qwen2.5-Omni),并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计,而在于推理流程和训练范式的创新。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 225 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 #数据增强 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel计算机与数据科学学院;实习于亚马逊) 通讯作者:未明确说明(论文提供了多位作者的邮箱,但未明确指定通讯作者) 作者列表: Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校;亚马逊) Roger Ren (亚马逊) Jingyuan Li (亚马逊) Rahul Pandey (亚马逊) Prashanth Gurunath Shivakumar (亚马逊) Ivan Bulyko (亚马逊) Ankur Gandhe (亚马逊) Ge Liu (伊利诺伊大学厄巴纳-香槟分校) Yile Gu (亚马逊) 💡 毒舌点评 本文最大的亮点在于精准诊断并命名了“测试时反向扩展”这一音频大模型推理的顽疾,并为此开出了“过程奖励”这剂对症良药,将强化学习的应用从粗放的结果监督提升到了精细的思维过程雕琢。然而,其方法的计算开销(需要多次采样)和奖励函数设计的复杂性,使其对资源有限的团队并不友好,且最终性能天花板仍受制于基础音频感知器的短板,这提醒我们“会思考”之前,得先“听清楚”。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 289 words

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频大模型 #强化学习 #数据集 #音频问答 #模型评估 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团, rex.lj@antgroup.com)、Qiuqiang Kong(香港中文大学, qqkong@ee.cuhk.edu.hk) 作者列表:Haolin He(香港中文大学、蚂蚁集团)、Xingjian Du(罗切斯特大学)、Renhe Sun(蚂蚁集团)、Zheqi Dai(香港中文大学)、Yujia Xiao(香港中文大学)、Mingru Yang(蚂蚁集团)、Jiayi Zhou(蚂蚁集团)、Xiquan Li(上海交通大学)、Zhengxi Liu(香港中文大学)、Zining Liang(香港中文大学)、Chunyat Wu(香港中文大学)、Qianhua He(华南理工大学)、Tan Lee(香港中文大学)、Xie Chen(上海交通大学)、Wei-Long Zheng(上海交通大学)、Weiqiang Wang(蚂蚁集团)、Mark Plumbley(伦敦国王学院)、Jian Liu(蚂蚁集团)、Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点在于敏锐地抓住了音频问答模型“偷懒”不听音频的“零音频贡献”问题,并巧妙地将此“缺陷”转化为训练策略设计的依据(Weak-to-Strong),结果亮眼。短板则是整个方法链条严重依赖强大的生成式AI(Qwen3-235B)来构建数据集和进行质量过滤,这多少有点“用魔法打败魔法”,其生成质量的天花板可能直接决定了本方法的天花板。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:论文未提及是否公开本次实验微调后的模型权重。所使用的基础模型(Qwen2.5-Omni)和评估模型(A-Flamingo2, R1-AQA, Kimi-Audio)均为已公开的模型。 数据集:AudioMCQ是本文构建的数据集,论文中描述了构建方法和组成,但未明确提供数据集的公开下载链接或获取方式。 Demo:论文中未提及在线演示。 复现材料:提供了详细的超参数配置表(表6,表7)、训练策略说明、评估提示模板(附录B)和质量验证流程(附录C),复现细节较为充分。 论文中引用的开源项目:Qwen3-235B(用于数据生成)、Qwen2.5-Omni(骨干模型)、A-Flamingo2、R1-AQA、Kimi-Audio(用于ACF评估)、GRPO(训练方法)、DeepSpeed ZeRO-2(优化器)。 开源计划:论文中未提及明确的开源计划。 📌 核心摘要 解决的问题:大型音频语言模型(LALMs)的多阶段后训练(如SFT后接RL)效果不佳,缺乏针对性的高质量数据集,且普遍存在“零音频贡献”现象(模型仅凭文本信息即可答对,无需听音频)。 方法核心:首先构建了大规模音频选择题数据集AudioMCQ(571k样本)。其次,提出音频贡献过滤(ACF)方法,利用多个模型在“静音”输入下的正确率,将数据分为“弱音频贡献”和“强音频贡献”子集。最后,基于此提出两种训练范式:Weak-to-Strong(SFT用弱音频贡献数据,GRPO用强音频贡献数据)和Mixed-to-Strong(SFT用混合数据,GRPO用强音频贡献数据)。 创新性:1) 构建了首个大规模、带思维链注释的音频选择题数据集;2) 系统性地量化并分析了LALMs中的零音频贡献现象及其类型(显式逻辑推理与隐式知识检索);3) 基于音频贡献度提出了简单有效的后训练数据分配策略。 实验结果:使用Weak-to-Strong策略,在MMAU-test-mini和MMAU上分别达到78.2%和75.6%;使用Mixed-to-Strong策略,在MMAR和MMSU上分别达到67.0%和71.7%,均为开源模型SOTA。具体结果见表5及下表: 方法 MMAU-test-mini MMAU MMAR MMSU Weak-to-Strong 78.2% 75.6% 65.3% 69.3% Mixed-to-Strong 76.4% 75.1% 67.0% 71.7% 所有数据 SFT 75.2% 75.0% 64.6% 64.0% 所有数据 GRPO 78.1% 75.4% 63.0% 70.2% GPT4o-Audio (基线) 62.5% 60.8% 63.5% 56.4% 实际意义:为音频大模型后训练提供了可复现的数据构建方案和高效的数据分配策略,揭示了当前评估基准中可能存在的“伪音频理解”问题。 主要局限性:数据集构建完全依赖一个强大的大语言模型(Qwen3-235B),可能引入偏差;ACF方法依赖三个特定的现成模型;Weak-to-Strong范式在MMAR/MMSU上弱于Mixed-to-Strong,表明其普适性有待验证。 🏗️ 模型架构 本文不提出新的模型架构,而是以现有的 Qwen2.5-Omni 作为基础模型进行后训练。其核心贡献在于数据构建与训练策略。因此,其“架构”体现在数据处理与训练流程上。 图1展示了AudioMCQ数据集的构建流程。流程始于多个音频描述/问答数据集,经过问题生成、选择题构建、结构化与非结构化思维链生成,以及最后的质量评分与过滤。这是一个多阶段、依赖LLM的生成与筛选管线,最终产出高质量的选择题数据集。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 284 words

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

📄 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs #基准测试 #模型评估 #多模态模型 #音频问答 #音视频 ✅ 7.8/10 | 前25% | #基准测试 | #模型评估 | #多模态模型 #音频问答 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Caorui Li (南京大学, 东南大学) 通讯作者:Jiaheng Liu (南京大学) 作者列表:Caorui Li (南京大学, 东南大学), Yu Chen (南京大学, 东南大学), Yiyan Ji (南京大学), Jin Xu (阿里巴巴集团), Zhenyu Cui (东南大学), Shihao Li (南京大学), Yuanxing Zhang (快手科技), Zhenghao Song (M-A-P), Dingling Zhang (南京大学), Ying He (北京科技大学), Haoxiang Liu (北京科技大学), Yuxuan Wang (阿里巴巴集团), Qiufeng Wang (东南大学), Jiafu Tang (南京大学), Zhenhe Wu (M-A-P), Jiehui Luo (中央音乐学院), Zhiyu Pan (南京大学), Weihao Xie (华中科技大学), Chenchen Zhang (M-A-P), Zhaohui Wang (南京大学), Jiayi Tian (阿里巴巴集团), Yanghai Wang (南京大学), Zhe Cao (南京大学), Minxin Dai (南京大学), Ke Wang (M-A-P), Runzhe Wen (南京大学), Yinghao Ma (伦敦玛丽女王大学), Yaning Pan (复旦大学), Sungkyun Chang (伦敦玛丽女王大学), Termeh Taheri (伦敦玛丽女王大学), Haiwen Xia (北京大学), Christos Plachouras (伦敦玛丽女王大学), Emmanouil Benetos (伦敦玛丽女王大学), Yizhi Li (曼彻斯特大学), Ge Zhang (M-A-P), Jian Yang (M-A-P), Tianhao Peng (M-A-P), Zili Wang (M-A-P), Minghao Liu (2077AI), Junran Peng (北京科技大学), Zhaoxiang Zhang (中国科学院), Jiaheng Liu (南京大学)。 💡 毒舌点评 这篇论文的亮点在于其极其严谨和“反作弊”的基准设计理念(如强调音视频必须协同、设计原子推理链、多阶段质量过滤),为评估“真·多模态推理”设立了高标准。然而,短板在于其本质是一个“裁判”而非“运动员”——它精准地指出了当前模型的短板(音乐理解差、长视频融合弱),但并未提出任何解决这些问题的新模型或新方法,创新性停留在了评估体系的设计层面。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 292 words

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

📄 OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM #多模态模型 #音视频 #大语言模型 #对比学习 #音频问答 🔥 8.0/10 | 前25% | #音频问答 | #多模态模型 | #音视频 #大语言模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Hanrong Ye(NVIDIA) 通讯作者:Hongxu Yin (§†∗), Pavlo Molchanov (§) (§ Equal Advisory, † Corresponding Authors, 均在NVIDIA) 作者列表:Hanrong Ye(NVIDIA), Chao-Han Huck Yang(NVIDIA), Arushi Goel(NVIDIA), Wei Huang(NVIDIA), Ligeng Zhu(NVIDIA), Yuanhang Su(NVIDIA), Sean Lin(NVIDIA), An-Chieh Cheng(NVIDIA), Zhen Wan(NVIDIA), Jinchuan Tian(NVIDIA), Yuming Lou(NVIDIA), Dong Yang(NVIDIA), Zhijian Liu(NVIDIA), Yukang Chen(NVIDIA), Ambrish Dantrey(NVIDIA), Ehsan Jahangiri(NVIDIA), Sreyan Ghosh(NVIDIA), Daguang Xu(NVIDIA), Ehsan Hosseini-Asl(NVIDIA), Danial Mohseni Taheri(NVIDIA), Vidya Murali(NVIDIA), Sifei Liu(NVIDIA), Yao Lu(NVIDIA), Oluwatobi Olabiyi(NVIDIA), Yu-Chiang Frank Wang(未说明), Rafael Valle(NVIDIA), Bryan Catanzaro(NVIDIA), Andrew Tao(NVIDIA), Song Han(NVIDIA), Jan Kautz(NVIDIA), Hongxu Yin§†∗(NVIDIA), Pavlo Molchanov§(NVIDIA)。所有作者均隶属于NVIDIA。 💡 毒舌点评 这篇论文的亮点在于其对“全模态对齐”问题的系统性工程化拆解:提出的三个模块(OmniAlignNet, TEG, CRTE)在消融实验中表现出清晰的递进效果,且“隐式+显式”数据合成策略为解决稀缺全模态数据提供了一个可复用的思路。短板则在于,作为一篇声称“开源”的旗舰工作,其论文中对模型具体参数、训练超参数(如学习率、优化器设置)、以及核心代码仓库的链接均未明确给出,极大地影响了其声称的可复现性承诺。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 388 words