Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学(Northeastern University, China);上海人工智能实验室(Shanghai Artificial Intelligence Laboratory, China) ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 229 words

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度 中 👥 作者与机构 作者:Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构:首尔大学,索尼集团,索尼AI 💡 毒舌点评 这篇工作像一位认真但略显保守的工程师:它发现了一个重要的问题(音乐LLM缺乏时序定位能力),并搭建了一套完整、系统但不够性感的解决方案(构建基准+提出四阶段训练流程)。优点是踏实、全面,消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻:MusTBench的构建严重依赖自动化的、可能存在噪声的管道(用模型预测边界和情绪),这让人对其“专家验证”的成色打个折扣;提出的MusT训练流程本质上是现有技术(LoRA、时间戳描述、SFT、GRPO)在音乐时序任务上的有序组合,创新性有限。最令人不满的是,对于一篇强调“时序定位”重要性的论文,竟然完全没有提供模型计算开销(训练/推理时间、显存)的数据,这在实际应用中是关键考量。此外,强化学习部分使用的奖励函数设计(指数衰减、软F1)参数(如15秒尺度、σ=15)的选择缺乏理论或充分消融支撑,显得有些“拍脑袋”。总的来说,这是一篇扎实的系统性工作,但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要 本文针对当前大型音频语言模型(LALMs)在音乐理解中缺乏精确时序定位能力的问题,做出了三项贡献:1)识别并明确了“音乐时序定位”这一关键能力缺失;2)提出了MusTBench,一个由音乐专家验证的、包含五个时序定位问答任务的基准;3)提出了MusT,一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程,有效提升了模型的时序定位性能。 🔗 开源详情 代码:论文在摘要结尾提及“Code and benchmark data will be available soon”,但未提供任何具体的代码仓库链接(如GitHub)。 模型权重:论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。 数据集:论文详细描述了“MusTBench”基准的构建过程,但正文中仅指出其数据“will be available soon”,未提供具体的下载链接、托管平台或开源协议。 Demo:论文中未提及。 复现材料:论文在附录(§A.4和§A.5.2)提供了详细的训练配置和超参数表格(Table 11),包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外,附录包含具体的实现细节(如动态采样、损失函数、奖励函数公式)。但这些材料无法替代缺失的代码和数据集。 论文中引用的开源项目: MERT (音频编码器):论文引用 Li et al. (2024),未提供直接项目链接。 LoRA (高效微调):论文引用 Hu et al. (2022),未提供直接项目链接。 Qwen2.5 Omni (基础模型):论文引用 Xu et al. (2025),未提供直接项目链接。 其他工具与数据集:论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集),但均未提供具体版本或获取链接。 🏗️ 方法概述和架构 本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”(MusT encoder)与原有的Qwen音频编码器构成双编码器系统,并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下: ...

2026-05-29 · 更新于 2026-06-12 · 3 min · 447 words

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

📄 Audio-Mind: An Auditable Agentic Framework for Audio Understanding #音频问答 🔥 8.7/10 | 前50% | #音频问答 | #音频问答 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 论文作者包括:Yucheng Wang (南京大学,ETH Zurich),Jing Peng (上海交通大学),Hanqi Li (上海交通大学),Chenghao Wang (西安交通大学),Wenming Tu (上海交通大学),Yu Xi (上海交通大学),Zhaokai Sun (西北工业大学),Kai Yu (上海交通大学),Shuai Wang (南京大学,通讯作者)。机构涵盖南京大学、ETH Zurich、上海交通大学、西安交通大学和西北工业大学。 💡 毒舌点评 本文提出了一个思想清晰、设计工整的音频智能体框架 Audio-Mind,核心立意——在强 LALM 前端下,智能体分解不应是自动改进,而应是“条件证据获取”——抓住了当前多模态智能体研究的一个关键痛点。框架设计如“有界工具接口”、“显式证据状态”等概念有一定启发性,实验也显示了其在特定任务上的优势。然而,作为一篇投向顶会的论文,其贡献深度和实验充分性仍有差距。首先,“条件性”的实证主要通过工具调用数量与难度的相关性来体现,但这更多是设计的结果而非对“何时调用工具更优”这一根本问题的深入建模。其次,实验评估局限于两个基准,且在某些子类别(如空间分析、音频差异分析)上性能下降,暴露了框架的脆弱性,并未展示其普适的优越性。此外,与强基线(Gemini 2.5 Pro)的增益(MMAR: 78.9% -> 80.4%)相对有限,且未提供充分的消融实验来证明每个设计组件(如感知/变换工具分类、证据状态、重听机制)的独立贡献。论文更像是一个集成良好、工程扎实的系统,而非提出根本性新算法或带来突破性性能跃升的工作。 📌 核心摘要 本文提出了 Audio-Mind,一个可审计的、可插拔的音频理解智能体框架。其核心动机是,在强大的大型音频语言模型(LALM)作为前端感知器的背景下,智能体对外部工具的调用不应该是无条件的自动改进,而应是基于具体证据缺口的有条件获取。Audio-Mind 通过一个文本 LLM 规划器和一个共享的“证据状态”来协调工作流程:规划器首先生成感知提示,让前端 LALM 获取初步证据;随后进入证据获取循环,根据当前证据状态和工具的有界能力,决定是调用外部工具、进行针对性重新聆听,还是直接生成答案。工具被明确划分为感知工具和变换工具,并定义了其证据支持边界。最终,基于原始音频和累积证据,由前端生成可审计的最终答案。在 MMAR 和 MSU-Bench 基准测试上,Audio-Mind 在使用匹配骨干模型时,性能优于先前的音频智能体基线(如 AudioGenie-Reasoner)以及直接的 LALM 推理。行为分析表明,其工具调用深度与问题难度相关,且性能优势集中在需要深度证据获取的问题上。此外,Audio-Mind 生成的推理轨迹质量更高,更便于审计和错误分析。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 350 words

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

📄 VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding #多语言 #音频问答 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #多语言 | #模型评估 | arxiv 学术质量 8/7 | 影响力 8/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 论文第一作者为Jashin Ye,通讯作者为Dongxiao Wang。主要研究机构为阿里巴巴的Future Living Lab。论文中注明Jashin Ye与Dongxiao Wang贡献相等。 💡 毒舌点评 这是一篇扎实的“工作”论文,而非“方法”论文。它的主要贡献是填补了一个明确的空白——小时级自然音频理解的基准,这一点值得肯定。然而,其“严苛”评估的基石,即数据构建流水线,本身就深度依赖当前最强的闭源模型(Qwen3.5-Omni, Gemini)来生成字幕和构建QA,这构成了一种方法论上的循环依赖。用你所要评估的“裁判”来训练“题目”,这在某种程度上削弱了基准的独立性和公平性。论文声称是“首个”,但类似BLAB等工作的存在使得这一声明的绝对性需要商榷。此外,仅用准确率评估QA,对于评估“推理过程”和“错误性质”来说过于粗糙。总的来说,它是一个有用的工具,但其设计上的妥协(依赖闭源模型)和评估上的单一性限制了其作为“黄金标准”的价值。 📌 核心摘要 本文提出了VoiceGiraffe,首个面向小时级极端长上下文音频理解的双语问答基准。基准包含123个完整录音(总时长113.1小时),涵盖体育、电竞、影视剧、新闻、播客五大领域,并设计了从单跳感知到多跳推理的两层任务分类体系,共包含1500个高质量问答对。通过对9个开源和4个闭源模型的系统评估,论文揭示了当前大音频语言模型在该任务上的核心瓶颈:小时级理解极具挑战性,最优推理范式因模型而异,且长程记忆持久性是当前模型的显著弱点,表现模式与人类相反。基准测试远未饱和,亟需具备持久记忆机制的新型模型。 🔗 开源详情 代码:论文中未提及开源数据处理或评估代码。 模型权重:论文中未提及开源任何模型权重。 数据集:论文中声明“我们将发布VoiceGiraffe基准以支持未来研究”,但未提供具体的下载链接、托管平台(如Hugging Face)或发布时间表。 Demo:论文中未提及Demo。 复现材料:论文中未提供用于复现数据构建流水线(如提示词、API调用参数)或实验的详细配置。 论文中引用的开源项目:pyannote VAD (Bredin et al., 2020) 用于音频分段。 补充链接(自动提取): 代码仓库:https://github.com/OpenMOSS/MOSS-Audio 🏗️ 方法概述和架构 VoiceGiraffe的核心是一个多阶段、协作式的数据构建流水线(图3),旨在将原始长音频转化为经过验证的QA对。该流水线包含四个主要阶段: 源数据收集与分割:从公共平台收集五个领域的完整长音频,经人工过滤后,使用pyannote VAD将其分割为30-40秒的片段。这一步建立了全局时间锚点,为后续一致的标注奠定基础。 ...

2026-05-28 · 更新于 2026-06-12 · 2 min · 389 words

A Survey of Audio Reasoning in Multimodal Foundation Models

📄 A Survey of Audio Reasoning in Multimodal Foundation Models #音频推理 #音频问答 #多模态模型 #强化学习 #基准测试 #语音对话 ✅ 7.7/10 | 前50% | #音频推理 | #综述 | #音频问答 #多模态模型 | arxiv 学术质量 6.0/7 | 影响力 1.7/2 | 可复现性 0.0/2 | 置信度 高 👥 作者与机构 第一作者:Zhihan Guo(香港中文大学计算机科学与工程系)与Wenqian Cui(香港中文大学计算机科学与工程系)共同一作。 通讯作者:Irwin King(香港中文大学计算机科学与工程系) 作者列表:Zhihan Guo(香港中文大学计算机科学与工程系)、Wenqian Cui(香港中文大学计算机科学与工程系)、Guan-Ting Lin(国立台湾大学通信工程研究所)、Daxin Tan(香港中文大学电子工程系)、Jingyao Li(香港中文大学计算机科学与工程系)、Qiyong Zheng(香港中文大学计算机科学与工程系)、Dingdong Wang(香港中文大学系统工程与工程管理系)、Jing Xiong(香港大学电气与计算机工程系)、Han Shi(华为基础模型部门,香港科技大学计算机科学与工程系)、Jiaya Jia(香港科技大学计算机科学与工程系)、Irwin King(香港中文大学计算机科学与工程系)。 💡 毒舌点评 亮点:作为首篇专注于“音频推理”的系统性综述,它成功地将一个新兴、碎片化但至关重要的领域进行了概念化和结构化。其提出的统一形式化框架和四大范式(音频到文本、音频到语音、音视频、智能体)分类体系,为该领域的研究者提供了极有价值的导航图和共同语言。论文对音频推理独特挑战(如声学接地、延迟权衡)的深刻洞察,直接切中了当前音频AI发展的核心瓶颈。短板:作为一篇旨在定义领域的综述,其在批判性深度上仍有提升空间。部分章节对现有方法的罗列多于剖析,对不同技术路线优劣的对比分析不够系统,且未能就其提出的分类框架和未来方向提供更具体、可操作的技术路径蓝图,削弱了其作为“路线图”的锐度和指导性。 📌 核心摘要 问题:尽管音频基础模型(AFM)发展迅速,但其推理能力(基于声学信号进行多步逻辑推导)仍落后于文本和视觉模型。音频的连续性、时间密集性以及包含语言、副语言和环境信息的多维特性,使其面临独特挑战,如声学-语义对齐、数据稀缺、捷径学习和模态幻觉。 方法核心:本文是一篇系统性综述,核心是构建一个统一的分类和形式化框架。它将音频推理问题统一定义为基于多模态证据的条件生成过程(公式1),并将其划分为四大范式:音频到文本、音频到语音(含实时交互)、音视频推理和智能体音频推理。论文系统梳理了每个范式下的模型架构基础(编码器-投影器-LLM骨干)、训练技术(对齐预训练、SFT、RL)和具体方法。 新在哪里:首次将“音频推理”作为独立核心主题进行专门综述,而非将其作为多模态或语音大模型的附属能力。提出了一个涵盖问题形式化、模型基础、推理范式、评估和未来方向的统一路线图。特别强调了音频推理独有的挑战,如实时交互中的延迟权衡、声学接地的真实性以及捷径学习问题。 主要结果:作为综述论文,本文不提出新模型或新实验结果,而是对现有文献进行归纳总结。关键发现包括:1) CoT在音频推理中的效果并非总是正面(在某些RL训练或复杂任务中可能失效);2) 基于RL的音频推理需要精心设计奖励(准确性、一致性、格式、长度、质量)并解决模态幻觉问题;3) 实时音频到语音推理存在“边听边想”与“边说边想”两类策略,各有延迟与准确性的权衡。论文系统总结了现有工作在MMAU、AVQA等基准上的表现及训练数据构建方法(表III)。 实际意义:为音频/语音领域的研究者提供了清晰的领域全景图和研究方向指引,有助于推动音频推理从简单感知走向复杂认知,对构建能在真实、交互环境中可靠推理的下一代音频AI系统具有重要参考价值。 主要局限性:1) 作为综述,其深度受限于篇幅,对某些复杂方法的剖析可能不够深入;2) 领域发展迅速,综述的时效性面临挑战;3) 主要聚焦于方法学讨论,缺乏对实际部署挑战的深入分析;4) 论文明确指出,其总结的训练数据合成方法存在可靠性存疑的问题(Section IX-A)。 🔗 开源详情 代码:论文中未提及代码链接。本文为综述论文,未提供自身的代码仓库。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 320 words

Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

📄 Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training #音频大模型 #音频问答 #多任务学习 #梯度分析 #训练调度 #分组顺序训练 #收敛分析 ✅ 7.0/10 | 前25% | #音频问答 | #训练调度 | #音频大模型 #多任务学习 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 0.6/2 | 置信度 高 👥 作者与机构 第一作者:Yanru Wu(深圳国际研究生院,清华大学) 通讯作者:Yang Li(深圳国际研究生院,清华大学) 作者列表:Yanru Wu(深圳国际研究生院,清华大学)、Jianning Wang(独立研究者)、Chongxin Gan(香港理工大学)、Yang Li(深圳国际研究生院,清华大学) 💡 毒舌点评 本文亮点在于为ALLM多数据集训练中被忽视的“数据集异质性”问题提供了扎实的理论分析框架(将联邦学习的收敛分析适配到多数据集场景)和实用的工程解决方案(分组顺序训练GST),在14个数据集上实现了30-40%的收敛加速且性能持平,工程价值明确。短板在于:1)理论部分推导了紧的界,但关键异质性常数β和ζ难以估计,削弱了理论的实践指导性;2)实际采用的“渐进式训练”是对理论上严格顺序训练的近似,缺乏相应的理论保证;3)实验仅在一个模型架构(SALMONN-13B)上验证,泛化性存疑;4)方法的核心依赖于初始梯度的离线计算,未探讨动态更新的可能性。 📌 核心摘要 本文针对训练通用音频大语言模型(ALLM)时因多数据集异质性(领域、标注风格差异)导致梯度冲突、收敛缓慢的问题,提出了一种名为“分组顺序训练”(Grouped Sequential Training, GST)的调度框架。 问题:现有ALLM训练普遍采用均匀混合数据(Mix-all),忽略了数据集间的异质性,导致梯度冲突和优化效率低下。 方法核心:GST包含两个关键步骤:1)基于梯度亲和性对数据集聚类分组,以最小化组内异质性;2)采用渐进式调度策略,按组顺序逐步将数据集并入训练池。该方法旨在平衡并行训练(稳定但受异质性拖累)与顺序训练(高效但易遗忘)的优缺点。 新意:从收敛理论角度系统分析了并行、顺序及分组顺序训练的权衡,并将多任务学习中的数据集关系分析从训练后的评估转变为训练循环设计的核心依据。 主要结果:在基于SALMONN-13B模型的14个AudioQA数据集实验中,GST变体(如GST-G3)相比标准并行训练(Mix-all),在完整数据训练中实现了30-40%的收敛加速(从约4天降至约2天),同时保持或略微提升了平均准确率(例如GST-G3加权平均准确率75.0% vs. Mix-all 74.2%)。在低资源微调设置下,GST保持了与Mix-all相当的性能。 实际意义:为大规模ALLM训练提供了一种模型无关、易于部署的高效调度策略,可显著减少计算成本。 主要局限:理论分析中异质性常数β、ζ的实际意义和估计方法未明确;渐进式训练作为严格顺序训练的近似,其理论保证缺失;实验仅在单一架构上验证。 方法 设置 训练时长 (𝒯.ℰ.) 平均准确率 (Avg) 加权平均准确率 (W.Avg) Mix-all 完整数据 ~4d 74.3% 74.2% GST-T2 完整数据 ~2d 75.4% 74.5% GST-G3 完整数据 ~2d 75.2% 75.0% GST-G2 完整数据 ~2d 74.7% 74.6% Sequential 完整数据 ~7d 48.6% 54.3% Mix-all 低资源 ~0.5d 68.7% 63.9% GST-T2 低资源 ~0.5d 69.0% 64.7% GST-G3 低资源 ~1d 69.1% 63.4% GST-G2 低资源 ~0.5d 68.7% 63.5% 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提供模型权重的具体链接。文中提到实验基于开源的SALMONN-13B框架,但未给出其权重获取地址。 数据集:论文中列出了14个AudioQA数据集的名称,但未提供这些数据集的具体下载链接或统一的项目主页。 Demo:论文中未提及。 复现材料:论文在附录A.3中详细提供了训练设置(包括模型架构、优化参数、硬件配置等),但未提供预训练检查点、训练日志等具体的复现材料链接。 论文中引用的开源项目: SALMONN:论文中提及,但未提供其代码或模型仓库链接。 Vicuna:论文中提及,但未提供其代码或模型仓库链接。 LoRA:论文中提及,但未提供其代码或模型仓库链接。 AdamW:论文中提及,但未提供其代码链接。 Whisper:论文中提及,但未提供其代码或模型链接。 BEATs:论文中提及,但未提供其代码或模型链接。 🏗️ 方法概述和架构 本文提出的方法是一个针对多数据集训练优化的调度框架(GST),其核心是一个两阶段流程:离线的数据集聚类分组阶段和在线的渐进式训练执行阶段。该框架旨在修改数据输入模型的顺序与组合方式,而非改变模型本身的结构。 ...

2026-05-21 · 更新于 2026-06-12 · 2 min · 418 words

PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding

📄 PlanRAG-Audio: Planning and Retrieval Augmented Generation for Long-form Audio Understanding #长音频理解 #音频问答 #检索增强生成 #大语言模型 #说话人分离 #情感识别 #声音事件检测 ✅ 7.4/10 | 前50% | #长音频理解 | #检索增强生成 | #音频问答 #大语言模型 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 1.0/2 | 置信度 高 👥 作者与机构 第一作者:Masao Someki (Language Technologies Institute, Carnegie Mellon University) 通讯作者:未说明 作者列表:Masao Someki (Carnegie Mellon University), Chien-yu Huang (Carnegie Mellon University), Siddhant Arora (Carnegie Mellon University), Samuele Cornell (Carnegie Mellon University), Markus Müller (Amazon AGI), Nathan Susanj (Amazon AGI), Rupak V Swaminathan (Amazon AGI), Grant P Strimel (Amazon AGI), Jing Liu (Amazon AGI), Shinji Watanabe (Carnegie Mellon University) 💡 毒舌点评 本文提出了一种将长音频理解重构为结构化检索问题的框架(PlanRAG-Audio),其核心思路——通过显式规划来定位多模态线索——确实清晰且具有启发性。然而,该框架本质上是多个预训练模块的流水线组合,其性能高度依赖于上游感知组件(ASR、SD、ER、SED)的“完美”输出,而论文对此误差传播缺乏深入分析。简单关键词检索与“复杂规划”之间的潜在不匹配问题,虽被实验部分回避,但仍是方法上的一个明显短板。此外,对Gemini长上下文能力的评估受限于API,结论的普适性有待商榷。 ...

2026-05-21 · 更新于 2026-06-12 · 3 min · 511 words

Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training

📄 Heterogeneity-Aware Dataset Scheduling for Efficient Audio Large Language Model Training #音频问答 #训练调度 #多任务学习 #音频大模型 ✅ 7/10 | 前50% | #音频问答 | #训练调度 | #多任务学习 #音频大模型 | arxiv 学术质量 5.9/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Yanru Wu(清华大学深圳国际研究生院) 通讯作者:Yang Li(清华大学深圳国际研究生院) 作者列表:Yanru Wu(清华大学深圳国际研究生院)、Jianning Wang(独立研究者)、Chongxin Gan(香港理工大学)、Yang Li(清华大学深圳国际研究生院) 💡 毒舌点评 本文的亮点在于从收敛性角度对多数据集训练的异质性问题进行了清晰的理论刻画,并据此提出了一个逻辑自洽、易于实施的调度框架(GST),实验也验证了其在加速收敛方面的有效性。然而,其理论分析框架的原创性有限(主要借鉴自联邦学习),且实验规模和模型验证(仅基于SALMONN-13B)相对保守,未能充分展示该方法在更大规模、更多架构上的通用性,使其更像是一篇扎实的“工程优化”工作而非领域突破。论文将渐进式策略作为核心实践,但其理论保证与实际实现存在断层,是一个需要正视的弱点。 📌 核心摘要 问题:训练通用音频大语言模型(ALLMs)时,将语音、音乐、环境声等异构数据集混合训练会导致梯度冲突和收敛缓慢,现有方法(如均匀混合)未有效管理这种异质性。 方法核心:提出分组顺序训练(GST)。首先基于梯度亲和度(或任务亲和度)将数据集聚类为“亲和组”,然后按组顺序引入模型进行训练,并采用渐进式(progressive)扩展训练池的策略以平衡稳定性和效率。 新在哪里:与简单并行或顺序训练不同,GST 在理论和实践上提出了一种在二者之间权衡的调度范式。理论部分将联邦学习的收敛分析适配到多数据集场景,并推导出 GST 的收敛界,证明其优于两个极端。实践上,引入了基于梯度的、可在训练循环中动态计算的亲和度指标。 主要结果:在14个AudioQA数据集上的实验表明,在全数据训练设置下,GST变体(如GST-G3)相比标准并行训练(Mix-all)实现了约30-40%的训练时间缩短(从约4天降至约2天),同时保持或略微提升了平均精度(Avg: 75.2% vs Mix-all 74.3%)。在低资源微调设置下,GST保持了与基线相当的性能。 实际意义:提供了一个模型无关的、可插拔的训练调度策略,能直接加速现有ALLM的训练过程,降低计算成本,对大规模多任务音频模型训练具有实用价值。 局限性:验证局限于单一模型架构(SALMONN);理论分析依赖较强的假设(如强凸、有界异质性);亲和度计算需额外开销;渐进式训练的具体调度策略(如顺序、增长率)仍为启发式。 🔗 开源详情 代码:论文中未提及代码链接。论文描述了实验基于SALMONN框架,并提及使用了Singularity容器平台,但未提供作者自己代码仓库的链接。 模型权重:论文中未提及。论文使用SALMONN-13B作为实验平台,但未提供其自身训练产出的模型权重下载链接。 数据集:论文中提及了14个数据集名称,但未提供整合后的下载链接或开源协议信息。数据集包括:AudioCaps, ChimeHome, Clotho, CochlScene, IEMOCAP, Jamendo, MACS, MusicNet, MusicQA, OpenAQA, PromptSpeech, SoundDescs, TextrolSpeech, WavCaps。论文指出这些数据集已统一为AudioQA格式,具体获取方式需参考各数据集原始来源。 Demo:论文中未提及。 复现材料:论文在附录A.3中提供了详细的训练超参数、硬件配置(如4xA100 GPU)和分布式训练设置。未提供训练检查点或具体代码脚本的直接链接。 论文中引用的开源项目: SALMONN: https://github.com/Tmechway/SALMONN Whisper: https://github.com/openai/whisper BEATs: https://github.com/microsoft/unilm/tree/master/beats Vicuna: https://github.com/lm-sys/FastChat LoRA (参数高效微调技术): 论文提到使用LoRA,该技术官方仓库为 https://github.com/microsoft/LoRA CLIP: https://github.com/openai/CLIP LLaMA (论文提及Vicuna基于此): https://github.com/facebookresearch/llama 其他引用的开源工作(如Pengi, Qwen-Audio, Audio Flamingo)在论文中有提及,但未在此提供统一链接。 🏗️ 方法概述和架构 本文提出的核心方法是分组顺序训练(Grouped Sequential Training, GST),它是一个针对ALLM多数据集训练的调度框架,而非一个新的模型架构。整个流程旨在解决数据集异质性带来的梯度冲突问题,通过智能安排训练数据的引入顺序和方式来加速收敛。 ...

2026-05-20 · 更新于 2026-06-12 · 3 min · 568 words

Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities

📄 Can Large Audio Language Models Ignore Multilingual Distractors? An Evaluation of Their Selective Auditory Attention Capabilities #音频问答 #基准测试 #多语言 #鲁棒性 #语音大模型 ✅ 6.5/10 | 前50% | #音频问答 | #基准测试 | #多语言 #鲁棒性 | arxiv 学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 通讯作者:未说明 作者列表:Heejoon Koo (伊利诺伊大学厄巴纳-香槟分校) 💡 毒舌点评 亮点:论文精准地捕捉到了一个被忽视但至关重要的现实问题——大型音频语言模型(LALMs)在类似鸡尾酒会的环境中面对多语言语义干扰时的选择性注意力缺失。其核心贡献在于设计并应用了一个巧妙的、诊断性强的评估框架(MUSA),首次系统性地量化了这一能力短板,并揭示了“单一设置下的强理解能力并不等于干扰下的鲁棒性”这一关键现象,为模型评估设立了新的维度。 短板:评估框架虽精妙,但构建在TTS合成数据之上,其生态效度存疑。研究止步于揭示问题(模型在干扰下易犯“干扰项干扰”错误),并未对模型自身信息处理机制进行更深层的剖析或提出缓解方案。此外,评估格式(MCQ)和固定的评估提示(源接地提示)限制了结论的普适性,可能测试的是指令遵循能力而非内在的注意力机制。 📌 核心摘要 要解决什么问题:论文旨在评估大型音频语言模型(LALMs)在类似鸡尾酒会的场景中,面对同时播放的、语义相关的多语言干扰对话时,能否选择性地关注并正确理解目标英语对话,从而完成源接地的推理任务。现有评估基准缺乏对这种受干扰的选择性注意力能力的直接测试。 方法核心是什么:论文提出了MUSA(Multilingual Selective Attention)基准。每个测试项包含一个英语目标对话和一个同时播放的、语义相关但语言不同(英语、西班牙语、韩语、中文)的干扰对话,要求模型基于目标对话回答多项选择题(MCQ)。评估在三种递进式设置下进行:“单一”设置(仅目标流)、“分离”设置(使用分离器分离后分别输入模型)、“鸡尾酒会”设置(直接输入混合信号),并在不同信噪比(SNR)下分析性能。 与已有方法相比新在哪里:MUSA填补了现有评估的空白。它不同于专注于转录或分离质量的多说话人ASR/分离基准(如CHiME-6, WSJ0-2mix),也不同于评估单流音频理解的通用LALM基准(如AIR-Bench, AudioBench)或关注声学扰动的信任基准(如AudioTrust)。MUSA首次系统性地评估了LALMs在面对并发的、语义合理的多语言干扰时,进行源接地推理的能力,并引入了证据源诊断分析来归类错误类型。 主要实验结果如何:对六个LALMs的评估表明,单一设置下的高准确率并不能保证在鸡尾酒会设置下的鲁棒性。例如,Gemini-2.0-Flash在单一设置下准确率为0.955,但在0dB SNR的鸡尾酒会设置下骤降至0.242。误差分析显示,在干扰下,大部分错误是“干扰项干扰”(Distractor Interference),即模型错误地基于干扰流进行推理。分离设置虽然减少了声学重叠,但未能解决源归属问题,模型常常自信地输出基于错误流的答案。 模型 单一准确率 分离设置准确率 鸡尾酒会设置准确率 (0dB SNR) Qwen2-Audio 0.773 0.529 0.466 MERaLiON-2 0.757 0.693 0.601 Audio-Flamingo-3 0.908 0.758 0.580 Qwen2.5-Omni 0.650 0.518 0.351 GPT-4o mini Audio 0.772 0.586 0.636 Gemini-2.0-Flash 0.955 0.952 0.242 实际意义是什么:研究结果强调了选择性听觉注意力对于LALMs在真实世界高风险场景(如航空、医疗)中可靠部署的重要性。它揭示了当前模型的一个关键缺陷:它们可能无法正确处理并发信息流,导致推理基于错误来源。这为未来LALMs的设计和训练提供了明确的改进方向——需要将选择性注意力作为首要目标。 主要局限性是什么:主要局限包括:1) 数据集:规模较小(200项)且全部由TTS合成,缺乏自然语音的韵律、说话人变异和真实信道噪声;2) 评估范围:目标仅限于英语对话、双人单声道混合、使用单一的开源分离器(ClearerVoice-Studio),未测试非英语目标、多说话人或更复杂环境;3) 方法不对称性:开源和闭源模型在分离设置下的处理方式不同(分别输入 vs 串联输入),且ECE分析仅限于开源模型;4) 评估格式:多项选择题格式无法评估自由生成中可能出现的跨流信息混合。 🔗 开源详情 代码:论文中未提及具体代码仓库链接。摘要与结论部分提及“Data and code will be released upon publication”,表明代码将在论文发表后开源,但未提供当前可用链接。 模型权重:论文中未提及具体的模型权重下载链接(如HuggingFace/ModelScope)。论文评估了四个开源权重(open-weight)模型(Qwen2-Audio, MERaLiON-2, Audio-Flamingo-3, Qwen2.5-Omni)和两个闭源模型(GPT-4o mini Audio, Gemini-2.0-Flash),但未在论文中提供前者的官方权重链接。 数据集:MUSA数据集。论文中未提及具体的获取链接或开源协议。摘要与结论部分明确表示“Data and code will be released upon publication”。 Demo:论文中未提及在线演示链接。 复现材料:论文中未提及独立的复现指南、训练配置或检查点。论文附录(Appendix B)提供了实验设置、解码参数、提示模板和评估指标的详细信息,这些构成了复现所需的关键材料,但并非独立发布的资源包。 论文中引用的开源项目: ClearerVoice-Studio:一个语音分离工具,在实验中用于分离阶段。论文提供了其引用(Zhao et al. 2025),并给出GitHub链接:https://github.com/X-Perseverance/ClearerVoice-Studio。 multilingual-e5-large:一个多语言嵌入模型,用于计算目标-干扰项语义相似度。论文提供了其引用(Wang et al. 2024),但未在文中给出具体链接。 🏗️ 方法概述和架构 整体流程概述:本文的核心方法是设计并应用一个多阶段的评估框架(MUSA)来系统测试LALMs的选择性注意力能力。流程包括:1)构建包含目标与多语言干扰对话的标准化评估数据集;2)设计三种递进式的评估设置(单一、分离、鸡尾酒会)来隔离不同因素(声学重叠 vs. 源归属混淆);3)在控制变量(SNR、干扰语言、领域)下运行评估,并收集性能指标与错误类型数据,进行诊断分析。 ...

2026-05-19 · 更新于 2026-06-12 · 4 min · 645 words

Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs

📄 Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs #模型评估 #音频问答 #跨模态 #基准测试 #多模态模型 🔥 8.0/10 | 前50% | #模型评估 | #基准测试 | #音频问答 #跨模态 | arxiv 学术质量 6.5/8 | 影响力 1.3/2 | 可复现性 0.9/1 | 置信度 高 👥 作者与机构 第一作者:Nguyen Quang Trung(南洋理工大学,LMMs-Lab) 通讯作者:未说明 作者列表:Nguyen Quang Trung(南洋理工大学,LMMs-Lab),Yiming Gao(南洋理工大学,LMMs-Lab),Fanyi Pu(南洋理工大学,LMMs-Lab),Kaichen Zhang(南洋理工大学,LMMs-Lab),Shuo Sun(约翰霍普金斯大学),Ziwei Liu(南洋理工大学,LMMs-Lab) 💡 毒舌点评 这篇论文精准地定义并量化了全模态LLM中一个核心但被忽视的“感知-行动鸿沟”问题,其IMAVB基准测试的2×2设计堪称教科书式的诊断工具;然而,作为“干预”的PGLA本质上是一个依赖于同一数据集训练探针的诊断性调整,其在真实、开放世界场景中的泛化能力和实际部署价值被高估了,诊断本身很彻底,但治疗方案可能只是止痛药。 📌 核心摘要 要解决什么问题:当全模态大语言模型(LLM)遇到与其自身感官输入(视觉、音频)相矛盾的文本前提时,其失败究竟是源于感知层面(未能检测到矛盾)还是行动层面(检测到了但未能在输出中拒绝)?现有的协同性基准测试无法揭示这种失败模式。 方法核心是什么:论文提出了IMAVB(一个500个电影片段的2×2设计基准测试),通过保持视频和音频不变,仅交换问题文本中的一个前提细节来创建“标准”和“误导性”问题。结合线性探针(分析隐藏状态)和引导对数调整(PGLA,一种推理时干预方法),来诊断模型内部表示与外部行为之间的脱节。 与已有方法相比新在哪里:与现有的跨模态基准测试(如AVHBench)相比,IMAVB使用隐含的虚假前提(而非明确验证提示)、长视频(1-5分钟),并保留所有模态同时竞争注意力。这是首次系统性地将“内部-外部脱节”现象从纯文本LLM扩展到跨模态感知领域,并量化了其模态不对称性(音频接地弱于视觉)。 主要实验结果如何:在8个开源全模态LLM和Gemini 3.1 Pro上,论文发现了显著的“表示-行动鸿沟”:线性探针可以从隐藏状态中以高达86%的准确率解码出误导性前提,但模型的实际拒绝率极低(多数开源模型在音频误导性检测上为0%)。PGLA通过将内部信号反馈至输出,在所有8个开源模型上平均提升了15.0个百分点的平衡准确率。 模型 基线平衡准确率 (%) PGLA后平衡准确率 (%) 提升 (pp) Uni-MoE-2.0-Omni 38.2 57.0 +18.8 MiniCPM-o 2.6 31.6 49.2 +17.6 OLA 37.4 54.9 +17.5 Video-SALMONN-2 38.2 55.1 +16.9 Qwen2.5-Omni 37.5 53.4 +15.9 OmniVinci 38.4 53.0 +14.6 Qwen3-Omni 45.9 57.7 +11.8 Baichuan-Omni-1.5 36.8 43.5 +6.7 平均 38.0 53.0 +15.0 实际意义是什么:研究结果表明,提升全模态LLM的感知接地能力,瓶颈可能不在于更大的编码器或更丰富的表示,而在于训练目标未能将内部检测到的矛盾信号与最终输出对齐。这为未来针对“诚实”或“接地”的训练改进指明了方向。 主要局限性是什么:基准测试局限于电影领域,可能无法推广到所有视频类型;误导性前提是单次细节交换;PGLA的干预是基于同一基准测试数据训练的,其跨域泛化能力未经验证;对商用模型(Gemini)的分析仅限于行为层面,缺乏表示分析。 🔗 开源详情 代码:论文中未提供明确的代码仓库链接。论文中提及“all code will be publicly released”以及“code is included in the supplementary material”,但未给出具体的GitHub等仓库地址。 模型权重:论文中未提及提供预训练或微调的模型权重链接。 数据集:IMAVB数据集。论文中提及一个匿名访问链接:https://huggingface.co/datasets/anonymousneurips/IMAVB。论文还承诺在接收后将与lmms-eval集成并公开发布。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的实验设置、评估协议和实现细节,主要包含在附录中(如Appendix J, L, G)。评估使用了开源框架lmms-eval(链接:https://github.com/EvolvingLMMs-Org/lmms-eval)。所有实验使用温度0、top-p和top-k为1的设置,并报告95%的bootstrap置信区间。开放源代码模型的评估在8块NVIDIA H100 80GB GPU上进行。 论文中引用的开源项目: lmms-eval:开源多模态评估框架。论文中引用为lmms-eval,链接:https://github.com/EvolvingLMMs-Org/lmms-eval。 评估的开源全模态LLM(论文中未提供其官方权重或代码链接,仅列出名称):OLA, OmniVinci, Qwen2.5-Omni, MiniCPM-o 2.6, Uni-MoE-2.0-Omni, Baichuan-Omni-1.5, Video-SALMONN-2, Qwen3-Omni。 商业模型:Gemini 3.1 Pro(通过API评估,未开源)。 数据生成与标注中使用的模型:Qwen3.5-27B, Qwen3-Omni-30B-A3B-Captioner, Qwen3-Omni-30B-A3B-Thinking, GPT-4o(论文中未提供这些模型的具体链接)。 其他方法(论文中提及但未提供实现链接):Inference-Time Intervention (ITI), Representation Engineering (RepE), Visual Contrastive Decoding (VCD), Instruction Contrastive Decoding (ICD), AVCD, Fork-Merge Decoding, OPERA, Self-Introspective Decoding, DoLa。 🏗️ 方法概述和架构 本文的核心方法框架是一个用于诊断和量化全模态LLM中“表示-行动鸿沟”的系统流程,包含基准测试构建、多维度分析与诊断干预三个主要阶段。 ...

2026-05-14 · 更新于 2026-06-12 · 4 min · 720 words