音频问答 | 语音/音乐/音频论文速递

ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models

📄 ALM2Vec: Learning Audio Embeddings for Universal Audio Retrieval with Large Audio-Language Models #音频问答 #对比学习 #参数高效微调 7.4/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7.4/10 | 前50% | #音频检索 | #对比学习 | #音频问答 #参数高效微调 | arxiv 👥 作者与机构论文作者为Fengjie Lu, Chenang Jiang, Jiarui Hai, Helin Wang, Aaron Yee，分别来自浙江大学和约翰斯·霍普金斯大学。 💡 毒舌点评这篇论文更像是一个工程上“有效”的系统构建报告，而非一篇贡献突出的学术研究。其核心思想——将一个强大的音频语言模型转换为嵌入模型——在直觉上合理，但缺乏令人信服的“为什么这样做以及为什么是这样”的深度分析。论文在方法论上缺乏关键设计选择的消融实验（例如，为什么用[EOS]？LoRA适配是否最优？），在评估上未能充分量化其宣称的“可控性”，在局限性探讨上流于表面。整体上，它更像一篇扎实的硕士论文或技术报告，其方法论创新和实验分析的深度尚未达到顶会所期望的水平。 📌 核心摘要本文提出了ALM2Vec，一个从预训练大型音频语言模型（ALLM，具体为MiDashengLM）衍生而来的通用音频嵌入框架。该框架旨在将ALLM在大规模多模态训练中获得的音频理解、指令遵循和推理能力，转化为支持跨音频领域（如音效、语音、音乐）、跨任务类型（检索、问答）且可指令控制的统一嵌入空间。模型使用ALLM的[EOS] token隐藏状态作为全局表示，并通过双向对比学习进行训练。实验表明，ALM2Vec在标准音频和语音检索基准上性能与强基线（如CLAP）相当或更优，在指令条件音频问答（MMAU-Mini）上也能与一些大型音频语言模型竞争，尽管微调后性能略有下降。定性案例展示了其根据指令检索音频特定属性的能力。 ...

AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries?

📄 AOR-Bench: Do Large Audio Language Models Over-Refuse Pseudo-Harmful Queries? #语音识别 #音频问答 #多模态模型 7.9/10 | 创新 1.8/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.9/10 | 前50% | #音频问答 | #语音识别 | #多模态模型 | arxiv 👥 作者与机构 Jiaxi Yang, Chaewan Chun, Jason Lucas, Yuchen Yang, Dongwon Lee Penn State University 💡 毒舌点评优点：精准切中了多模态大模型安全对齐领域的一个新兴盲点——音频模态下的“过度拒绝”。作为首个专门为此设计的基准，AOR-Bench的提出本身就具有显著的开创性和实用价值，填补了从文本到视觉再到音频的过度拒绝研究链条中缺失的一环。论文的实验设计覆盖了主流的闭源与开源模型，发现（尤其是系统提示的影响）也具有启发性。缺点：研究的深度和严谨性未能完全匹配其开创性的标题。基准构建流程存在明显的“合成痕迹”，依赖Sora-2生成视频再提取音频，其产生的背景音与真实世界复杂声学环境的生态效度（ecological validity）存疑，可能使得实验结论过于“干净”。方法论上，核心指标MB-Score将TRR（在独立有害样本上测试）与ORR（在伪有害样本上测试）进行调和平均，但这两类测试集并非严格的配对对比，其组合的意义需要更仔细的论证。此外，缓解策略（链式思考和激活引导）的实验规模过小（仅3个模型），且激活引导的结果实际显示了安全性能的下降，论文对此的解读略显乐观。整体而言，这是一篇扎实的“开坑”之作，但在方法论创新和结论的坚实程度上，距离顶会的最高标准仍有差距。 📌 核心摘要本文首次提出了针对大型音频语言模型（LALMs）过度拒绝问题的专用基准AOR-Bench。该基准的核心在于构造“伪有害”音频：其语音内容在脱离背景时听起来有害，但结合背景音轨（如应急响应、游戏场景）后，意图则为良善。通过在12个LALMs上进行评估，研究发现过度拒绝现象普遍存在，且模型未能充分理解背景语义。此外，系统提示对拒绝行为有显著影响。论文初步探索了链式思考和激活引导两种缓解方法，为改善模型安全对齐提供了方向。 ...

Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering

📄 Learning from Audio-Dependency Errors: Data Curation Strategies Based on Model Confusion Patterns in Audio Question Answering #音频问答 #大语言模型 #参数高效微调 6.9/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.5/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.9/10 | 前50% | #音频问答 | #参数高效微调 | #大语言模型 | arxiv 👥 作者与机构未提及 💡 毒舌点评这篇论文像是给DCASE竞赛交了一份很认真的“赛后总结报告”。作者很诚实，把所有试过的、没用的方法都列出来了（比如各种RL和CoT），这种开源精神值得点赞。但问题是，核心创新点——用反事实输入给数据“分桶”——更像是一个精心设计的工程trick，而非一个能推广的理论。性能从65.9%提到67.3%，在绝对数字上提升甚微，很难让人兴奋。论文花大量篇幅描述各种“失败实验”，固然体现了严谨，但也暴露了主方法在提升上限上的无力。它更像证明了“做减法比做加法更有用”，而不是提供了一个强大的新武器。对于追求突破性进展的顶会来说，这个贡献的“甜度”不够。 📌 核心摘要本文针对音频问答任务，提出一种基于诊断数据整理的微调策略。核心思想是，先利用一个强大的基础模型（Qwen3-Omni）在“正常”、“空音频”和“乱序音频”三种条件下对训练样本进行探针测试，根据模型在不同条件下的正确性模式（\(N, E, S\)），将样本分为“强音频依赖”、“文本先验”、“困难样本”等类别。作者发现，仅使用“强音频依赖”样本（即正常条件下正确，但空音频和乱序音频条件下均失败）进行监督微调，能最有效地提升模型对音频证据的依赖性。进一步，通过加入少量（如5%）的“空音频负样本”（目标回答为“无法确定”）来抑制模型的无根据猜测。最终，该策略在ADQA-Bench开发集上取得了优于基线的准确率。 🔗 开源详情代码：训练和评估代码计划发布于：https://github.com/frednam93/adqa_nam 模型权重：论文中未提及具体模型权重链接（论文使用了 Qwen3-Omni-30B-A3B-Instruct 和 Gemma-4-E4B-it，但未提供其下载链接）。数据集：论文中提及 ADQA-Bench 数据集（DCASE 2026 Task 5），但未提供具体获取链接。 Demo：论文中未提及。复现材料：论文中提供了详细的微调训练配置（基于 LLaMA-Factory，使用 4-bit bitsandbytes 量化和 LoRA），包括具体的超参数设置、训练数据构建变体（如 “Strong”、“Strong+empty 5%” 等）及其比例，以及提交的四个候选系统的详细描述。论文中引用的开源项目： LLaMA-Factory：用于微调（论文引用[15]）。 bitsandbytes：用于 4-bit 量化（论文引用[15]）。 LoRA：用于参数高效微调（论文引用[8]）。 Gemma-4-E4B-it：作为三模型集成的响应正常化器使用。 SimPO：作为偏好优化目标之一进行评估（论文引用[9]）。 DPO：作为偏好优化目标之一进行评估（论文引用[12]）。 GRPO：作为强化学习目标之一进行评估（论文引用[13]）。 DAPO (lite)：作为强化学习目标之一进行评估（论文引用[14]）。 FunAudioChat：作为基线模型之一进行评估（论文引用[2, 1]）。 AudioFlamingo3：作为基线模型之一进行评估（论文引用[5]）。 🏗️ 方法概述和架构本文方法的核心是一个基于模型行为的数据整理与微调流程，主要分为诊断分析、数据选择、微调和推理后处理四个阶段。 ...

EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning

📄 EChO-Agent: Evidence Chain Orchestration Agent for Audio Reasoning #音频问答 #语音识别 #音频事件检测 #音乐信息检索 #多模态模型 #大语言模型 6.1/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.1/10 | 前50% | #音频问答 | #语音识别 | #音频事件检测 #音乐信息检索 | arxiv 👥 作者与机构作者：Siyuan Zhang, Jian Zong, Junyu Wang, Peiyuan Jiang, Jiahao Yan, Jingyu Zhang, Tianrui Wang, Xiaobao Wang, Longbiao Wang, Jianwu Dang 机构：School of Artificial Intelligence, Tianjin University, Tianjin, China 💡 毒舌点评这篇文章提出了一个听起来很厉害的“证据链编排”框架来解决音频推理问题，思路清晰，系统设计也算完整。但作为一名顶会审稿人，我必须指出几个硬伤：首先，创新性有限，所谓的“证据整合”本质上是用另一个LLM（DeepSeek-V3）来摘要和过滤工具输出，这更像是工程上的Pipeline优化，而非原理上的突破。其次，整个框架严重依赖两个闭源的大型商业模型（DeepSeek-V3 和 Qwen-3-Omni-Instruct），这使得结果的独立性和可复现性大打折扣，更像是在为这些模型做能力演示。实验方面，只在一个基准（MMAR）上测试，且报告的提升幅度（+2.3%准确率，+4.3评分）在绝对值上并不算惊人，尤其是在没有与其他顶尖智能体方法（如文中提到的AudioRAG）进行直接对比的情况下。消融实验虽然做了，但“w/o Observation”和“w/o Evidence Integration”的巨大差距说明，脱离了特定的工具和外部LLM，这个框架本身可能非常脆弱。最后，代码完全未开源，这极大地限制了其在研究社区中的影响力和可复现性。总的来说，这是一个扎实的系统工程工作，但离顶会论文所要求的理论深度和实验说服力还有距离。 ...

AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models

📄 AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models #音频问答 #大语言模型 7.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.3/10 | 前50% | #音频问答 | #大语言模型 | arxiv 👥 作者与机构作者：Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Xie Chen, Hengzhu Liu, Kele Xu 机构：国防科技大学计算机学院（Hui Geng, Yi Su, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Kele Xu）；韩国科学技术院（KAIST）（Han Yin）；上海交通大学（Xie Chen） ...

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

📄 Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources #空间音频 #音频问答 #数据集 6.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前25% | #音频问答 | #空间音频 | #数据集 | arxiv 👥 作者与机构作者：Oh Hyun-Bin (POSTECH), Kazuki Shimada (Sony AI), Yuhta Takida (Sony AI), Kim Sung-Bin (POSTECH), Toshimitsu Uesaka (Sony AI), Takashi Shibuya (Sony AI), Kyeongyoon Lee (Sungkyunkwan University), Tae-Hyun Oh (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 机构：POSTECH， Sony AI， Sony Group Corporation， Sungkyunkwan University， KAIST ...

Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models

📄 Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models #音频问答 #多模态模型 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | #音频问答 | #多模态模型 | arxiv 👥 作者与机构 Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang 东北大学（Northeastern University, China）；上海人工智能实验室（Shanghai Artificial Intelligence Laboratory, China） ...

MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs

📄 MusTBENCH: Benchmarking and Advancing Temporal Grounding in Music LLMs #音乐生成 #音频问答 #强化学习 #多模态模型 #参数高效微调 ✅ 7.5/10 | 前50% | #音乐生成 | #强化学习 | #音频问答 #多模态模型 | arxiv 学术质量 4.9/7 | 影响力 1.8/2 | 可复现性 0.8/2 | 置信度中 👥 作者与机构作者：Daeyoung Kwon, Qiyu Wu, Shinobu Kuriya, Junghyun Koo, Shuyang Cui, Zhi Zhong, Wei-Hsiang Liao, Hiromi Wakaki, Yuki Mitsufuji 机构：首尔大学，索尼集团，索尼AI 💡 毒舌点评这篇工作像一位认真但略显保守的工程师：它发现了一个重要的问题（音乐LLM缺乏时序定位能力），并搭建了一套完整、系统但不够性感的解决方案（构建基准+提出四阶段训练流程）。优点是踏实、全面，消融实验做得像实验报告一样工整。缺点是缺乏令人眼前一亮的“啊哈”时刻：MusTBench的构建严重依赖自动化的、可能存在噪声的管道（用模型预测边界和情绪），这让人对其“专家验证”的成色打个折扣；提出的MusT训练流程本质上是现有技术（LoRA、时间戳描述、SFT、GRPO）在音乐时序任务上的有序组合，创新性有限。最令人不满的是，对于一篇强调“时序定位”重要性的论文，竟然完全没有提供模型计算开销（训练/推理时间、显存）的数据，这在实际应用中是关键考量。此外，强化学习部分使用的奖励函数设计（指数衰减、软F1）参数（如15秒尺度、σ=15）的选择缺乏理论或充分消融支撑，显得有些“拍脑袋”。总的来说，这是一篇扎实的系统性工作，但未能将问题的重要性与解决方案的独创性匹配起来。 📌 核心摘要本文针对当前大型音频语言模型（LALMs）在音乐理解中缺乏精确时序定位能力的问题，做出了三项贡献：1）识别并明确了“音乐时序定位”这一关键能力缺失；2）提出了MusTBench，一个由音乐专家验证的、包含五个时序定位问答任务的基准；3）提出了MusT，一个包含编码器适应、LLM适应、监督微调和强化学习优化的四阶段训练流程，有效提升了模型的时序定位性能。 🔗 开源详情代码：论文在摘要结尾提及“Code and benchmark data will be available soon”，但未提供任何具体的代码仓库链接（如GitHub）。模型权重：论文未提及任何已发布的模型权重下载链接或HuggingFace/ModelScope页面。数据集：论文详细描述了“MusTBench”基准的构建过程，但正文中仅指出其数据“will be available soon”，未提供具体的下载链接、托管平台或开源协议。 Demo：论文中未提及。复现材料：论文在附录（§A.4和§A.5.2）提供了详细的训练配置和超参数表格（Table 11），包括各阶段的学习率、批大小、训练数据量、LoRA设置等。此外，附录包含具体的实现细节（如动态采样、损失函数、奖励函数公式）。但这些材料无法替代缺失的代码和数据集。论文中引用的开源项目： MERT (音频编码器)：论文引用 Li et al. (2024)，未提供直接项目链接。 LoRA (高效微调)：论文引用 Hu et al. (2022)，未提供直接项目链接。 Qwen2.5 Omni (基础模型)：论文引用 Xu et al. (2025)，未提供直接项目链接。其他工具与数据集：论文提及使用了 librosa, madmom, Essentia (音频分析库)以及 Slakh2100, MTG-Jamendo, OpenMIC-2018, MusicCaps (数据集)，但均未提供具体版本或获取链接。 🏗️ 方法概述和架构本文提出的MusT模型是基于Qwen2.5 Omni架构的扩展。其核心设计是引入了一个新的“时序感知音乐编码器”（MusT encoder）与原有的Qwen音频编码器构成双编码器系统，并通过一个四阶段训练流程来系统性地增强模型的时序定位能力。架构与流程如下： ...

Audio-Mind: An Auditable Agentic Framework for Audio Understanding

📄 Audio-Mind: An Auditable Agentic Framework for Audio Understanding #音频问答 🔥 8.7/10 | 前50% | #音频问答 | #音频问答 | arxiv 学术质量 5.7/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度高 👥 作者与机构论文作者包括：Yucheng Wang (南京大学，ETH Zurich)，Jing Peng (上海交通大学)，Hanqi Li (上海交通大学)，Chenghao Wang (西安交通大学)，Wenming Tu (上海交通大学)，Yu Xi (上海交通大学)，Zhaokai Sun (西北工业大学)，Kai Yu (上海交通大学)，Shuai Wang (南京大学，通讯作者)。机构涵盖南京大学、ETH Zurich、上海交通大学、西安交通大学和西北工业大学。 💡 毒舌点评本文提出了一个思想清晰、设计工整的音频智能体框架 Audio-Mind，核心立意——在强 LALM 前端下，智能体分解不应是自动改进，而应是“条件证据获取”——抓住了当前多模态智能体研究的一个关键痛点。框架设计如“有界工具接口”、“显式证据状态”等概念有一定启发性，实验也显示了其在特定任务上的优势。然而，作为一篇投向顶会的论文，其贡献深度和实验充分性仍有差距。首先，“条件性”的实证主要通过工具调用数量与难度的相关性来体现，但这更多是设计的结果而非对“何时调用工具更优”这一根本问题的深入建模。其次，实验评估局限于两个基准，且在某些子类别（如空间分析、音频差异分析）上性能下降，暴露了框架的脆弱性，并未展示其普适的优越性。此外，与强基线（Gemini 2.5 Pro）的增益（MMAR: 78.9% -> 80.4%）相对有限，且未提供充分的消融实验来证明每个设计组件（如感知/变换工具分类、证据状态、重听机制）的独立贡献。论文更像是一个集成良好、工程扎实的系统，而非提出根本性新算法或带来突破性性能跃升的工作。 📌 核心摘要本文提出了 Audio-Mind，一个可审计的、可插拔的音频理解智能体框架。其核心动机是，在强大的大型音频语言模型（LALM）作为前端感知器的背景下，智能体对外部工具的调用不应该是无条件的自动改进，而应是基于具体证据缺口的有条件获取。Audio-Mind 通过一个文本 LLM 规划器和一个共享的“证据状态”来协调工作流程：规划器首先生成感知提示，让前端 LALM 获取初步证据；随后进入证据获取循环，根据当前证据状态和工具的有界能力，决定是调用外部工具、进行针对性重新聆听，还是直接生成答案。工具被明确划分为感知工具和变换工具，并定义了其证据支持边界。最终，基于原始音频和累积证据，由前端生成可审计的最终答案。在 MMAR 和 MSU-Bench 基准测试上，Audio-Mind 在使用匹配骨干模型时，性能优于先前的音频智能体基线（如 AudioGenie-Reasoner）以及直接的 LALM 推理。行为分析表明，其工具调用深度与问题难度相关，且性能优势集中在需要深度证据获取的问题上。此外，Audio-Mind 生成的推理轨迹质量更高，更便于审计和错误分析。 ...

VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding

📄 VoiceGiraffe: A Benchmark for Extreme Long-Context Audio-Language Understanding #多语言 #音频问答 #模型评估 ✅ 7.0/10 | 前25% | #音频问答 | #多语言 | #模型评估 | arxiv 学术质量 8/7 | 影响力 8/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构论文第一作者为Jashin Ye，通讯作者为Dongxiao Wang。主要研究机构为阿里巴巴的Future Living Lab。论文中注明Jashin Ye与Dongxiao Wang贡献相等。 💡 毒舌点评这是一篇扎实的“工作”论文，而非“方法”论文。它的主要贡献是填补了一个明确的空白——小时级自然音频理解的基准，这一点值得肯定。然而，其“严苛”评估的基石，即数据构建流水线，本身就深度依赖当前最强的闭源模型（Qwen3.5-Omni， Gemini）来生成字幕和构建QA，这构成了一种方法论上的循环依赖。用你所要评估的“裁判”来训练“题目”，这在某种程度上削弱了基准的独立性和公平性。论文声称是“首个”，但类似BLAB等工作的存在使得这一声明的绝对性需要商榷。此外，仅用准确率评估QA，对于评估“推理过程”和“错误性质”来说过于粗糙。总的来说，它是一个有用的工具，但其设计上的妥协（依赖闭源模型）和评估上的单一性限制了其作为“黄金标准”的价值。 📌 核心摘要本文提出了VoiceGiraffe，首个面向小时级极端长上下文音频理解的双语问答基准。基准包含123个完整录音（总时长113.1小时），涵盖体育、电竞、影视剧、新闻、播客五大领域，并设计了从单跳感知到多跳推理的两层任务分类体系，共包含1500个高质量问答对。通过对9个开源和4个闭源模型的系统评估，论文揭示了当前大音频语言模型在该任务上的核心瓶颈：小时级理解极具挑战性，最优推理范式因模型而异，且长程记忆持久性是当前模型的显著弱点，表现模式与人类相反。基准测试远未饱和，亟需具备持久记忆机制的新型模型。 🔗 开源详情代码：论文中未提及开源数据处理或评估代码。模型权重：论文中未提及开源任何模型权重。数据集：论文中声明“我们将发布VoiceGiraffe基准以支持未来研究”，但未提供具体的下载链接、托管平台（如Hugging Face）或发布时间表。 Demo：论文中未提及Demo。复现材料：论文中未提供用于复现数据构建流水线（如提示词、API调用参数）或实验的详细配置。论文中引用的开源项目：pyannote VAD (Bredin et al., 2020) 用于音频分段。补充链接（自动提取）：代码仓库：https://github.com/OpenMOSS/MOSS-Audio 🏗️ 方法概述和架构 VoiceGiraffe的核心是一个多阶段、协作式的数据构建流水线（图3），旨在将原始长音频转化为经过验证的QA对。该流水线包含四个主要阶段：源数据收集与分割：从公共平台收集五个领域的完整长音频，经人工过滤后，使用pyannote VAD将其分割为30-40秒的片段。这一步建立了全局时间锚点，为后续一致的标注奠定基础。 ...