Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation

📄 Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation #音乐生成 #自回归模型 #音频大模型 #预训练 #模型评估 ✅ 7.5/10 | 前25% | #音乐生成 | #自回归模型 | #音频大模型 #预训练 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiafeng Liu (中央音乐学院) 通讯作者:Maosong Sun (清华大学) 作者列表:Jiafeng Liu (中央音乐学院), Yuanliang Dong (中央音乐学院), Hongjia Liu (中央音乐学院), Yuqing Cheng (中央音乐学院), Zhancheng Guo (中央音乐学院), Huijing Liang (中央音乐学院), Wenbo Zhan (中央音乐学院), Yuming Sun (中央音乐学院), Xiaobing Li (中央音乐学院), Feng Yu (中央音乐学院), Maosong Sun (清华大学) 💡 毒舌点评 亮点:大胆摒弃了音乐生成中常见的“语义token+声学解码器”或“扩散模型”的双阶段异构范式,提出并验证了在一个统一的64层RVQ声学token层次中完成从结构到高保真度生成的可能性,这种思路的简洁性和统一性本身就是一个重要的理论贡献。 短板:虽然人类评估结果亮眼,但论文避开了与当前最强开源模型(如MusicGen, Udio等)在标准客观指标(如FAD, CLAP score)上的直接对比,使得“开源最强”的宣称在客观比较维度上显得不够硬核;其核心发现“文本对齐可在纯声学模型中涌现”极度依赖精巧的训练技巧(Task 0),这暗示了纯声学路径的脆弱性,并未真正消解对显式语义建模的需求。 ...

2026-05-05 · 更新于 2026-07-03 · 2 min · 403 words

AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models

📄 AudioTrust: Benchmarking The Multifaceted Trustworthiness of Audio Large Language Models #基准测试 #模型评估 #音频大模型 #鲁棒性 ✅ 7.5/10 | 前25% | #基准测试 | #基准测试 | #模型评估 #音频大模型 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Li(论文中标注为共同第一作者,其机构为清华大学计算机系) 通讯作者:Xinfeng Li(论文中标注为†,其机构为南洋理工大学) 作者列表: Kai Li(清华大学计算机系, Institute for AI, BNRist) Can Shen(北京师范大学-香港浸会大学联合国际学院,BNBU) Yile Liu(早稻田大学,Waseda University) Jirui Han(独立研究者) Kelong Zheng(华中科技大学,HUST) Xuechao Zou(北京交通大学,BJTU) Lionel Z. Wang(未说明具体机构,作者列表归属南洋理工大学) Shun Zhang(清华大学) Xingjian Du(罗切斯特大学) Hanjun Luo(浙江大学) Yingbin Jin(香港理工大学) Xinxin Xing(独立研究者) Ziyang Ma(上海交通大学,及12号单位) Yue Liu(新加坡国立大学) Yifan Zhang(中国科学院,CAS) Junfeng Fang(新加坡国立大学) Kun Wang(南洋理工大学) Yibo Yan(香港科技大学(广州)) Gelei Deng(南洋理工大学) Haoyang Li(香港理工大学) Yiming Li(南洋理工大学) Xiaobin Zhuang(字节跳动) Tianlong Chen(北卡罗来纳大学教堂山分校) Qingsong Wen(松鼠AI学习) Tianwei Zhang(南洋理工大学) Yang Liu(南洋理工大学) Haibo Hu(香港理工大学) Zhizheng Wu(香港中文大学(深圳)) Xiaolin Hu(清华大学计算机系, Institute for AI, BNRist) Eng-Siong Chng(南洋理工大学) Wenyuan Xu(浙江大学) XiaoFeng Wang(南洋理工大学) Wei Dong(南洋理工大学) Xinfeng Li(南洋理工大学) 💡 毒舌点评 本文最大的亮点在于其雄心和系统性:它是第一个为ALLM量身定做可信度评估框架的工作,直指音频模态引入的“非语义”攻击面,如情绪操纵、口音偏见和环境声伪造,这比单纯评估文本安全要深刻得多。然而,其短板也相当明显:作为一个“评估”工作,它严重依赖GPT-4o和Qwen3作为评估器,这本质上是用一个黑箱模型去评判另一个黑箱模型的可信度,其评估结果本身的“可信度”值得打个问号;此外,部分实验(如隐私推断)的自动化评估结果与常识或直觉可能存在偏差(如论文所示,所有模型在隐私推断上几乎全部失败),需要更深入的人类评估来验证。 ...

2026-05-04 · 更新于 2026-07-03 · 3 min · 440 words

AudioX: A Unified Framework for Anything-to-Audio Generation

📄 AudioX: A Unified Framework for Anything-to-Audio Generation #音频生成 #音频大模型 #多模态模型 #扩散模型 #数据集 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音频大模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zeyue Tian (Hong Kong University of Science and Technology) 通讯作者:Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 作者列表:Zeyue Tian (Hong Kong University of Science and Technology), Zhaoyang Liu (Hong Kong University of Science and Technology), Yizhu Jin (Hong Kong University of Science and Technology), Ruibin Yuan (Hong Kong University of Science and Technology), Liumeng Xue (Hong Kong University of Science and Technology), Xu Tan (Independent Researcher), Qifeng Chen (Hong Kong University of Science and Technology), Wei Xue† (Hong Kong University of Science and Technology), Yike Guo† (Hong Kong University of Science and Technology) 💡 毒舌点评 本文的亮点在于构建了一个工程上非常扎实的统一框架,其设计的多模态自适应融合模块(MAF)有效解决了不同模态信号干扰的问题,并且配套构建的IF-caps数据集在质量和规模上都为训练该类模型提供了宝贵资源。短板在于,尽管实验全面,但论文中声称的“任何东西到音频生成”在当前实现中主要限于文本、视频和音频三种条件输入,对于“任何东西”(如图像、草图等)的泛化能力论证不足,更像一个“文本/视频/音频到音频”的强统一模型。 ...

2026-05-04 · 更新于 2026-07-03 · 4 min · 756 words

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频大模型 #强化学习 #音频问答 #多模态模型 #数据集 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #多模态模型 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Daiqing Wu(中国科学院信息工程研究所 IIE, ByteDance中国) 通讯作者:Yangyang Kang(ByteDance中国), Yu Zhou(南开大学 VCIP & TMCC & DISSec) 作者列表: Daiqing Wu(IIE, ByteDance中国, 中国科学院大学) Xuan Zhang(ByteDance中国) Dongbao Yang(IIE) Jiashu Yao(ByteDance中国) Longfei Chen(上海科技大学信息科学与技术学院) Qingsong Liu(ByteDance中国) Sicheng Zhao(清华大学心理学与认知科学系) Can Ma(IIE) Yangyang Kang(浙江大学, ByteDance中国)(带†和‡标注,应为共同通讯或同等贡献) Yu Zhou(南开大学 VCIP & TMCC & DISSec)(带†和‡标注,应为共同通讯或同等贡献) 💡 毒舌点评 这篇论文最亮眼的是提出了一个符合人类认知直觉的“音频交错推理”框架,并用一套从数据生成到训练的完整工程化方案将其落地,实验也做得扎实全面。然而,其性能提升高度依赖于自动合成的训练数据(EAQA),这本质上是用一个强大的“教师”(DeepSeek-R1)的知识来蒸馏模型,而数据生成的“天花板”和潜在偏差可能限制模型的上限;此外,模型当前只能“回放”原始音频片段,无法进行更复杂的音频分析操作(如慢放、滤波),这为未来的扩展留下了空间,但也是当前的局限。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 226 words

EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models

📄 EchoMind: An Interrelated Multi-level Benchmark for Evaluating Empathetic Speech Language Models #基准测试 #语音对话系统 #模型评估 #语音情感识别 #音频大模型 ✅ 7.0/10 | 前25% | #基准测试 | #模型评估 | #语音对话系统 #语音情感识别 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Li Zhou(香港中文大学(深圳)) 通讯作者:Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院),Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 作者列表:Li Zhou(香港中文大学(深圳))、Lutong Yu(香港中文大学(深圳))、You Lyu(香港中文大学(深圳))、Yihang Lin(香港中文大学(深圳))、Zefeng Zhao(香港中文大学(深圳))、Junyi Ao(香港中文大学(深圳))、Yuhao Zhang(香港中文大学(深圳))、Benyou Wang(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院)、Haizhou Li(香港中文大学(深圳)、深圳大数据研究院、深圳湾区研究院) 💡 毒舌点评 这篇论文系统性地构建了首个面向语音大模型共情能力的多层级评估基准,设计框架清晰(理解-推理-对话),并通过控制变量的脚本设计(语义中性+语音风格变化)巧妙隔离了文本与声学信息的贡献,实验全面(覆盖12个主流模型)。然而,作为一项纯评估工作,其核心贡献在于“发现差距”而非“提供解决方案”,且基准本身的构建依赖于现成的语音合成工具(如Doubao TTS、GPT-4o)和人工标注,通用性和抗偏倚能力有待更广泛的验证。 🔗 开源详情 代码:论文中提及项目网站 https://hlt-cuhksz.github.io/EchoMind/,并承诺将提供代码,但未给出具体代码仓库链接。 模型权重:不适用。本论文是评估基准,不提出新模型。 数据集:论文明确表示将公开所有构建的数据(音频文件、元数据、标注协议)。获取方式预计通过上述项目网站。 Demo:论文中未提及在线演示。 复现材料:论文承诺提供复现所需的数据、代码和实验配置。附录(A-C)详细描述了数据集构建、任务设计、评估指标、实验设置(提示模板、人工评估流程)等细节,为复现提供了充分信息。 论文中引用的开源项目:主要依赖以下开源工具/模型进行评估:Audio Flamingo 3 (Goel et al., 2025), DeSTA2.5-Audio (Lu et al., 2025), VITA-Audio (Long et al., 2025), LLaMA-Omni2 (Fang et al., 2025), Baichuan-Omni-1.5 (Li et al., 2025), GLM-4-voice (Zeng et al., 2024), OpenS2S (Wang et al., 2025c), Qwen2.5-Omni-7B (Xu et al., 2025), Kimi-Audio (KimiTeam et al., 2025), Step-Audio (Huang et al., 2025b), EchoX (Zhang et al., 2025), GPT-4o-Audio (OpenAI, 2024)。以及用于评估的指标模型:Qwen3-Embedding-0.6B, emotion2vec, Gemini-2.5-Pro。 📌 核心摘要 要解决的问题:现有的语音大模型(SLM)基准测试往往孤立地评估语言理解、声学识别或对话能力,缺乏对模型整合非词汇声学线索(如韵律、情绪、生理信号)以实现共情对话能力的系统性评估。 方法核心:提出了EchoMind基准,这是一个模拟人类共情对话认知过程的层次化评估框架,包含三个相互关联的任务层级:(1)内容与语音理解;(2)整合推理;(3)共情对话生成。所有任务共享语义中性、无情感线索的对话脚本,并通过控制不同的语音风格(目标、替代、中性)来隔离语音表达本身的影响。 与已有方法相比新在哪里:EchoMind是首个专注于评估SLM共情能力、且任务间具有关联性的多层级基准。其创新点在于:(a) 构建了覆盖3大维度、12个细分类别、39种声学属性的共情导向评估框架;(b) 设计了从感知到推理再到生成的递进式任务链,并确保任务共享上下文以支持跨层级相关性分析;(c) 引入了针对对话生成响应的多维度(文本和音频)评估指标。 主要实验结果:对12个先进SLM的测试表明,即使是SOTA模型(如GPT-4o-Audio)也难以在生成响应中有效利用高表现力的声学线索。例如,在依赖声学线索的文本评估维度“语音信息相关性”(CSpeechRel)上,没有任何模型的平均分超过4分(满分5分)。音频层面的“声乐共情得分”(VES)也普遍较低。模型在“语音风格检测”和“背景声音检测”等理解任务,以及“先行事件推断”和“共情响应选择”等推理任务上表现尤其薄弱。 实际意义:该基准为评估和推动SLM向具备真正情感智能的对话系统发展提供了标准化工具,揭示了当前模型在指令遵循、对自然语音变体的鲁棒性以及有效利用声学线索方面的普遍短板,指明了未来研究方向。 主要局限性:a) 基准构建高度依赖TTS合成语音,虽然提供了人工录制子集进行对比,但合成语音的自然度和表现力可能存在上限;b) 评估主要依赖自动化指标(包括用大模型评分),虽然进行了人工评估验证,但主观评估成本高,难以大规模进行;c) 作为评估工作,其本身并不提出解决模型共情能力不足的新方法。 🏗️ 模型架构 本文提出的EchoMind并非一个AI模型,而是一个评估基准框架。其核心是设计一个模拟人类共情对话认知过程的评估流水线。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 261 words

Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards

📄 Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards #音频问答 #强化学习 #音频大模型 #推理 🔥 8.5/10 | 前10% | #音频问答 | #强化学习 | #音频大模型 #推理 学术质量 8.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校 Siebel 计算与数据科学学院) 通讯作者:未说明 作者列表:Jiajun Fan (伊利诺伊大学厄巴纳-香槟分校),Roger Ren (Amazon),Jingyuan Li (Amazon),Rahul Pandey (Amazon),Prashanth Gurunath Shivakumar (Amazon),Ivan Bulyko (Amazon),Ankur Gandhe (Amazon),Ge Liu (伊利诺伊大学厄巴纳-香槟分校),Yile Gu (Amazon) 💡 毒舌点评 亮点在于系统性地诊断并解决了音频LLM推理的“测试时逆缩放”这一实际且重要的“反直觉”现象,并建立了一套从过程奖励到可扩展能力的完整方法论。短板是其基于GRPO的在线强化学习训练计算成本高昂(需要8块H200训练61小时),且多奖励组件的超参数调节(如α权重)虽经实验验证,但给实际复现增加了一定复杂度。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 261 words

JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models

📄 JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models #音频安全 #基准测试 #音频大模型 #对抗样本 #鲁棒性 🔥 8.0/10 | 前10% | #音频安全 | #基准测试 | #音频大模型 #对抗样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zifan Peng (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 通讯作者:Wenhan Dong (未说明具体单位,但标注为*Corresponding authors),Xinlei He (香港科技大学(广州),State Key Laboratory of Internet Architecture,清华大学) 作者列表:Zifan Peng (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Yule Liu (香港科技大学(广州))、Zhen Sun (香港科技大学(广州))、Mingchen Li (University of North Texas)、Zeren Luo (香港科技大学(广州))、Jingyi Zheng (香港科技大学(广州))、Wenhan Dong (香港科技大学(广州))、Xinlei He (香港科技大学(广州),清华大学State Key Laboratory of Internet Architecture)、Xuechao Wang (香港科技大学(广州))、Yingjie Xue (中国科学技术大学)、Shengmin Xu (福建师范大学)、Xinyi Huang (南京航空航天大学) 💡 毒舌点评 亮点:论文的系统性和工程完备性令人印象深刻,它不仅仅是一个数据集,更是一个集成了多种攻击、防御方法和分析工具的标准化评测平台,为尚处蓝海的音频大模型安全研究立下了第一个重要的坐标。短板:防御策略的探索相对浅尝辄止,仅仅是将视觉语言模型的方法简单适配,未能提出真正针对音频模态(如声学特征扰动)的、更有效的防御机制,使得“提出防御”这一目标打了折扣。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 283 words

Measuring Audio's Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models

📄 Measuring Audio’s Impact on Correctness: Audio-Contribution-Aware Post-Training of Large Audio Language Models #音频问答 #音频大模型 #强化学习 #数据集 #后训练 ✅ 7.5/10 | 前25% | #音频问答 | #强化学习 | #音频大模型 #数据集 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Haolin He(香港中文大学、蚂蚁集团) 通讯作者:Jian Liu(蚂蚁集团), Qiuqiang Kong(香港中文大学) 作者列表:Haolin He(香港中文大学、蚂蚁集团), Xingjian Du(罗切斯特大学), Renhe Sun(蚂蚁集团), Zheqi Dai(香港中文大学), Yujia Xiao(香港中文大学), Mingru Yang(蚂蚁集团), Jiayi Zhou(蚂蚁集团), Xiquan Li(上海交通大学), Zhengxi Liu(香港中文大学), Zining Liang(香港中文大学), Chunyat Wu(香港中文大学), Qianhua He(华南理工大学), Tan Lee(香港中文大学), Xie Chen(上海交通大学), Wei-Long Zheng(上海交通大学), Weiqiang Wang(蚂蚁集团), Mark D Plumbley(伦敦国王学院), Jian Liu(蚂蚁集团), Qiuqiang Kong(香港中文大学) 💡 毒舌点评 亮点:论文敏锐地捕捉并量化了“音频语言模型不听音频”这一核心问题,提出的“音频贡献”度量与过滤方法逻辑自洽,且基于此设计的Weak-to-Strong和Mixed-to-Strong训练范式确实有效,在多个基准上取得了扎实的SOTA结果。 短板:整个框架高度依赖Qwen2.5-Omni作为基座模型验证,其结论在不同架构(如纯编码器-解码器模型)上的泛化性未可知;且“音频贡献”的定义(用静音替换音频)过于粗暴,无法区分解码器是“忽略”了音频还是“错误处理”了音频。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 243 words

Music Flamingo: Scaling Music Understanding in Audio Language Models

📄 Music Flamingo: Scaling Music Understanding in Audio Language Models #音乐理解 #音频大模型 #预训练 #强化学习 #数据集 ✅ 7.5/10 | 前25% | #音乐理解 | #音频大模型 | #预训练 #强化学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Sreyan Ghosh (University of Maryland, College Park & NVIDIA), Arushi Goel (NVIDIA) (论文注明二者同等贡献) 通讯作者:sreyang@umd.edu, arushig@nvidia.com 作者列表:Sreyan Ghosh (University of Maryland, College Park & NVIDIA)、Arushi Goel (NVIDIA)、Lasha Koroshinadze (University of Maryland, College Park)、Sang-gil Lee (NVIDIA)、Zhifeng Kong (NVIDIA)、Joao Felipe Santos (NVIDIA)、Ramani Duraiswami (University of Maryland, College Park)、Dinesh Manocha (University of Maryland, College Park)、Wei Ping (NVIDIA)、Mohammad Shoeybi (NVIDIA)、Bryan Catanzaro (NVIDIA) 💡 毒舌点评 论文的最大亮点是构建了一个覆盖多层次、多文化、带推理链的音乐理解数据集(MF-Skills & MF-Think),并通过GRPO强化学习有效提升了模型的“音乐家式”分析能力,使其输出从“列标签”升级到了“写乐评”。短板在于,尽管数据集声称覆盖多元文化,但模型在对非西方音乐(如印度拉格、非洲节奏)的深层理论分析上仍可能受限于训练数据的偏见,且对复杂乐器特定技法的识别能力有待验证。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 392 words

OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models

📄 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models #音频大模型 #空间音频 #声源定位 #多任务学习 #数据集 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:未说明(论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者) 通讯作者:未说明 作者列表:Subrata Biswas(Worcester Polytechnic Institute电气与计算机工程系)、Mohammad Nur Hossain Khan(Worcester Polytechnic Institute电气与计算机工程系)、Bashima Islam(Worcester Polytechnic Institute电气与计算机工程系) 💡 毒舌点评 这篇论文为音频大模型装上了“空间几何眼睛”,通过“模拟训练-纯音频推理”的巧思和详实的课程学习,确实把空间定位和推理精度提升了一个台阶;但美中不足的是,其所有辉煌战绩(包括新建的百万级数据集)均建立在精心构建的合成世界里,在真实嘈杂、反射复杂的声学环境中,这套“几何内功”的实战效果还有待“出关”检验。 🔗 开源详情 代码:论文明确提供代码仓库链接:https://github.com/BASHLab/OWL。表明将在该仓库发布代码。 模型权重:未明确提及是否公开预训练模型权重,但根据“our dataset and code are available”的表述,模型权重可能包含在开源计划内。 数据集:论文明确表示将发布BiDepth数据集(“we construct and release BiDepth”),包含约110万QA对。 Demo:未提及在线演示。 复现材料:附录提供了完整的训练超参数(表10,表11)、特征提取公式(B.1)、模型架构细节(B.2, B.3)和数据集生成细节(A节),复现指引非常充分。 论文中引用的开源项目:依赖SoundSpaces v2.0和Matterport3D进行模拟;音频编码器初始化自AudioMAE;语言模型使用LLaMA-2-7B;投影模块参考Q-Former;微调使用LoRA。 📌 核心摘要 要解决什么问题:现有的音频大语言模型(ALLMs)在空间推理方面能力薄弱,主要依赖粗糙的双耳线索和单步推理,导致在声源方向(DoA)和距离估计上精度不足,且推理过程缺乏可解释性。 方法核心是什么:提出OWL框架,其核心是创新的几何感知音频编码器SAGE。SAGE在训练时利用全景深度图和模拟房间脉冲响应(RIR)作为监督信号,让编码器学会将声学特征与3D空间几何结构对齐,但在推理时只需音频输入。OWL进一步将SAGE与空间接地的链式思维(CoT) 推理相结合,支持从感知到多步推理的课程学习。 与已有方法相比新在哪里:首次将显式的几何监督(通过RIR预测任务)引入音频编码器训练;构建了首个大规模(约110万QA对)耦合双耳音频、RIR和深度图的数据集BiDepth用于几何感知训练;引入了针对音频空间推理的多阶段课程学习和CoT监督机制,使模型能生成可解释的推理路径。 主要实验结果如何:在BiDepth和SpatialSoundQA两个基准上,OWL显著超越了现有方法。SAGE相比SOTA(Spatial-AST),在BiDepth数据集上平均角度误差(MAE)降低25.52%,距离错误率(DER)降低31.34%。OWL相比BAT,在BiDepth上的空间推理二分类准确率(BA)提升24.9%(77.89% vs. 69.46%),在SpatialSoundQA上的推理平均准确率达79.06%(BAT为76.89%)。OWL在真实世界音频场景分类和声源定位任务上也展现出良好的泛化能力。 实际意义是什么:该工作推动了音频大模型从“听到什么”向“声音在哪里、如何关联”的空间理解迈进,为构建更接近人类听觉感知的智能系统(如机器人、智能家居助手、助听设备)提供了关键技术组件和评估基准。 主要局限性是什么:训练和评估严重依赖合成数据(BiDepth),而真实世界声学环境更为复杂多变,模型的鲁棒性有待验证;目前的推理任务限于单轮问答,尚未扩展到多轮对话式空间推理;几何监督依赖于预先生成的深度图和RIR,限制了其在完全未知环境中的应用。 🏗️ 模型架构 OWL是一个完整的空间音频问答系统,其架构(如图4所示)由三个主要部分串联而成,旨在将原始双耳波形转化为带有空间推理的文本输出。 ...

2026-05-04 · 更新于 2026-07-03 · 2 min · 326 words