音频场景理解

A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources

📄 A conceptual framework for learning to listen by reward: Curiosity-driven search for novel sources #声源定位 #强化学习 #音频场景理解 📝 5/10 | 前50% | #声源定位 | #强化学习 | #音频场景理解 | arxiv 学术质量 4.2/8 | 影响力 0.5/1 | 可复现性 0.3/1 | 置信度高 👥 作者与机构第一作者：Andreas Triantafyllopoulos（Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning）通讯作者：论文中未明确标注通讯作者，但第一作者邮箱为 andreas.triantafyllopoulos@tum.de。作者列表： Andreas Triantafyllopoulos（Technical University of Munich, Chair of Health Informatics; MCML – Munich Center for Machine Learning） Jakub Šťastný（CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning） Alexios Terpinas（CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning） Tianyi Liu（CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning） Yuanqi Wang（CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning） Björn W. Schuller（CHI – Chair of Health Informatics, Technical University of Munich; MCML – Munich Center for Machine Learning; MDSI – Munich Data Science Institute; GLAM – Group on Language, Audio, & Music, Imperial College, London, UK） 💡 毒舌点评本文提出了一个清晰且符合直觉的“通过奖励倾听”的RL概念框架，为将强化学习引入音频领域提供了一个系统的思路和理论讨论。然而，作为一篇定位为“概念框架”的论文，其核心缺陷在于，支撑这一宏大愿景的“概念验证”实验过于初级和简化（单个静态声源、极小的网格世界），与论文引言中提及的“通用音频基础模型”的远景之间存在巨大鸿沟。论文未能充分证明该框架在面对更复杂、更真实的音频挑战时的有效性和扩展潜力，使其更像一篇“路线图”或研究呼吁，而非一个完整的技术贡献。 ...

Benchmarking LLMs on the Massive Sound Embedding Benchmark (MSEB)

📄 Benchmarking LLMs on the Massive Sound Embedding Benchmark (MSEB) #音频大模型 #音频分类 #音频场景理解 #模型评估 #大语言模型 ✅ 7.0/10 | 前50% | #音频分类 | #模型评估 | #音频大模型 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Cyril Allauzen（未说明机构）通讯作者：未说明作者列表：Cyril Allauzen（未说明）、Tom Bagby（未说明）、Georg Heigold（未说明）、Ehsan Variani（未说明）、Ke Wu（未说明） 💡 毒舌点评本文作为一篇系统性的基准测试论文，其亮点在于直面当前最热的“音频原生大模型”与传统“级联管道”的路线之争，利用权威的MSEB基准提供了宝贵的实证数据。然而，其主要短板在于结论略显保守和模糊——“最优方案不明确”虽然是事实，但对于寻求具体指导的研究者而言，这更像一个起点而非答案，且论文在提出新的评估范式或更精细的误差分析上似乎着墨不多。 📌 核心摘要问题：随着能够处理音频的“音频原生”大语言模型（LLM）兴起，学术界和工业界面临一个关键选择：是用一个统一的多模态骨干网络取代以往复杂的、针对特定任务设计的音频处理流水线，还是继续沿用级联架构？目前缺乏系统性评估来指导这一架构决策。方法：本文采用严格的经验性评估方法，在“大规模声音嵌入基准”（MSEB）的八项核心能力上，对来自Gemini和GPT系列的领先LLM进行测试，旨在量化评估其音频理解与处理效能，并检验其相对于传统专用编码器的“音频-文本对等性”。新意：相比于早期针对特定编码器的评估，本文的新意在于将评估焦点转向新兴的、基于LLM的通用音频模型，并在同一基准下进行了大规模、多模型的横向对比。主要结果：论文指出，尽管LLM展示了潜力，但在性能和鲁棒性上仍存在显著的“模态差距”（摘要中未提供具体数值或表格）。实验证据未能支持任何一种建模范式（音频原生 vs. 级联）具有绝对优势。意义：为音频处理系统的架构选择提供了基于经验的参考。其结论强调，最优选择高度依赖于具体应用场景对延迟、成本、推理深度等的不同要求，有助于避免“一刀切”的技术路线讨论。局限：核心结论（“最优方案不明确”）缺乏更强的结论性，可能无法给读者提供明确的行动指南。此外，评估的全面性（如是否覆盖所有典型音频任务、是否考虑了不同参数规模模型的表现）在摘要中未完全体现。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及数据集：论文中未提及（论文评估的MSEB基准测试本身为引用的第三方基准） Demo：论文中未提及复现材料：论文中未提及论文中引用的开源项目：未提及 🏗️ 模型架构本文为评估性论文，核心在于评估多个已有的模型，而非提出新架构。因此，论文中未描述一个新的、统一的模型架构。其“架构”指的是被评估的各个LLM（如Gemini、GPT系列）以及作为基线的传统音频编码器。论文重点在于比较这些不同架构在统一基准（MSEB）上的表现差异。摘要中未提供架构图。 ...

ICLR 2026 - 音频场景理解论文列表

ICLR 2026 - 音频场景理解共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omn 7.5分前25% 📋 论文详情 🥇 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）通讯作者：Jin Xu（阿里巴巴通义团队），Xie Chen（上海交通大学，上海创新研究院）作者列表： Ziyang Ma（上海交通大学，南洋理工大学）* Ruiyang Xu（上海交通大学）* Zhenghao Xing（香港中文大学）* Yunfei Chu（阿里巴巴通义团队） Yuxuan Wang（阿里巴巴通义团队） Jinzheng He（阿里巴巴通义团队） Jin Xu†（阿里巴巴通义团队） Pheng-Ann Heng（香港中文大学） Kai Yu（上海交通大学） Junyang Lin（阿里巴巴通义团队） Eng Siong Chng（南洋理工大学） Xie Chen‡（上海交通大学，上海创新研究院） 💡 毒舌点评 ...

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #多模态模型 #音频场景理解 #视频描述 #基准测试 ✅ 7.5/10 | 前25% | #音频场景理解 | #多模态模型 | #视频描述 #基准测试学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）通讯作者：Jin Xu（阿里巴巴通义团队），Xie Chen（上海交通大学，上海创新研究院）作者列表： Ziyang Ma（上海交通大学，南洋理工大学）* Ruiyang Xu（上海交通大学）* Zhenghao Xing（香港中文大学）* Yunfei Chu（阿里巴巴通义团队） Yuxuan Wang（阿里巴巴通义团队） Jinzheng He（阿里巴巴通义团队） Jin Xu†（阿里巴巴通义团队） Pheng-Ann Heng（香港中文大学） Kai Yu（上海交通大学） Junyang Lin（阿里巴巴通义团队） Eng Siong Chng（南洋理工大学） Xie Chen‡（上海交通大学，上海创新研究院） 💡 毒舌点评亮点：论文针对多模态细粒度感知中“描述越详细，幻觉越多”的核心矛盾，提出了一个从“侦探”式数据生成到两阶段模型训练，再到全新填空式评估基准的完整解决方案框架，逻辑闭环非常扎实。短板：虽然设计了智能体数据管线，但其质量上限仍受限于所调用的闭源模型（如Gemini 2.5 Pro）的能力，本质上是用更强的闭源模型给开源模型生成训练数据，创新中略带一丝“取巧”；新基准Omni-Cloze虽然高效，但其“填空”形式与自由生成任务仍有一定差距。 ...

Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning

📄 Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning #音频问答 #音频场景理解 #强化学习 #数据集 🔥 8.5/10 | 前25% | #音频问答 | #强化学习 | #音频场景理解 #数据集学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Daiqing Wu（中国科学院信息工程研究所；字节跳动）通讯作者：Yangyang Kang（字节跳动），Yu Zhou（南开大学）作者列表： Daiqing Wu（中国科学院信息工程研究所；字节跳动；中国科学院大学） Xuan Zhang（字节跳动） Dongbao Yang（中国科学院信息工程研究所） Jiashu Yao（字节跳动） Longfei Chen（上海科技大学） Qingsong Liu（字节跳动） Sicheng Zhao（清华大学） Can Ma（中国科学院信息工程研究所） Yangyang Kang（浙江大学；字节跳动） Yu Zhou（南开大学） 💡 毒舌点评亮点：论文清晰地指出了现有“音频条件化文本推理”的信息瓶颈问题，并受人类听觉认知启发，提出了“音频交错推理”这一新颖且合理的范式，通过两阶段训练框架（SFT+RL）使其落地，并在多个专家级音频理解基准上取得了SOTA性能，验证了范式的有效性。短板：训练数据完全依赖LLM（DeepSeek-R1）基于音频描述自动生成，其质量和与真实音频的匹配度可能存在噪声，且数据筛选过程引入了额外的不确定性；虽然提供了代码，但模型权重未公开，限制了复现和直接比较的便利性。 🔗 开源详情代码：提供代码仓库链接：https://github.com/wdqqdw/Echo，包含训练代码和脚本。模型权重：论文中未提及公开模型权重。数据集：论文中提及构建了EAQA-SFT和EAQA-RL数据集，但未明确说明是否公开下载。训练中使用的其他数据集（AudioSet-Strong, MusicBench, AVQA）为公开数据集。 Demo：论文中未提及在线演示。复现材料：论文提供了详细的训练超参数、数据统计（附录F）、伪代码（附录D）、提示词模板（附录E）和评估设置，复现细节较为充分。引用的开源项目：模型基座为Qwen2.5-Omni，数据合成使用了DeepSeek-R1，训练使用了ms-swift、VERL和vLLM框架。 📌 核心摘要解决的问题：现有大音频语言模型（LALMs）在推理时普遍采用“一次性编码”的音频条件化文本推理，将连续音频信号压缩为静态嵌入，导致关键细节信息丢失，形成“信息瓶颈”，限制了模型处理复杂、多源音频的能力。方法核心：提出“音频交错推理”范式，将音频作为主动推理组件。模型在推理过程中动态定位并回听关键音频片段（通过<seg>标签），将原始音频token插入推理上下文，形成多模态推理过程。为实现此范式，设计了两阶段训练框架：(1) 监督微调（SFT）使模型学会生成包含时间戳的音频定位推理链；(2) 强化学习（RL）通过设计的奖励函数（准确度、格式、一致性、片段奖励）优化模型的回听策略。同时，构建了一个利用LLM自动生成高质量音频问答及思维链（CoT）的数据生产流水线。创新之处：核心创新在于提出了“音频交错推理”这一新的推理格式，改变了模型与音频交互的方式，从“思考音频”转向“用音频思考”。这与之前主要复制文本推理范式的方法有本质区别。配套的两阶段训练框架和自动化数据生成流水线也是重要贡献。主要结果： Echo模型在MMAR（平均69.99%）、MMAU-mini（平均80.41%）和MMAU（平均76.61%）等强调高级推理的音频理解基准上，取得了开源模型中的最优性能，并超越了GPT-4o-Audio和Gemini-2.0-Flash等先进商业模型。消融实验表明，音频交错推理格式、SFT数据、RL数据质量以及各奖励组件对性能提升均有贡献。下表总结了主要实验结果：模型类别 MMAR Avg Acc (%) MMAU-mini Avg Acc (%) MMAU Avg Acc (%) Qwen2.5-Omni (基线) 开源基础模型 57.33 71.53 71.00 GPT-4o-Audio 专有模型 64.09 62.51 60.82 Gemini-2.0-Flash 专有模型 67.90 70.51 67.03 Echo (本文) 自适应模型 69.99 80.41 76.61 实际意义：为提升LALMs的复杂音频理解能力提供了一种符合认知科学、且实证有效的技术路径，特别是在需要精细时序分析和多轮音频感知的任务中（如多说话人角色映射、事件推理）。所提出的数据生成流水线对构建高质量音频训练数据也有参考价值。主要局限性： (1) 训练数据依赖于LLM的合成，其“听觉”基于文本描述而非原始音频，可能存在语义偏差和幻觉，尽管有交叉验证和过滤机制。(2) 当前的回听机制仅支持直接访问原始音频片段，未探索如慢速播放、频谱分析等更高级的“听觉”操作。(3) 模型在长音频上的泛化能力虽被提及但有待更深入验证。 🏗️ 模型架构 Echo模型整体架构基于一个预训练的多模态大模型（Qwen2.5-Omni），并通过两阶段训练使其具备“音频交错推理”能力。其核心不在于全新的神经网络模块设计，而在于推理流程和训练范式的创新。 ...

Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception

📄 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception #音频场景理解 #多模态模型 #基准测试 #数据集 #开源工具 🔥 9.0/10 | 前25% | #音频场景理解 | #多模态模型 | #基准测试 #数据集学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Ziyang Ma（上海交通大学，南洋理工大学）（论文中为共同第一作者）通讯作者：Xie Chen（上海交通大学，上海创智学院）（论文中为共同通讯作者）作者列表：Ziyang Ma（上海交通大学，南洋理工大学）、Ruiyang Xu（上海交通大学）（共同第一作者）、Zhenghao Xing（香港中文大学）（共同第一作者）、Yunfei Chu（阿里集团， Qwen团队）、Yuxuan Wang（阿里集团， Qwen团队）、Jinzheng He（阿里集团， Qwen团队）、Jin Xu†（阿里集团， Qwen团队）（项目负责人）、Pheng-Ann Heng（香港中文大学）、Kai Yu（上海交通大学）、Junyang Lin（阿里集团， Qwen团队）、Eng Siong Chng（南洋理工大学）、Xie Chen‡（上海交通大学，上海创智学院）（共同通讯作者） 💡 毒舌点评亮点在于提出了一个从“侦探式”数据生成、到针对性模型训练、再到闭式基准评估的完整闭环方案，直面多模态描述中“细节-幻觉”权衡这一核心矛盾，系统性强且效果显著。短板则是“多模态细粒度描述生成”本身仍是一个相对垂直和小众的任务，且模型架构本身是基于现有骨干（Qwen2.5-Omni）的微调，并非底层架构创新。 ...

A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS)

📄 A Knowledge-Driven Approach to Target Speech Extraction in the Presence of Background Sound Effects for Cinematic Audio Source Separation (CASS) #语音分离 #知识蒸馏 #数据增强 #音频场景理解 ✅ 7.0/10 | 前50% | #语音分离 | #知识蒸馏 | #数据增强 #音频场景理解 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Chun-wei Ho (Georgia Institute of Technology, USA) 通讯作者：未说明 (论文未明确指定通讯作者，但通常第一作者承担主要联系责任) 作者列表：Chun-wei Ho (Georgia Institute of Technology, USA)， Sabato Marco Siniscalchi (University of Palermo, Italy)， Kai Li (Dolby Laboratory, China)， Chin-Hui Lee (Dolby Laboratory, China) 💡 毒舌点评亮点：论文开创性地将语言学中的“发音方式”（Manner of Articulation）知识作为辅助信号引入到电影音频语音分离任务中，为解决背景音效干扰下的短语音提取提供了新颖且可解释的思路。短板：尽管思路巧妙，但实验说服力略显不足，提升幅度有限（约1dB），且所有实验仅在一个为该挑战赛定制的数据集上完成，未能证明该方法在更复杂、更多样的真实电影场景中的普适性和鲁棒性。 ...

Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding

📄 Listening with Time: Precise Temporal Awareness for Long-Form Audio Understanding #音频大模型 #音频场景理解 #基准测试 #强化学习 #数据集 🔥 8.0/10 | 前25% | #音频场景理解 | #音频大模型 | #基准测试 #强化学习 | arxiv 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Mingchen Shao（西北工业大学）通讯作者：Lei Xie（西北工业大学）作者列表：Mingchen Shao（西北工业大学）、Hang Su（独立研究者）、Wenjie Tian（西北工业大学）、Bingshen Mu（西北工业大学）、Zhennan Lin（西北工业大学）、Lichun Fan（独立研究者）、Zhenbo Luo（独立研究者，清华大学相关）、Jian Luan（独立研究者）、Lei Xie（西北工业大学） 💡 毒舌点评这篇论文的亮点在于其“庖丁解牛”式的系统设计：面对长音频时间感知这一老大难问题，没有硬磕模型本身，而是从数据、评测、推理范式三个层面给出了一套“组合拳”，尤其是构建全球-局部时间线的TWA-CoT思路清晰有效。然而，其短板也很明显：框架的计算开销和多轮推理的延迟使其在实时或流式场景下的应用面临挑战，且最终性能的天花板依然受限于所采用的骨干模型（Qwen3-Omni）的基础能力。 🔗 开源详情代码：论文承诺开源，并提供了GitHub仓库链接：https://github.com/alanshaoTT/LAT-Audio-Repo。模型权重：论文提及基于Qwen3-Omni-30B进行训练，但未明确说明最终模型权重是否开源。根据仓库名推测，模型权重可能也会开源。数据集：LAT-Chronicle数据集和LAT-Bench基准承诺开源，但未说明具体获取方式（如需申请或直接下载）。 Demo：论文中未提及提供在线演示。复现材料：论文提供了详细的三阶段训练策略、关键超参数（学习率、批大小、组大小）、奖励函数设计以及数据集的构成统计，复现材料较为充分。引用的开源项目/工具：骨干模型：Qwen3-Omni-30B-A3B-Instruct (Team, 2025c) 训练框架：Swift (Zhao et al., 2025) 对比模型/工具：Audio-Flamingo3 (Goel et al., 2025)、Gemini系列 (Team, 2025a)、Step-Audio-R1.1 (Tian et al., 2025)、Time-Audio (Wang et al., 2026) 评估指标：FENSE (Zhou et al., 2022; Dinkel et al., 2025) 原子标注中使用的模型：Gemini-2.5-Pro、LLM-ForceAligner (Mu et al., 2026) 强化学习算法：Group Relative Policy Optimization (Shao et al., 2024) 📌 核心摘要本文针对大型音频语言模型在长音频理解任务（尤其是需要精确时间感知的任务）中性能显著下降的问题，提出了一套综合解决方案。 ...

Acoustic Teleportation Via Disentangled Neural Audio Codec Representations

📄 Acoustic Teleportation Via Disentangled Neural Audio Codec Representations #神经音频编解码器 #语音增强 #音频场景理解 #信号处理 #解纠缠学习 ✅ 7.0/10 | 前25% | #语音增强 | #神经音频编解码器 | #音频场景理解 #信号处理学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Philipp Grundhuber（Fraunhofer Institute for Integrated Circuits (IIS), Erlangen, Germany）通讯作者：未说明作者列表：Philipp Grundhuber†（Fraunhofer Institute for Integrated Circuits (IIS)）, Mhd Modar Halimeh†,§（† Fraunhofer Institute for Integrated Circuits (IIS)；§ 现任职于Starkey Hearing Technologies）, Emanuël A. P. Habets⋆（International Audio Laboratories Erlangen） 💡 毒舌点评本文在“声学传送”这个颇具未来感的细分赛道上，用扎实的工程改进（EnCodec架构 + 多任务训练）把基线方法（Omran et al.）远远甩在了后面，消融实验和可视化分析做得相当全面。然而，一个明显的短板是它处理“传送”的极限能力不足——当两个房间的混响时间差别大于0.8秒时，输出质量就明显下降，这基本锁死了它在真实复杂声学环境中大规模应用的天花板。 ...

AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning

📄 AUDIOGENIE-Reasoner: A Training-Free Multi-Agent Framework for Coarse-to-Fine Audio Deep Reasoning #音频问答 #音频场景理解 #多智能体 #迭代优化 #大语言模型 ✅ 7.0/10 | 前25% | #音频问答 | #多智能体 | #音频场景理解 #迭代优化学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构请基于当前提供的论文内容尽量完整提取作者与机构信息，要求：明确标注第一作者（如论文可判断），否则写“未说明” 明确标注通讯作者（如论文可判断），否则写“未说明” 列出能确认的作者姓名及其所属机构（大学、实验室、公司）机构信息尽量具体到实验室或部门；如果文本里没有，就写到能确认的层级禁止猜测机构信息；无法确认时明确写“未说明” 输出格式示例：第一作者：张三（清华大学计算机系）通讯作者：李四（Google DeepMind）作者列表：张三（清华大学计算机系）、李四（Google DeepMind）、王五（未说明）第一作者：Yan Rong（香港科技大学（广州））通讯作者：Li Liu（香港科技大学（广州））作者列表：Yan Rong（香港科技大学（广州））、Chenxing Li（腾讯AI Lab）、Dong Yu（腾讯AI Lab）、Li Liu（香港科技大学（广州）） 💡 毒舌点评用 2-3 句话做有信息量的点评，必须同时包含至少 1 个亮点和 1 个短板。可以犀利，但不要空泛嘲讽，不要只喊“很强”或“很水”。 ...