空间音频 | 语音/音乐/音频论文速递

SceneBind: Binding What and Where Across Vision, Audio and Language

📄 SceneBind: Binding What and Where Across Vision, Audio and Language 标签：#多模态模型 #音视频理解 #对比学习 #空间音频 #音频理解 6.6/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 6.6/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音视频理解 | #多模态模型 | #对比学习 #空间音频 | arxiv 👥 作者与机构第一作者：Mingfei Chen (University of Washington) 通讯作者：Eli Shlizerman (University of Washington) 作者列表：Mingfei Chen (University of Washington), Zijun Cui (University of Washington, University of Texas at Dallas), Ruoke Zhang (University of Washington), Hyeonggon Ryu (Hankuk University of Foreign Studies), Eli Shlizerman (University of Washington) 💡 毒舌点评论文将场景理解从“是什么”推进到“在哪里”，提出了一个完整的语义-空间绑定框架和配套数据集，实验设计扎实，在空间检索任务上优势明显。然而，它本质上是将视觉领域的“对象槽”思想嫁接到音视频场景理解中，创新更多在于问题定义和工程组合；更关键的是，论文对空间音频信号的利用较为浅层（仅简单拼接特征），且核心贡献与音频领域的直接关联性有限，影响力主要惠及多模态和具身智能社区。 ...

Tight-Frame Reconstruction for Acoustic Intensity Estimation Using Cardioid Microphone Pairs

📄 Tight-Frame Reconstruction for Acoustic Intensity Estimation Using Cardioid Microphone Pairs 标签：#空间音频 #理论分析 #声源定位 #多通道 #鲁棒性 6.8/10 | 创新 1.1/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.5/1.5 | 开源 1.5/1.5 | 复现 0.2/0.5 | 工程 0.2/1.5 ✅ 6.8/10 | 前50% | 文档类型：理论研究 | 评分置信度：中 | #声源定位 | #空间音频 | #理论分析 #多通道 | arxiv 👥 作者与机构第一作者：Akira Omoto 通讯作者：Akira Omoto（omoto@design.kyushu-u.ac.jp）作者列表：Akira Omoto（Kyushu University, Faculty of Design） 💡 毒舌点评论文的数学框架构建得相当优雅，球谐函数展开误差传播和有效泄漏指标 \(\Lambda(\omega)\) 的设计具有明确的物理可解释性，为声强测量阵列设计提供了一个有力的理论分析工具。然而，其致命的缺陷在于“闭环缺失”——整篇论文是一场精巧的理论推演与仿真游戏，完全没有用哪怕最简单的原型阵列进行实测验证。作者在结论中坦承原型制作“正在开发中”，但这无法掩盖结论可信度的根本性不足。在无任何真实硬件实验闭环的情况下，审稿人难以判断文中假设（如误差模型的线性分解、通道噪声不相关）在实际工程中的有效性，也无法评估该框架相对于成熟商用设备（基于P-P法）的真实性能增益。此外，工作高度聚焦于声强测量这一相对小众的声学测量领域，与当前音频/语音信号处理的主流机器学习范式毫无交集，其影响力天花板非常明显。 ...

Dual-BEATs: Unlocking Zero-Shot Stereo Audio Perception in Audio Large Language Models via Dithering

📄 Dual-BEATs: Unlocking Zero-Shot Stereo Audio Perception in Audio Large Language Models via Dithering 标签：#Transformer #多模态模型 #空间音频 #音频大模型 #参数高效微调 7.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.1/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #多模态模型 | #Transformer | #空间音频 #音频大模型 | arxiv 👥 作者与机构第一作者：Shuo-Chun Lin（中央研究院信息科学研究所，台湾）通讯作者：Hen-Hsen Huang（中央研究院信息科学研究所，台湾）作者列表：Shuo-Chun Lin（中央研究院信息科学研究所，台湾）、Hen-Hsen Huang（中央研究院信息科学研究所，台湾） 💡 毒舌点评论文提出“抖动噪声作为随机共振桥”来绕过大语言模型标准化层对立体声音频几何信息的压缩，想法新颖，实验在合成数据上的结果也确实令人印象深刻。然而，整个工作建立在极其简化的声像定位场景（单音源、无HRTF、仅振幅差异）之上，其声称的“零样本泛化”也仅限于振幅的不同值，距离解决真实世界的空间音频理解问题还有相当距离，更像是一篇方法验证的原理证明。 ...

Learning-based Physics-Constrained Neural Kernel for Sound Field Estimation With Source-Position-Dependent Directional Weighting

📄 Learning-based Physics-Constrained Neural Kernel for Sound Field Estimation With Source-Position-Dependent Directional Weighting #声源定位 #空间音频 #低资源 #预训练 5.2/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 0.6/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.9/1.5 📝 5.2/10 | 后50% | #声源定位 | #预训练 | #空间音频 #低资源 | arxiv 👥 作者与机构第一作者：Mattia Marella（National Institute of Informatics, Tokyo, Japan / University of Ferrara, Ferrara, Italy）通讯作者：未明确标注，推测为Shoichi Koyama（同为NII，且为项目资助获得者）全部作者：Mattia Marella（NII / Univ. Ferrara）、Shoichi Koyama（NII） 💡 毒舌点评这篇文章试图用一个直白且合理的想法——把源位置喂进INR让方向权重学会跨源共享——来解决物理约束神经核单快照过拟合的问题。想法本身没有毛病，方向权重朝向镜像源聚焦的可视化也算亮点。但通篇实验在一个玩具级的模拟房间里打转，声称可推广到“practical measurements”却毫无实测数据支撑，跨房间泛化更是只字不提，这跟只在MNIST上验证一个声称能解决通用视觉问题的方法有什么本质区别？致命的是，代码、模型、数据一概没有，训练细节缺失到让人怀疑作者自己能不能把实验复现出来。放在NeurIPS/ICML的bench上，这篇工作目前的状态顶多算个workshop poster。 ...

INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments

📄 INFER: Learning Implicit Neural Frequency Response Fields for Confined Acoustic Environments #空间音频 6.4/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.9/1.5 | 开源 0.4/1.5 | 复现 0.3/0.5 | 工程 0.9/1.5 ✅ 6.4/10 | 前50% | #空间音频 | #空间音频 | arxiv 👥 作者与机构第一作者：Harshvardhan C. Takawale（马里兰大学帕克分校计算机系；工作完成于Dolby Laboratories, Inc.）通讯作者：Harshvardhan C. Takawale（htakawal@umd.edu）作者列表：Harshvardhan C. Takawale（马里兰大学帕克分校计算机系 / Dolby Laboratories, Inc.）、Nirupam Roy（马里兰大学帕克分校计算机系）、C. Phillip Brown（Dolby Laboratories, Inc.） 💡 毒舌点评这篇文章以“frequency-first”为旗号，构建了一个工程上相当完备的频域神经声场建模管道。将Kramers-Kronig因果关系约束引入神经声场渲染，确实为黑箱模型注入了一丝物理可解释性，这值得肯定。然而，论文最大的争议点在于：它猛烈抨击时域方法“难以捕获频率选择性行为”，但其自身在关键的时域混响指标T60上却遭遇了灾难性滑坡（Buck数据集上T60误差高达9.8，而AVR仅为3.2）。作者将这一退化轻描淡写地归因于“感知频率加权”，但并未从原理上令人信服地论证为何频域建模必然导致时域包络的崩溃。这在某种程度上是“在频域考场上用频域模型吊打时域学生”，其宣称的39%幅度提升和51%相位提升，其比较基准的公平性值得读者深思。 ...

JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

📄 JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments #声源定位 #多模态模型 #空间音频 #参数高效微调 #数据集 8.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8.1/10 | 前25% | #声源定位 | #多模态模型 | #空间音频 #参数高效微调 | arxiv 👥 作者与机构第一作者：Zhan Liu（清华大学、腾讯AI Lab）通讯作者：Chao Zhang（清华大学）作者列表：Zhan Liu（清华大学、腾讯AI Lab）、Changli Tang（清华大学）、Yuxin Wang（香港科技大学）、Zhiyuan Zhu（浙江大学）、Youjun Chen（香港中文大学）、Yiwen Shao（腾讯AI Lab）、Tianzi Wang（腾讯AI Lab）、Lei Ke（腾讯AI Lab）、Zengrui Jin（清华大学）、Chao Zhang（清华大学） 💡 毒舌点评本文提出了在3D模拟物理环境中进行联合音视频定位与推理的框架 JAEGER，其核心贡献 Neural IV 和 SpatialSceneQA 数据集为空间音频理解研究提供了有价值的工具和基准。亮点在于系统性整合了 RGB-D 视觉与多通道 FOA，并在附录中通过 SimpleFuse 基线实验初步证明了其架构设计的有效性，而非仅依赖于多模态输入的堆砌。然而，实验设计存在明显的“避重就轻”：正文主表（Table 2）回避了 SimpleFuse 基线，将其置于附录，这使得核心主张——即架构的优越性——在主叙述中缺乏最直接的量化支撑。此外，3D 视觉接地任务中，专门针对 3D 的模型 N3D-VLM 竟获得 0.0 IoU，这一零样本、无适配的对比方式极不公正，更像是对基线的“处决”而非“比较”。更严重的是，多说话人推理任务在正文中汇报了接近 100% 的准确率，营造出任务已被解决的假象，而论文在附录中承认，当干扰项增至 4-6 个时性能迅速下降，这种对任务天花板效应（ceiling effect）的深度分析本应是正文的核心内容，却被掩盖于近乎完美的数字之下。 ...

PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs

📄 PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs #空间音频 #Transformer #大语言模型 #参数高效微调 #多通道 8.7/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.7/10 | 前25% | #空间音频 | #Transformer | #大语言模型 #参数高效微调 | arxiv 👥 作者与机构第一作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 通讯作者：Artem Dementyev (Google DeepMind, Cambridge, USA) 作者列表：Artem Dementyev (Google DeepMind, Cambridge, USA)、Wazeer Zulfikar (Media Lab, MIT, Cambridge, USA)、Sinan Hersek (Google AR, Seattle, WA)、Pascal Getreuer (Google DeepMind, Cambridge, USA)、Anurag Kumar (Google DeepMind, Cambridge, USA)、Vivek Kumar (Google DeepMind, Cambridge, USA) 💡 毒舌点评在LLM普遍缺乏空间听觉的当下，提出几何无关的空间音频编码器并与Gemma集成，切入点精准，但实验验证过分依赖合成数据，如同在声学真空里练出绝世武功，一到真实环境的混响、遮挡和噪声面前就难免露怯。定向转录准确率仅44%-52%，离实用还很遥远，更像是给LLM装上了一副度数不太准的眼镜。 ...

Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

📄 Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer #空间音频 #音视频生成 #扩散模型 #流式处理 #自回归模型 #对比学习 6.6/10 | 创新 1.3/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 0.7/1 | 影响 0.9/1.5 | 开源 0.8/1.5 | 复现 0.2/0.5 | 工程 1.1/1.5 ✅ 6.6/10 | 前50% | #音视频生成 | #扩散模型 | #空间音频 #流式处理 | arxiv 👥 作者与机构第一作者（共同一作）：Ke Lei（浙江大学）共同一作：Yu Zhang（字节跳动）共同一作：Changhao Pan（浙江大学）作者列表：Xueyi Pu（浙江大学）、Wenxiang Guo（浙江大学）、Ruiqi Li（字节跳动）、Zhou Zhao（浙江大学，通讯作者） 💡 毒舌点评这篇文章在流式空间音频生成上做出了明确的架构贡献——自回归做全局规划、扩散做局部渲染的思路干净利落，SVAC的空间负样本设计也很有物理感知能力。但整体evaluation偏弱，尤其是缺少与最近强基线（如MovieGen-Audio、Frieren）的直接对比，且ablation中只展示了去掉某组件的退化程度，缺少为什么这套组合设计优于其他可能组合（如AR-only或Diffusion-only变体）的深度分析。另外，伪FOA预训练策略的随意性以及对总生成时长的回避讨论，让人觉得像一份扎实的工程系统报告而非有深刻洞察的顶会文章。 ...

Spatial Speech Perception Systems: A Survey of Sound Source Localization, Directional Enhancement, and Speech Recognition

📄 Spatial Speech Perception Systems: A Survey of Sound Source Localization, Directional Enhancement, and Speech Recognition #空间音频 #声源定位 #语音增强 #语音识别 4.1/10 | 创新 0.8/2 | 严谨 0.6/1.5 | 实验 0.4/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0/0.5 | 工程 0.8/1.5 📝 4.1/10 | 后50% | #声源定位 | #空间音频 | #语音增强 #语音识别 | arxiv 👥 作者与机构第一作者：Pengyuan Shao（University College London, Department of Computer Science）通讯作者：未明确说明，根据作者顺序推断为 Dimitrios Kanoulas（University College London, Department of Computer Science）作者列表：Pengyuan Shao（University College London, Department of Computer Science）、Dimitrios Kanoulas（University College London, Department of Computer Science） 💡 毒舌点评这篇综述选题有现实意义，试图将空间语音感知系统的三大组件进行统一综述，但在顶会级别看来，其贡献仅停留在文献整理和概念归纳层面。全文没有任何定量元分析、方法对比实验或新基准/工具，不发布数据集也不开源代码。所谓的"系统级评价"、“语义可靠性"等概念始终停留在愿景，缺乏可操作的量化定义或评测方案。对于希望直接拿来评估或改进自己系统的研究者而言，这篇综述提供不了太多硬核见解。 ...

Evaluation of Head-Related Transfer Functions Across Five Levels of Individualisation in Virtual Reality

📄 Evaluation of Head-Related Transfer Functions Across Five Levels of Individualisation in Virtual Reality #空间音频 7.6/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 1.5/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 ✅ 7.6/10 | 前25% | #空间音频 | #空间音频 | arxiv 👥 作者与机构作者：Ludovic Pirard, Katarina C. Poole 机构：Imperial College London 📌 核心摘要本研究旨在系统评估五种不同个性化程度的头相关传递函数在虚拟现实（VR）声音定位任务中的行为表现。研究合并了两个使用相同声学测量HRTF基线和短时VR定位协议的实验数据，对19名参与者进行了五种条件的测试内比较：个体测量、KEMAR、随机非个体测量、高分辨率扫描合成和光度测量重建合成HRTF。结果表明，横向定位指标对HRTF类型不敏感，而极坐标（仰角）相关指标和混淆率则强烈依赖于HRTF条件。关键发现包括：随机非个体HRTF在多个极坐标指标上显著优于固定的KEMAR基线；高分辨率合成HRTF的性能与个体测量HRTF无显著差异；而光度测量合成HRTF与KEMAR一样，表现出最显著的性能下降。研究验证了VR定位协议的测试-重测信度，并强调了在使用数值合成进行仰角相关任务时网格分辨率的重要性。 🔗 开源详情代码：论文中提及了用于数值计算HRTF的开源工具Mesh2HRTF [11]，以及用于实时双耳空间化的开源库3D Tune-In (3DTI) Toolkit [28]。但论文未提供这些工具的具体代码仓库（如GitHub）链接，也未提供本研究特定的分析代码（如数据处理、统计分析脚本）。模型权重：论文中未提及。数据集：论文中提及了两个公开数据集：1. SONICOM数据集 [7]；2. Extended SONICOM数据集 [12]。论文未提供这些数据集的直接下载链接，但明确指出它们是公开可用的学术数据集。实验生成的原始行为数据本身未说明是否公开。 Demo：论文中未提及。复现材料：论文详细描述了实验方法、设备设置（如Meta Quest 2/3 VR耳机、Sennheiser HD 599SE耳机、Unity应用）和协议。但未提供可直接下载的训练配置、检查点、实验代码或行为数据等复现材料链接。论文中引用的开源项目： Mesh2HRTF [11]：用于从3D网格数值计算HRTF的开源软件包。 3D Tune-In (3DTI) Toolkit [28]：用于实时双耳空间化的开源库。（注：论文引用了这些项目，但未在论文中提供其具体的项目主页或代码仓库URL。） 🏗️ 方法概述和架构本研究方法是一个行为实验评估框架，而非计算模型。其核心是通过一个统一的VR定位实验，对五种HRTF条件进行直接的被试内比较。整体架构可分为三个主要部分：HRTF条件准备、VR定位实验流程、行为数据分析。 ...