空间音频 | 语音/音乐/音频论文速递

Perceptual Evaluation of Higher-Order Ambisonic Codecs on Both Synthetic Mixing and Native Recordings

📄 Perceptual Evaluation of Higher-Order Ambisonic Codecs on Both Synthetic Mixing and Native Recordings #音频编码 #空间音频 #信号处理基础 8/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8/10 | 前50% | #音频编码 | #空间音频 | #信号处理基础 | arxiv 👥 作者与机构作者：Adrien Llave, Grégory Pallone, Jérôme Daniel 单位：Orange Research, 法国 💡 毒舌点评这篇论文的“顶会”野心有点撑不住其“工作汇报”的内核。它本质上是对一个已标准化的工业编解码器（IVAS）在特定场景（HOA）下的性能评测报告，而非提出一种新方法或揭示全新原理。其核心价值在于“系统性测试”和“工程观察”，对于推动HOA编解码器实际应用有参考价值，但在理论或方法论创新上乏善可陈。作者试图通过四个假设的验证来构建故事线，但这更像是对已知现象的确认性实验，而非探索性研究。最大的遗憾是，方法部分（Section V）对SPAR和DirAC如何协同工作、特别是“去相关滤波器”的具体实现和局限性缺乏技术细节，使得后续的性能分析和归因显得根基不稳。 📌 核心摘要本文系统评估了3GPP新近标准化的IVAS编解码器在场景音频（SBA）模式下，对采用不同空间化方法生成的三阶Ambisonics（HOA）内容的感知编码性能。研究通过两个主观MUSHRA实验，将IVAS与一种简单但常用的多单声道基线方法（EVSx16）进行比较。实验覆盖了13种多样化的音频内容，包括由理想平面波编码、空间房间脉冲响应卷积及球形麦克风阵列原生录制三种方式生成。主要发现是：在相似比特率（~256 kbps）下，IVAS整体性能优于EVSx16。IVAS的性能高度依赖于内容的空间特性，尤其擅长处理通道间相关性强的信号（如平面波合成内容），在低比特率下表现依然稳健；但其性能在包含空间扩散混响的自然录音上显著下降。相反，EVSx16在混响内容上的表现相对更好。研究证实了IVAS偏好无扩散混响的内容，且该偏好随比特率降低而增强；而EVSx16偏好扩散内容，且该偏好与比特率无关。 ...

Generalised Transcoding Framework for Arbitrary Spatial Audio Capture and Playback Formats

📄 Generalised Transcoding Framework for Arbitrary Spatial Audio Capture and Playback Formats #空间音频 8.7/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.4/1.5 | 复现 0.5/0.5 | 工程 1/1.5 🔥 8.7/10 | 前50% | #空间音频 | #空间音频 | arxiv 👥 作者与机构作者：Archontis Politis, Janani Fernandez, Leo McCormack 单位：坦佩雷大学（Faculty of Information Technology and Communication Sciences），阿尔托大学（Department of Information and Communications Engineering） 💡 毒舌点评一篇扎实的“螺丝钉”式推进论文。其核心价值在于将空间音频处理中长期割裂的Ambisonics处理流和原始麦克风阵列处理流统一到一个框架下，并在参数估计上引入了更灵活的环境声场模型。然而，其创新更多是工程上的集大成与优化，而非颠覆性的新思路。实验设计虽全面，但全部基于模拟场景，缺乏真实世界复杂动态录音的验证，这使得结论的普适性打了折扣。论文最大的短板在于对计算复杂度和实时实现的代价语焉不详，仅提了句“有实时插件”，这对于一个标榜“通用框架”的工作是不够的。作者声称“鲁棒”，但鲁棒性的分析主要停留在模型参数正确或过估计的模拟测试，对于欠估计和参数估计错误连锁反应的讨论不足。总的来说，这是一篇优秀的领域内改进工作，但距离成为里程碑式的基础框架还差一口气。 ...

Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources

📄 Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources #空间音频 #音频问答 #数据集 6.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 0.6/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 0.1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.9/10 | 前25% | #音频问答 | #空间音频 | #数据集 | arxiv 👥 作者与机构作者：Oh Hyun-Bin (POSTECH), Kazuki Shimada (Sony AI), Yuhta Takida (Sony AI), Kim Sung-Bin (POSTECH), Toshimitsu Uesaka (Sony AI), Takashi Shibuya (Sony AI), Kyeongyoon Lee (Sungkyunkwan University), Tae-Hyun Oh (KAIST), Yuki Mitsufuji (Sony AI, Sony Group Corporation) 机构：POSTECH， Sony AI， Sony Group Corporation， Sungkyunkwan University， KAIST ...

Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry

📄 Sensitivity Analysis of Generative Spatial Audio Metrics: A Study on Responsiveness, Smoothness, and Symmetry #空间音频 #音频生成 7.2/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.5/1.5 ✅ 7.2/10 | 前50% | #音频生成 | #空间音频 | arxiv 👥 作者与机构 Purnima Kamath (New York University, New York, USA) Adrian S Roman (New York University, New York, USA) Koichi Saito (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Yuki Mitsufuji (Sony AI, New York, USA; Sony Group Corporation, Tokyo, Japan) Juan P Bello (New York University, New York, USA) ...

Flow-HOA: Generative Joint Optimization for Ambisonics Encoding via Flow Matching

📄 Flow-HOA: Generative Joint Optimization for Ambisonics Encoding via Flow Matching #空间音频 #生成模型 7.9/10 | 创新 1.8/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.3/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.9/10 | 前25% | #空间音频 | #生成模型 | arxiv 👥 作者与机构未在提供的原文片段中明确列出作者和机构信息。 💡 毒舌点评本文试图用时髦的生成模型（Flow Matching）来解决一个经典的信号处理问题——从稀疏阵列编码HOA。想法是好的，但需要更清醒地认识到问题的本质。将HOA滤波器设计重新表述为生成任务确实提供了新的视角，尤其是在处理非凸、多目标优化时。然而，论文在声称“超越传统方法”时，实验对比的基线（仅ASM）显得过于单薄和陈旧，缺乏与当前最新的数据驱动或混合方法的公平较量，这大大削弱了其结论的普遍说服力。此外，论文花了不少篇幅讨论主观测试中“空间定位”得分无显著差异的IHL现象，并将其归因于非个性化HRTF的渲染链限制。这种解释虽然合理，但更像是在为自家方法在核心空间任务上的“未显著超越”寻找借口，而非坦诚面对可能的方法局限（例如，模型是否真正学习到了更精确的空间特征，还是仅仅优化了信号保真度？）。总体而言，这是一篇扎实的应用型工作，展示了生成模型在信号处理领域的潜力，但在验证其普适性和优越性方面仍需更严厉的自我审视。 📌 核心摘要本文提出了Flow-HOA，一个用于从稀疏、不规则麦克风阵列生成高阶Ambisonics编码滤波器的生成式联合优化框架。该方法的核心是利用条件流匹配（Conditional Flow Matching）技术，将一个基于物理的初始滤波器（通过约束最小二乘获得）作为先验，通过学习一个向量场将其迭代优化为满足多域保真度目标的最终FIR滤波器。联合优化目标由时域波形误差、多分辨率频谱一致性、子带能量保持和空间指向性四个损失函数加权构成。在合成数据上的客观评估表明，Flow-HOA在信号保真度和空间精度指标上优于基于模型的基线（ASM）。在真实麦克风阵列录音上进行的主观试听测试进一步证实，Flow-HOA能提供更高的整体音质且伪影更少，并展示了从合成训练数据到真实世界采集条件的泛化能力。 🔗 开源详情代码：论文中在“Conclusion”部分提及代码将开源（“Code will be made publicly available upon publication.”），但未提供具体的仓库链接（如GitHub、GitLab等）。在分析时点视为承诺开源但未发布。模型权重：论文中未提及提供预训练模型权重的链接。数据集：论文中明确使用FSD50K作为训练数据源，网址：https://zenodo.org/record/4060432。此外，用于主观测试的Neumann KU 100 HRTF数据集在文献[24]中引用，但未提供直接链接。 Demo：论文中未提及在线演示链接。复现材料：论文详细描述了模型架构（1D U-Net）、训练配置（优化器AdamW，学习率1e-5，批量大小256）和损失函数权重（Table 1）。然而，未提供具体的复现脚本、测量好的阵列脉冲响应数据或预训练模型。复现的硬件（特定的SPMA原型）和物理测量环境（消声室）是重要的非公开材料。论文中引用的开源项目： PyTorch：用于模型实现。 webMUSHRA：用于主观听力测试，网址：https://github.com/Spension/webMUSHRA。 🏗️ 方法概述和架构 Flow-HOA框架将高阶Ambisonics编码滤波器的设计重新定义为一个生成式联合优化问题，其目标是从一个基于物理的先验分布中学习，生成满足多维度保真度约束的最优有限脉冲响应（FIR）滤波器。整个框架分为三个核心阶段，具体架构与数据流如下： ...

SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array

📄 SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array #鲁棒性 #空间音频 6.7/10 | 创新 1.4/2 | 严谨 0.9/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 6.7/10 | 前50% | #音频编码 | #鲁棒性 | #空间音频 | arxiv 👥 作者与机构论文标题：SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array 会议：Accepted for presentation at AES Europe 2025 Convention (AES 158th Convention)， Warsaw, Poland, May 22-24, 2025. 机构/支持：本工作得到国家重点研发计划（No.2024YFB2808902）和北京大学高性能计算平台的支持。（注：论文未明确列出作者个人所属机构，仅列出致谢信息）。 ...

From Numbers to Perception, Energy Decay Curves Prediction

📄 From Numbers to Perception, Energy Decay Curves Prediction #空间音频 #神经网络 #信号处理 #模型评估 #声学仿真 ✅ 7.2/10 | 前50% | #空间音频 | #神经网络 | #信号处理 #模型评估 | arxiv 学术质量 4.9/7 | 影响力 1.0/2 | 可复现性 1.3/2 | 置信度中 👥 作者与机构第一作者：Imran Muhammad（TU Ilmenau, Applied Media Systems）通讯作者：未明确说明作者列表：Imran Muhammad, Gerald Schuller (两人均来自 TU Ilmenau, Applied Media Systems) 💡 毒舌点评本文在作者团队前期工作的基础上，实现了从宽带到多频带能量衰减曲线（EDC）预测的跨越，并引入了轻量化的1D-CNN架构和设计精巧的对数域坡度损失函数，模型参数量骤减90%，为实时交互式声学仿真提供了可行的技术路径。然而，整个工作犹如在无菌实验室里完成——所有评估均基于单一“鞋盒”房间的模拟数据，对真实世界声学复杂性的泛化能力未见丝毫验证，且缺乏与近期其他学习型声学建模方法的对比，使得其效率提升的价值在缺乏真实性背书的情况下大打折扣。此外，论文对关键训练细节的吝啬描述，也让可复现性蒙上一层阴影。 📌 核心摘要问题：准确高效地预测房间脉冲响应（RIR）及其能量衰减曲线（EDC）对于虚拟现实（VR）等实时空间音频渲染至关重要。传统物理模拟计算昂贵，而直接用神经网络合成高维RIR波形易产生非物理伪影。以紧凑的EDC作为中间表示是有效思路，但早期工作多局限于宽带预测，且模型复杂度高。方法核心：提出一个基于1D-CNN的端到端框架，直接从16维房间特征（尺寸、位置、频率依赖吸收系数）预测24个三分之一倍频程（100 Hz - 20 kHz）的多频带EDC。核心创新是自定义的复合损失函数，在对数域（dB）同时优化能量水平和衰减斜率（坡度惩罚），强制物理一致性。与已有方法相比新在哪里：相较于作者此前的LSTM宽带模型，新方法：a) 多频带扩展：从单一宽带EDC预测扩展为24个频带，能更精细地建模材料的频率选择性吸收；b) 架构效率革命：用1D-CNN解码器（含线性插值上采样）取代LSTM，模型参数量从约9000万减少至约900万（减少90%），推理速度提升约5倍；c) 物理约束损失：引入坡度惩罚项，有效抑制了序列模型常见的“阶梯”伪影，确保预测EDC的平滑单调衰减。主要实验结果：在6000个模拟鞋盒房间的测试集上，模型表现如下： EDC预测准确性：参数 RMSE MAE R² EDT (s) 0.10 0.07 0.79 T20 (s) 0.06 0.04 0.93 T30 (s) 0.07 0.05 0.90 C50 (dB) 0.47 0.35 0.67 感知关键指标：预测的T30误差（MAE=0.05s）大部分落在5%的“刚好可察觉差异”（JND）阈值内（见图4），表明预测在感知上接近参考值。与旧模型（LSTM）对比：扩展为多频带后，早期衰减时间（EDT）的MAE从0.033s上升至0.07s，这是为获得更精细频谱建模能力所付出的代价。效率提升：模型复杂度降低90%，推理时间减少约80%（速度提升约5倍）。实际意义：为需要实时、低延迟声学模拟的VR、游戏等交互式音频应用，提供了一个高效且感知准确的RIR/EDC预测方案。主要局限性：模型仅在理想的“鞋盒”房间几何上训练和测试，对现实世界中复杂的非规则房间几何、材料散射与衍射等现象的泛化能力未得到验证。实验数据完全来自模拟（Pyroomacoustics），缺乏真实测量RIR数据的评估。 🔗 开源详情代码：https://github.com/TUIlmenauAMS/LSTM-Model-Energy-Decay-Curves 模型权重：论文明确声明在上述GitHub仓库中提供“pre-trained model weights”（预训练模型权重）。数据集：论文明确声明在上述GitHub仓库中提供“dataset generation scripts”（数据集生成脚本），但未提供生成数据集的直接下载链接。 Demo：论文中未提及。复现材料：论文中提及“source code, pre-trained model weights, and dataset generation scripts”已通过上述GitHub仓库公开，但未单独列出详细的训练配置文件、检查点或附录等独立链接。论文中引用的开源项目： Pyroomacoustics：论文明确引用 [12]，用于数据集生成。链接：https://github.com/RLV-lab/pyroomacoustics 🏗️ 方法概述和架构本论文提出一个端到端的深度学习框架，旨在建立从低维房间物理参数到高维多频带声学能量衰减特性（EDC）的直接映射。整个流程是：输入描述房间几何与材料属性的特征向量，经过神经网络编码、解码与归一化，输出一组对应于不同频带的EDC序列。该EDC序列可通过后处理（微分与随机符号分配）重建完整的房间脉冲响应（RIR）。 ...

Spatial Power Estimation via Riemannian Covariance Matching

📄 Spatial Power Estimation via Riemannian Covariance Matching #空间音频 #声源定位 #信号处理 #波束成形 #黎曼几何 ✅ 6.5/10 | 前25% | #声源定位 | #信号处理 | #空间音频 #波束成形 | arxiv 学术质量 7.0/8 | 影响力 0.5/2 | 可复现性 0.0/1 | 置信度高 👥 作者与机构第一作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）通讯作者：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）作者列表：Or Cohen（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Alon Amar（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系）、Ronen Talmon（以色列理工学院 Andrew and Erna Viterbi 电气与计算机工程系） 💡 毒舌点评论文为欧氏和黎曼协方差匹配准则建立了清晰的渐近等价性与鲁棒性理论联系，这是一个扎实的理论贡献。提出的SERCOM算法在计算效率上具有明确优势。然而，实验对比局限于与SPICE、SAMV等同框架经典方法的比较，缺乏与近年来性能更优或范式不同的稀疏恢复、深度学习方法的对比，严重削弱了结论的时效性和对方法“先进性”的定位。此外，所有实验均为仿真，未提供真实数据验证，且未开源代码，可复现性为零。 ...

NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction

📄 NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction #空间音频 #神经网络 #波束成形 #多任务学习 #音频增强 ✅ 6.5/10 | 前30% | #空间音频 | #神经网络 | #波束成形 #多任务学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 💡 毒舌点评这篇论文工整地做了一道“拆分重组”的数学题：把估计A，拆成估��A的一部分和另一部分，再加起来。思路清晰，工程上也有其价值——特别是那个能调β的漫射声控制，对于需要精细调节“干湿比”的录音师来说，可能是个不错的玩具。然而，整套验证全在自家后院（合成数据）里完成，没敢拉到真实世界的泥潭里打滚，这让“性能媲美NDF”和“优于传统基线”的结论，听起来有点像在真空环境下的胜利。创新性扎实但有限，像给一辆好车加了个炫酷的控制旋钮，而非发明了新引擎。对于追求原理性突破的读者，可能会觉得不够过瘾；但对于寻求实用工具的工程师，或许值得一瞄。 📌 核心摘要本文提出了NDF+，一个用于在紧凑麦克风阵列上联合实现定向滤波与漫射声提取的神经网络框架。其核心创新是将传统NDF的单一目标（虚拟定向传声器信号估计）重新表述为两个耦合子任务：去混响VDM重建（相干声估计）与漫射声提取。通过端到端联合训练双掩模网络，NDF+能在保持最终VDM重建质量与原始NDF相当的同时，提供对输出信号中漫射声成分的显式、连续控制。在合成数据上的系统实验表明，NDF+在子任务性能上显著优于级联基线，其可控性在立体声录音应用中得到了验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：训练集和验证集使用了 LibriSpeech 数据库（子集：train-clean-360 和 dev-clean）。获取链接：https://www.openslr.org/12/。测试集使用了 EARS 数据集。获取链接：https://github.com/facebookresearch/ears （根据论文引用[richter2024ears]推断）。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等具体复现材料。论文中引用的开源项目：论文中引用的基线方法或工具如下，但论文中未提供其具体开源链接： FT-JNF (框架)：引用 [FT-JNF]。 RIRGenerator (房间脉冲响应生成器)：引用 [RIRGenerator]。 AWPE (加权预测误差去混响算法)：引用 [4960438]。 DRSwWPE (一种实时去混响算法)：引用 [huang2024practical]。 Diffuse BF (漫射声波束成形器)：引用 [diffuse_beamformer]。 Dynamic Acoustic Scene Generator (动态声景生成器)：引用 [DASGenerator]。 Monte Carlo RIR (蒙特卡洛房间脉冲响应模拟)：引用 [MonteCarloRIR]。作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 ...

ICLR 2026 - 空间音频论文列表

ICLR 2026 - 空间音频共 1 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Langu 8.0分前25% 📋 论文详情 🥇 OWL : Geometry-Aware Spatial Reasoning for Audio Large Language Models 🔥 8.0/10 | 前25% | #空间音频 | #音频大模型 | #声源定位 #多任务学习 👥 作者与机构第一作者：未说明（论文标注Subrata Biswas和Mohammad Nur Hossain Khan为共同第一作者）通讯作者：未说明作者列表：Subrata Biswas（Worcester Polytechnic Institute电气与计算机工程系）、Mohammad Nur Hossain Khan（Worcester Polytechnic Institute电气与计算机工程系）、Bashima Islam（Worcester Polytechnic Institute电气与计算机工程系） 💡 毒舌点评 ...