声场估计 | 语音/音乐/音频论文速递

Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation

📄 Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation #声场估计 #高斯过程回归 #麦克风阵列 #稀疏优化 ✅ 7.5/10 | 前25% | #声场估计 | #高斯过程回归 | #麦克风阵列 #稀疏优化学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度中 👥 作者与机构第一作者：Ryo Matsuda（京都大学工学部）通讯作者：Makoto Otani（京都大学工学部）作者列表：Ryo Matsuda（京都大学工学部）、Makoto Otani（京都大学工学部） 💡 毒舌点评这篇论文在传统声场估计框架下做出了扎实的改进，亮点在于巧妙地将群稀疏约束引入高斯过程回归核权重优化，摆脱了对先验声源位置的依赖，并在仿真中取得了显著的性能提升。然而，其短板在于实验部分过于理想化（无回声、二维平面），缺乏对实际复杂声学环境（如混响、三维空间）的验证，且未提供任何开源代码，这使得其提出的方法在实际应用中的鲁棒性和可复现性存疑。 🔗 开源详情代码：论文中未提及代码链接或开源仓库。模型权重：未提及。数据集：实验为数值仿真生成，未提供生成代码或具体数据。 Demo：未提供在线演示。复现材料：论文给出了部分实验设置（如麦克风数量、区域大小、频率范围、噪声模型、部分超参数范围），但关键训练细节（如优化器停止准则、ν_tr的具体计算公式、ζ的最终取值）不充分，难以完全复现。论文中引用的开源项目：论文引用的文献中，[18] (Koyama & Daudet, 2019) 的算法被用于基线实现，但未说明是否使用其开源代码。论文本身未明确列出依赖的开源工具。结论：论文中未提及开源计划。 📌 核心摘要要解决什么问题：传统稀疏点源分解（PSD）方法估计包含声源的非均匀声场时，依赖预设的潜在声源位置网格，若与实际位置不匹配会导致估计精度下降。另一类基于高斯过程回归（GPR）和连续核函数的方法虽然更准确，但需要先验的声源位置信息进行贪婪优化，这在实际中往往不可用。方法核心是什么：本文提出一种基于群稀疏（group sparsity）的核权重优化方法。在GPR框架下，将声场建模为多个“源区域”（SR）核函数的加权和。核心假设是：(i) 声源空间分布是稀疏的；(ii) 该分布在所有频率上是相同的。利用这两个假设，将核权重矩阵的优化问题转化为一个带群稀疏正则化（L1,2范数）的负对数边缘似然最小化问题，并通过近端梯度法求解。与已有方法相比新在哪里：新在无需任何先验声源位置信息。通过群稀疏约束自动学习一个跨频率共享的、稀疏的核权重集合，从而识别出与观测数据最相关的少数几个SR核。这比依赖先验位置贪婪选择二进制权重的旧方法更灵活、更优化。主要实验结果如何：在无回声、二维圆形区域（半径1.0m）的数值仿真中，与单极子PSD和多极子PSD方法相比，所提方法在几乎所有频率上实现了最低的归一化均方误差（NMSE）。例如，在125 Hz附近，NMSE降低了超过15 dB；在4 kHz附近，降低了超过5 dB。图2（pdf-image-page4-idx1）直观显示，该方法能更准确地重建2 kHz的声场，误差分布（图3，论文未提供图3的URL，故无法展示）更小。实际意义是什么：为在未知声源位置情况下，利用麦克风阵列数据准确估计包含声源的复杂声场提供了一种更有效、更自动化的方法，可提升后续声场重现、噪声控制等应用的性能。主要局限性是什么：实验局限在理想的无回声条件和二维平面；假设声源分布跨频率不变可能在某些动态场景下不成立；对计算复杂度和参数（如平衡参数ζ）的选择敏感性未深入讨论。 🏗️ 模型架构该方法并非一个神经网络架构，而是基于概率模型（高斯过程回归）的优化框架。其核心组件和流程如下： ...

ICASSP 2026 - 声场估计论文列表

ICASSP 2026 - 声场估计共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Group-Sparse Gaussian Process Regression for Inhomogeneous S 7.5分前25% 📋 论文详情 🥇 Group-Sparse Gaussian Process Regression for Inhomogeneous Sound Field Estimation ✅ 7.5/10 | 前25% | #声场估计 | #高斯过程回归 | #麦克风阵列 #稀疏优化 👥 作者与机构第一作者：Ryo Matsuda（京都大学工学部）通讯作者：Makoto Otani（京都大学工学部）作者列表：Ryo Matsuda（京都大学工学部）、Makoto Otani（京都大学工学部） 💡 毒舌点评这篇论文在传统声场估计框架下做出了扎实的改进，亮点在于巧妙地将群稀疏约束引入高斯过程回归核权重优化，摆脱了对先验声源位置的依赖，并在仿真中取得了显著的性能提升。然而，其短板在于实验部分过于理想化（无回声、二维平面），缺乏对实际复杂声学环境（如混响、三维空间）的验证，且未提供任何开源代码，这使得其提出的方法在实际应用中的鲁棒性和可复现性存疑。 🔗 开源详情代码：论文中未提及代码链接或开源仓库。模型权重：未提及。数据集：实验为数值仿真生成，未提供生成代码或具体数据。 Demo：未提供在线演示。复现材料：论文给出了部分实验设置（如麦克风数量、区域大小、频率范围、噪声模型、部分超参数范围），但关键训练细节（如优化器停止准则、ν_tr的具体计算公式、ζ的最终取值）不充分，难以完全复现。论文中引用的开源项目：论文引用的文献中，[18] (Koyama & Daudet, 2019) 的算法被用于基线实现，但未说明是否使用其开源代码。论文本身未明确列出依赖的开源工具。结论：论文中未提及开源计划。 ...

Phase-Retrieval-Based Physics-Informed Neural Networks For Acoustic Magnitude Field Reconstruction

📄 Phase-Retrieval-Based Physics-Informed Neural Networks For Acoustic Magnitude Field Reconstruction #声场估计 #物理信息神经网络 #相位检索 #音频生成 ✅ 7.0/10 | 前50% | #声源定位 | #物理信息神经网络 | #声场估计 #相位检索学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度中 👥 作者与机构第一作者：Karl Schrader（日本国立情报学研究所，以及德国萨尔大学）通讯作者：论文中未明确说明。作者列表：Karl Schrader（日本国立情报学研究所，德国萨尔大学）、Shoichi Koyama（日本国立情报学研究所）、Tomohiko Nakamura（日本产业技术综合研究所）、Mirco Pezzoli（米兰理工大学） 💡 毒舌点评亮点：论文巧妙地将“相位检索”问题转化为一个双网络联合优化问题，并利用重建的复声压来施加亥姆霍兹方程约束，为仅有幅度测量的声场重建提供了新颖的物理信息正则化思路。短板：实验仅限于单一尺寸、低混响时间的仿真房间，且未与其他成熟的相位检索方法或更复杂的基线进行对比，说服力有限；更致命的是，完全缺乏开源信息，使得这篇看似扎实的改进工作大打折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及是否公开。文中说明数据使用pyroomacoustics库生成，但未提供具体生成脚本或参数配置。 Demo：未提及。复现材料：论文提供了较为详细的网络结构（4层256单元MLP，tanh）、训练优化器（AdamW）、初始学习率（1e-3）和衰减策略、损失权重（λdata=0.1, λPDE=0.001）、RFF维度（128）等关键超参数，但未提供训练脚本、环境配置文件、数据生成脚本或预训练模型。引用的开源项目：pyroomacoustics（用于声场仿真）。 📌 核心摘要这篇论文针对仅有空间稀疏的幅度测量值，无法获取相位信息这一场景下的声场幅度分布重建问题，提出了一种基于相位检索的物理信息神经网络方法。其核心思想是使用两个独立的神经网络（MLP）分别预测声场的幅度和相位，将二者组合成复声压，并通过最小化其偏离亥姆霍兹方程（PDE loss）来引入物理约束，同时训练网络使预测幅度匹配测量值。与纯数据驱动的神经场（NF）或最近邻插值相比，该方法在仿真声场重建任务中表现出更低的测试数据损失（Ldata）。实验表明，所提方法（PRB-PINN）在200 Hz、400 Hz、600 Hz三个频率上，随测量点数量（5， 10， 20， 50）增加均优于基线，尤其在低频（200 Hz）和测量点较多时重建效果接近真实值。其实际意义在于为无线麦克风网络、乐器指向性测量等相位数据不可靠的场景提供了更准确的声场估计工具。主要局限是实验基于简化的仿真环境（3m×4m×6m房间， T60=200ms），未在更复杂或真实场景中验证，且重建的相位与真实相位并不一致。 🏗️ 模型架构论文提出的是一种基于隐式神经表示（Neural Field）的双流网络架构（见图2）。整体流程如下： ...