空间音频 | 语音/音乐/音频论文速递

ICASSP 2026 - 空间音频论文列表

ICASSP 2026 - 空间音频共 31 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings 8.5分前25% 🥈 3D Mesh Grid Room Impulse Responses Measured with A Linear M 8.3分前25% 🥉 Regularized Inverse Filter Design for Rigid Spherical Microp 8.0分前25% 4. Time-Domain Synthesis of Virtual Sound Source Within Persona 8.0分前25% 5. Text2Move: Text-To-Moving Sound Generation via Trajectory Pr 8.0分前25% 6. Generating Moving 3d Soundscapes with Latent Diffusion Model 7.5分前25% 7. Coupling Acoustic Geometry and Visual Semantics for Robust D 7.5分前25% 8. Qastanet: A DNN-Based Quality Metric for Spatial Audio 7.5分前50% 9. Differentiable Grouped Feedback Delay Networks for Learning 7.5分前25% 10. Denoising Of Stochastic Ray Tracing Room Impulse Responses 7.5分前25% 11. Sparse-View Visual-Acoustic Latent Learning for Novel-View A 7.5分前25% 12. Reconstruction of Spherical Sound Source Radiation Character 7.5分前25% 13. A Learning-Based Automotive Sound Field Reproduction Method 7.5分前25% 14. A Data-Driven Framework for Personal Sound Zone Control Addr 7.5分前25% 15. Personal Sound Zones with Flexible Bright Zone Control 7.5分前25% 16. Natural Language to Spatial Audio Parameters: Lightweight De 7.5分前25% 17. Lightweight Implicit Neural Network for Binaural Audio Synth 7.0分前25% 18. Perceptual Loss Optimized HRTF Personalization in Spherical 7.0分前25% 19. Individualize the HRTF Neural Field Using Anthropometric Par 7.0分前25% 20. Decorrelation-Enhanced Multiband Subband Adaptive Filtering 7.0分前50% 21. On the Design of Higher-Order Time-Intensity Microphone Arra 7.0分前25% 22. Deep Spatial Clue Informed Ambisonic Encoding for Irregular 7.0分前25% 23. HergNet: A Fast Neural Surrogate Model for Sound Field Predi 7.0分前25% 24. AnyRIR: Robust Non-Intrusive Room Impulse Response Estimatio 7.0分前25% 25. SIREN: Spatially-Informed Reconstruction of Binaural Audio w 7.0分前25% 26. Frequency-Independent Ambisonics Upscaling Using Deep Learni 6.5分前50% 27. Exterior Sound Field Estimation Based on Physics-Constrained 6.5分前25% 28. Mixture-of-Experts Framework for Field-of-View Enhanced Sign 6.5分前50% 29. Generating Localized Audible Zones Using a Single-Channel Pa 6.5分前50% 30. Continuation Method for Feedback Delay Network Modal Decompo 6.5分前50% 31. Secondary Source Placement for Sound Field Control Based on 6.0分前25% 📋 论文详情 🥇 Spatial-CLAP: Learning Spatially-Aware Audio–Text Embeddings for Multi-Source Conditions 🔥 8.5/10 | 前25% | #空间音频 | #对比学习 | #声源定位 #跨模态 ...

Individualize the HRTF Neural Field Using Anthropometric Parameters Weighted by Direction-Attention

📄 Individualize the HRTF Neural Field Using Anthropometric Parameters Weighted by Direction-Attention #空间音频 #个性化建模 #HRTF #条件神经场 ✅ 7.0/10 | 前25% | #空间音频 | #条件神经场 | #个性化建模 #HRTF 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Yuhang Xiao（武汉大学计算机学院，国家多媒体软件工程研究中心）通讯作者：Xiaochen Wang（武汉大学计算机学院，国家多媒体软件工程研究中心）作者列表：Yuhang Xiao（武汉大学计算机学院，国家多媒体软件工程研究中心）、Xiaochen Wang（武汉大学计算机学院，国家多媒体软件工程研究中心）、Chenhao Hu（小米公司）、XueYang Lv（小米公司）、Miaomiao Li（武汉大学计算机学院，国家多媒体软件工程研究中心）、Yulin Wu（江汉大学人工智能学院）、Jiajun Yuan（武汉大学计算机学院，国家多媒体软件工程研究中心） 💡 毒舌点评该论文的亮点在于其系统性：从方向依赖性的物理直觉出发，设计了“方向注意力编码器”并系统比较了多种条件神经场的映射方式（FiLM、HyperNet、Cat），实验设计环环相扣，说服力较强。然而，其短板同样明显：作为一个强调“可复现”和“实际应用”的工作，却在论文中完全缺失了代码、模型、关键训练细节的公开计划，这与其推动“新范式”的雄心形成了鲜明对比，实用性大打折扣。 🔗 开源详情代码：论文中未提及代码仓库链接或开源计划。模型权重：论文中未提及公开任何预训练模型权重。数据集：使用了公开的HUTUBS和CIPIC数据库，但论文未说明其获取方式或是否进行了特定预处理。 Demo：论文中未提及提供在线演示。复现材料：论文未提供详细的训练日志、配置文件、检查点或附录补充实验细节。关键超参数（如各阶段的学习率、优化器、训练轮数、网络隐藏维度等）均未给出。论文中引用的开源项目：引用的骨干网络算法来自文献[28]（NiIRF），但论文未说明是否基于其开源实现或如何集成。其他引用（如数据集[34,35]）为标准资源。 📌 核心摘要要解决什么问题：解决传统HRTF（头部相关传递函数）个性化方法（测量、声学仿真）成本高、难部署的问题，以及现有机器学习方法在HRTF高维数据建模上精度与规模的权衡难题。方法核心是什么：提出一个条件神经场（NeRF）框架。核心是设计一个方向注意力编码器，根据声源方向（方位角、仰角）为不同的人体测量参数分配不同的注意力权重，然后将其编码为个人特征；再通过一个特征线性调制（FiLM）网络，将个人特征逐层注入到作为骨干网络的HRTF NeRF中，从而调制生成个性化的HRTF频谱。与已有方法相比新在哪里：1) 范式迁移：首次将条件神经场技术从HRTF的空间插值任务系统性地拓展到个性化HRTF生成任务。2) 方向感知编码：引入了方向注意力机制，考虑了人体测量参数对不同方向HRTF影响的差异性。3) 系统化比较与优化：对条件神经场中的编码（硬/软权重、超网络）和映射（FiLM、HyperNet、拼接）方式进行了全面的消融实验对比，确定了最优组合。主要实验结果如何：在HUTUBS和CIPIC两个数据库上，所提最佳组合（硬权重+FiLM+冻结骨干两阶段训练）取得了优于对比方法的客观性能（以对数谱失真LSD衡量）。关键结果对比如下：数据库最佳方法 (Proposed) 最佳基线方法 LSD (Proposed) LSD (最佳基线) HUTUBS 硬权重+FiLM LightGBM-Transformer 4.611 dB 4.690 dB CIPIC 硬权重+FiLM SHT-VGG 5.066 dB 5.310 dB 论文未提供主观听感实验结果。实际意义是什么：为个性化空间音频渲染提供了一种新的、潜在更高效准确的建模思路。该框架仅需少量人体测量参数即可生成未知个体的HRTF，若能实现开源部署，将有助于降低高品质个性化空间音频应用的门槛。主要局限性是什么：1) 评估局限：仅使用客观指标LSD进行评估，缺乏主观听感测试（如定位准确度、音质偏好），无法全面验证方法的实际听觉效果。2) 复现性缺失：论文未提供代码、模型权重及关键训练细节，严重阻碍了学术界的验证与应用。3) 创新深度：核心编码器和调制器的结构相对简单，更侧重于将现有技术进行有效组合与应用验证。 🏗️ 模型架构论文的整体架构如图1所示，主要由三大部分组成：编码器（Encoder）、调制器（Modulator）和骨干网络（Backbone）。 ...

Lightweight Implicit Neural Network for Binaural Audio Synthesis

📄 Lightweight Implicit Neural Network for Binaural Audio Synthesis #空间音频 #隐式神经网络 #轻量模型 #端到端 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #隐式神经网络 | #轻量模型 #端到端学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）通讯作者：Jinqiu Sang（华东师范大学计算机科学与技术学院，邮箱：jqsang@mail.ecnu.edu.cn）作者列表：Xikun Lu（华东师范大学上海市人工智能教育重点实验室，华东师范大学计算机科学与技术学院）、Fang Liu（未说明）、Weizhi Shi（贵州工业职业技术学院大数据与信息工程系）、Jinqiu Sang（华东师范大学计算机科学与技术学院） 💡 毒舌点评亮点：巧妙地将隐式神经表征（INR）从连续场重建迁移到了动态的频谱校正任务上，用一个紧凑的MLP（0.15M参数）就建模了复杂的时变声学传递函数，这种“小而美”的设计思路值得肯定。短板：消融实验止步于“有/无”模块和编码器的比较，未能进一步剖析隐式网络本身的关键超参数（如层数、宽度、频率编码维数）对性能的敏感性，使得最优架构的选择缺乏更深入的理论或经验支撑。 🔗 开源详情代码：提供代码仓库链接：https://github.com/Luxikun669/Lite-INN 模型权重：论文中未提及是否公开预训练模型权重。数据集：使用公开的Binaural Speech数据集，但未说明如何获取或提供下载链接（需参考原始数据集论文）。 Demo：论文中未提及在线演示。复现材料：提供了关键的实现细节，包括：STFT参数（窗长512，帧移256），TDW模块的改编说明，IBC的MLP结构（3层，256单元），频率/时间编码带数（8/12），优化器（AdamW），学习率调度（余弦退火，1e-3至1e-6），损失权重（λ1=1.0, λ2=0.01），训练轮数（100），批次大小（32）。论文中引用的开源项目：改编自WarpNet [10]的时间域翘曲模块。总结：论文提供了代码和核心复现配置，但缺少预训练权重、详细训练日志和更完整的环境说明。 📌 核心摘要问题：高保真双耳音频合成（从单声道生成具有空间感的立体声）是VR/AR等沉浸式体验的关键，但现有基于深度学习的方法模型庞大，难以在计算资源有限的边缘设备上实时运行。方法核心：提出一个名为Lite-INN的两阶段轻量级框架。第一阶段使用时间域翘曲（TDW）模块生成初步的双耳信号以近似双耳时间差（ITD）；第二阶段将初步信号转换到时频域，并通过一个新颖的隐式双耳校正器（IBC）模块，将每个时频点的增益和相位校正建模为空间位置、耳朵索引、频率和时间坐标的连续函数，从而进行精细的频谱修正。新意：将频谱校正任务重新定义为隐式神经表示问题，使用一个小型多层感知机（MLP）直接预测每个时频bin的复数增益。这与之前基于卷积或注意力机制的方法不同，能以极低的参数量（0.15M）建模复杂的动态声学特性。主要实验结果：在Binaural Speech数据集上，Lite-INN相比最轻量的基线NFS，在参数量上减少72.7%（从0.55M到0.15M），计算量（MACs）降低21.5%（从3.40G到2.67G）。主观MOS测试表明，其感知质量（MOS-Q/S/Sim）与最高的WaveNet基线无统计显著差异（p > 0.05），且显著优于NFS和DPATFNet（p < 0.05）。其客观指标如Wave-ℓ2（0.167）、IPD-ℓ2（1.233）处于竞争力水平。模型参数量(M) ↓ MACs(G) ↓ Wave-ℓ2 ↓ IPD-ℓ2 ↓ NFS [13] 0.55 3.400 0.172 1.250 DPATFNet [14] 2.42 15.64 0.148 1.020 Lite-INN (Ours) 0.15 2.670 0.167 1.233 实际意义：成功在合成质量与计算效率之间取得了良好平衡，其极小的模型尺寸（0.15M参数）和低计算需求（RTF 0.121）使其非常适合部署在手机、耳机等边缘设备上，实现实时的高保真空间音频渲染。主要局限性：隐式校正器（IBC）对动态场景（如声源快速移动）的建模能力依赖于输入的连续坐标编码，其泛化能力和对未见轨迹的表现未经充分验证。此外，消融实验未探讨IBC内部网络结构（如深度、宽度）的影响。 🏗️ 模型架构本文提出的Lite-INN是一个两阶段的端到端框架，目标是从单声道音频x和随时间变化的声源位姿P(t)合成双耳音频y。 ...

Matching Reverberant Speech Through Learned Acoustic Embeddings

📄 Matching Reverberant Speech Through Learned Acoustic Embeddings #音频生成 #信号处理 #空间音频 #实时处理 🔥 8.0/10 | 前25% | #音频生成 | #信号处理 | #空间音频 #实时处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Philipp Götz（International Audio Laboratories Erlangen†，Germany）通讯作者：未说明作者列表：Philipp Götz（International Audio Laboratories Erlangen†，Germany）、Gloria Dal Santo（Acoustics Lab, Dpt. of Information and Communications Engineering, Aalto University，Finland）、Sebastian J. Schlecht（Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)，Germany）、Vesa Välimäki（Acoustics Lab, Dpt. of Information and Communications Engineering, Aalto University，Finland）、Emanuël A. P. Habets（International Audio Laboratories Erlangen†，Germany） †International Audio Laboratories Erlangen是Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU)和Fraunhofer IIS的联合机构。 💡 毒舌点评亮点在于将混响参数盲估计任务巧妙重构为“信号匹配”问题，并利用一个改进的、可微分的FDN结构（尤其是可学习的正交反馈矩阵）显著提升了合成混响在声学参数（如T30）上的准确性。然而，论文的短板在于其对混响早期反射模式的建模能力有限，且当前评估主要局限于语音信号，对音乐等激励源下的泛化能力以及噪声鲁棒性未做充分验证。 ...

Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers

📄 Mixture-of-Experts Framework for Field-of-View Enhanced Signal-Dependent Binauralization of Moving Talkers #空间音频 #波束成形 #信号处理 #移动声源跟踪 ✅ 6.5/10 | 前50% | #空间音频 | #波束成形 #信号处理 | #波束成形 #信号处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Manan Mittal（Stony Brook University, Meta Reality Labs Research）通讯作者：未说明作者列表：Manan Mittal（Stony Brook University, Meta Reality Labs Research）、Thomas Deppisch（Chalmers University of Technology, Meta Reality Labs Research）、Joseph Forrer（Meta Reality Labs Research）、Chris Le Sueur（Meta Reality Labs Research）、Zamir Ben-Hur（Meta Reality Labs Research）、David Lou Alon（Meta Reality Labs Research）、Daniel D.E. Wong（Meta Reality Labs Research） 💡 毒舌点评这篇论文巧妙地将混合专家模型应用于双耳渲染，实现了无需显式声源定位的动态跟踪与增强，思路颇具启发性。然而，其在真实世界的实验规模较小、对比基线相对传统，且全文未提供任何开源代码或复现细节，大大削弱了其作为方法论贡献的可验证性和可复用性。 ...

Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching

📄 Multimodal Room Impulse Response Generation Through Latent Rectified Flow Matching #音频生成 #流匹配 #空间音频 ✅ 7.5/10 | 前25% | #音频生成 | #流匹配 | #空间音频学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Ali Vosoughi（University of Rochester）通讯作者：未说明（根据贡献标注†，Qihui Yang和Nathan Paek可能为通讯作者，但论文未明确标注）作者列表：Ali Vosoughi（University of Rochester）、Yongyi Zang（Smule Labs）、Qihui Yang（University of California, San Diego）、Nathan Paek（Stanford University）、Randal Leistikow（Smule Labs）、Chenliang Xu（University of Rochester）。所有作者贡献均等标注为‡。 💡 毒舌点评这篇工作巧妙地用“两阶段法”绕开了RIR领域的两大痛点：先让VAE学会了“脑补”高频，再用流匹配模型学会了“听懂人话”。其核心创新（文本条件生成全频带RIR）和扎实的实验（RT60误差从-37%跃升至8.8%）令人印象深刻，是近期RIR生成领域的一个亮点。但“caption-then-rewrite”流程依赖一堆闭源模型（VLM, LLM）来生成训练数据，这种“用魔法打败魔法”的做法虽然有效，却可能成为复现和分析的黑箱，且最终模型效果的上限恐怕被合成数据的质量牢牢锁死。 🔗 开源详情代码：论文中未提及代码链接。主页链接https://ali-vosoughi.github.io/PromptReverb/仅提供音频样例演示。模型权重：未提及公开权重。数据集：论文使用了多个公开数据集，并声称数据集将公开，但未提供当前获取链接或说明。 Demo：提供了在线音频样例演示（通过上述主页链接）。复现材料：论文给出了较为详细的模型架构描述、损失函数、部分训练超参数（如β值、CFG强度、模型尺寸），但未提供完整的训练脚本、配置文件或预训练检查点。引用的开源项目/模型：论文明确依赖或借鉴了以下开源项目/模型：Moondream2, Qwen2-VL, Microsoft Phi-4 (用于文本生成)，WavTokenizer, HiFi-GAN, PyRoomAcoustics等。总结：论文未提及完整的开源计划，仅提供了演示页面和部分技术细节。 📌 核心摘要问题：现有房间脉冲响应（RIR）生成方法面临两大核心挑战：一是缺乏高质量的全频带（如48kHz）RIR训练数据集；二是现有模型无法从多样化的输入（尤其是自然语言）中生成声学准确的RIR，限制了其在创意和实际应用中的使用。方法核心：本文提出了一个名为PromptReverb的两阶段生成框架。第一阶段：训练一个β-变分自编码器（VAE），能将带限RIR上采样至全频带48kHz质量。第二阶段：构建一个基于rectified flow matching的条件扩散Transformer（DiT），它以VAE编码器的潜在表示为目标，根据文本描述生成相应的RIR。与已有方法相比新在哪里：这是首个能够从自由形式的自然语言文本描述合成完整48kHz RIR的方法。它无需360°全景图像、深度估计、三维几何模型或专业声学参数。通过“caption-then-rewrite”流程，利用视觉语言模型和大语言模型自动生成大规模、多样化的文本-RIR训练对。主要实验结果：在包含1957个测试样本的评估中，PromptReverb的XL模型在长文本条件下实现了8.8%的平均RT60误差，而基线方法Image2Reverb的误差为-37%（严重低估混响时间）。在主观听感评估中，PromptReverb在混响质量和文本匹配度两个维度上均优于基线。关键结果对比表（来自论文表1）： Error Type Baseline [7] XL, Long XL, Short L, Long L, Short B, Long B, Short S, Long S, Short Mean Error (%) -37.0 8.8 4.8 24.6 26.0 30.2 27.7 43.4 21.9 实际意义：为虚拟现实（VR）、增强现实（AR）、游戏音频、建筑声学模拟和音频制作等领域提供了一种灵活、高质量的RIR合成工具，用户可通过直观的文本描述定制所需混响效果，降低了专业门槛。主要局限性：(1) 模型性能的上限可能受限于训练数据的质量和多样性，其中大量数据来自合成（PyRoomAcoustics）或历史录音，未必完全覆盖真实世界的复杂声学场景。(2) “caption-then-rewrite”流程本身依赖于多个外部模型，其质量直接影响最终生成效果。(3) 论文未提供代码、模型权重或数据集，复现依赖较大。 🏗️ 模型架构 PromptReverb的架构分为三个核心部分（如图1所示）： ...

Natural Language to Spatial Audio Parameters: Lightweight Deterministic Rendering for Creative Authoring

📄 Natural Language to Spatial Audio Parameters: Lightweight Deterministic Rendering for Creative Authoring #空间音频 #回归模型 #多语言 #跨模态 #工业应用 ✅ 7.5/10 | 前25% | #空间音频 | #回归模型 | #多语言 #跨模态学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Seungryeol Paik（首尔大学情报与智能学系）通讯作者：Kyogu Lee（首尔大学情报与智能学系 / 人工智能跨学科项目 / 人工智能研究所）作者列表：Seungryeol Paik（首尔大学情报与智能学系）、Kyogu Lee（首尔大学情报与智能学系；首尔大学人工智能跨学科项目；首尔大学人工智能研究所） 💡 毒舌点评亮点：论文精准地瞄准了专业音频创作工具“学习曲线陡”与生成式模型“输出不可控”之间的鸿沟，提出了一个轻量、确定性、参数可编辑的回归框架，思路清晰，工程实用价值高。短板：核心指标33.2°的角误差在精确定位要求高的场景下可能仍显不足，且对于“比喻性”描述（如“幽灵般的低语”）的处理效果极差（>90° AE），暴露了当前文本嵌入模型在抽象语义与几何空间映射上的根本局限。 🔗 开源详情代码：论文未提供代码仓库链接。模型权重：论文未提及公开预训练模型权重。数据集：论文未提及数据集是否公开及获取方式。 Demo：提供了在线演示链接：https://paiiek.github.io/mmhoa-demo/。复现材料：论文提供了详尽的训练细节（架构、损失函数、超参数、数据集规模与划分、增强策略），可作为复现的良好参考，但未提供官方训练脚本或配置文件。论文中引用的开源项目：依赖MiniLM-L12-v2模型、BitFit微调方法、CIPIC和KEMAR HRTF数据库、SOFA格式标准、IEM Ambisonics插件等开源/开放标准。开源计划：论文未提及未来的开源计划。 📌 核心摘要要解决的问题：传统空间音频参数控制复杂，学习门槛高；近期基于生成模型的方法虽然降低了门槛，但输出随机、不可复现、难以编辑，无法满足专业创作工作流的需求。方法核心：提出一个轻量级框架，使用经过微调的多语言MiniLM编码器，将自然语言（英语、韩语）直接回归为8维确定性空间音频参数向量（方位角正弦/余弦、仰角、距离、扩展、混响比、增益、房间深度），再通过标准DSP算法（如VBAP/HRTF）进行渲染。与已有方法相比新在哪里：与依赖大规模随机生成模型（如Diff-SAGe）的方法不同，本方法采用参数回归范式，实现了输出确定性、参数可编辑、低延迟（<100ms CPU）。相比简单的基于规则的基线，其精度更高，且具备语义理解能力。主要实验结果：在自建的多语言数据集上，模型达到平均33.2°的角误差（AE），显著优于基于规则的基线（71.0°）和SBERT/E5基线（51.8-76.8°）。消融实验验证了角度损失（Ldir）和自适应边缘（m）的有效性。在25人参与的主观听力测试中，本模型在“文本-空间匹配度”、“定位清晰度”和“自然度”上均显著优于基线（p < 0.001）。在特定OOD测试中，数值提示表现好（19.9° AE），比喻性提示表现差（>90° AE）。方法输入 AE (°) ↓ MOS（匹配度）↑ FoleySpace [11] 视频+文本 45.0^1 3.81^3 Diff-SAGe [6] 文本 37.9^1 N/A 本文（Proposed）文本 33.2 4.12 规则基线文本 71.0 3.06 E5 encoder基线文本 38.2 N/A ^1 Diff-SAGe报告的为主观方向感知误差，其他为算法计算AE。^3 FoleySpace的MOS评分协议不同。 ...

On the Design of Higher-Order Time-Intensity Microphone Arrays for Panoramic Audio Recording and Reproduction

📄 On the Design of Higher-Order Time-Intensity Microphone Arrays for Panoramic Audio Recording and Reproduction #空间音频 #麦克风阵列 #波束成形 #信号处理 ✅ 7.0/10 | 前25% | #空间音频 | #麦克风阵列 | #波束成形 #信号处理学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度高 👥 作者与机构第一作者：Xudong Zhao（伦敦国王学院工程系）通讯作者：未说明作者列表：Xudong Zhao（伦敦国王学院工程系）、Enzo De Sena（萨里大学录音研究所）、Hüseyin Hacıhabiboğlu（中东技术大学研究生院信息学部）、Zoran Cvetković（伦敦国王学院工程系） 💡 毒舌点评亮点：论文构建了一个从理想方向性图案设计、到基于差分麦克风阵列（LDMAs）的波束成形器求解、再到阵列拓扑联合优化的完整理论框架，逻辑严密，将多个子问题统一在了一个数学框架下。短板：论文最大的遗憾是实验验证仅停留在仿真阶段，一个旨在解决“实际录音与重放”问题的论文，却缺少任何真实声学环境下的录制与播放测试，其“有效性”和“实用价值”因此打了折扣。此外，关键设计参数（如µ的选取依据）和代码的完全未公开，让复现几乎成为泡影。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。 Demo：未提及。复现材料：论文给出了主要算法框架、优化问题公式和关键参数（如δ_min, µ, Q），但缺乏具体的MATLAB/Python实现代码、优化器配置和训练细节，复现门槛较高。论文中引用的开源项目：未提及。 📌 核心摘要问题：传统基于时间-强度声像（Time-Intensity Panning）的全景声录制与重放系统，大多依赖于经验设计的低阶指向性麦克风，缺乏系统化的设计方法来实现和优化高阶麦克风阵列。方法核心：提出使用线性差分麦克风阵列（LDMAs）来实际实现所需的高阶指向性图案。构建了一个综合框架，包括：(a) 通过最小化均方波束图案误差（MSBE）并约束白噪声增益（WNG）来设计差分波束成形器；(b) 利用广义模式搜索法优化LDMAs中麦克风的非均匀间距。新意：不同于以往研究要么使用理想指向性图案、要么仅限于低阶麦克风，本文提供了从理论目标方向图到实际物理阵列实现的完整设计链。优化框架兼顾了波束图案的准确性与系统的鲁棒性。主要实验结果：仿真结果表明，在相同麦克风数量（M）和阵列半径（r）下，优化后的非均匀间距LDMAs比均匀间距LDMAs具有更低的MSBE（图4）。在固定麦克风数量（M=6）和WNG约束（-10 dB）下，增大阵列半径（r从10cm增至20cm）可降低MSBE（图5(c)）。在中心听音区域内，系统能较准确地再现目标平面波的有源强度方向（图6）。参数配置 r (cm) 最大ICTD (ms) ICLD (dB) 二阶指向性系数 {a0, a1, a2} 配置1 10 0.2015 10.91 {0.096, 0.48, 0.424} 配置2 15.5 0.3123 9.02 {0.164, 0.515, 0.321} 配置3 20 0.4029 7.6 {0.226, 0.547, 0.227} 实际意义：为设计具有特定性能（如特定通道间电平差和时间差）的全景声麦克风阵列提供了可量化的工程方法，有望提升专业音频录制设备的性能。主要局限性：所有验证均基于理想平面波和简化聆听区域模型，未进行真实声场中的录制、重放及主观听感测试；未提供代码和优化细节，难以复现。 🏗️ 模型架构本文的“模型”是一个物理声学系统及其信号处理链的设计框架，而非神经网络模型。 ...

Perceptual Loss Optimized HRTF Personalization in Spherical Harmonic Domain

📄 Perceptual Loss Optimized HRTF Personalization in Spherical Harmonic Domain #空间音频 #信号处理 #迁移学习 ✅ 7.0/10 | 前25% | #空间音频 | #信号处理 | #迁移学习学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Yuanming Zheng（武汉大学计算机学院 NERCMS）通讯作者：Yuhong Yang（武汉大学计算机学院 NERCMS，Hubei Key Laboratory of Multimedia and Network Communication Engineering）作者列表： Yuanming Zheng（武汉大学计算机学院 NERCMS） Yuhong Yang（武汉大学计算机学院 NERCMS；Hubei Key Laboratory of Multimedia and Network Communication Engineering） Weiping Tu（武汉大学计算机学院 NERCMS） Zhongyuan Wang（武汉大学计算机学院 NERCMS） Mengdie Zhou（广东OPPO移动通信公司） Song Lin（广东OPPO移动通信公司） 💡 毒舌点评亮点：论文清晰地指出了HRTF个性化面临的“空间复杂性高”与“数据集规模小”两大痛点，并给出了一个工程上直觉有效的“组合拳”解决方案——用球谐变换（SH）压缩空间维度，再用通用HRTF作为强先验，最后用更符合听觉感知的损失函数来“校准”预测，思路务实且结果改善明显。短板：论文没有开源代码，且实验仅在HUTUBS一个数据集上进行验证，虽然方法描述详尽，但对于一个声称“增强泛化能力”的未来方向而言，当前工作的可复现性和验证广度略显不足，可能影响其作为可靠基准的潜力。 ...

Personal Sound Zones with Flexible Bright Zone Control

📄 Personal Sound Zones with Flexible Bright Zone Control #空间音频 #卷积神经网络 #信号处理 #麦克风阵列 ✅ 7.5/10 | 前25% | #空间音频 | #卷积神经网络 | #信号处理 #麦克风阵列学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Wenye Zhu（浙江大学；西湖大学 & 西湖高等研究院）通讯作者：Xiaofei Li（西湖大学 & 西湖高等研究院）作者列表：Wenye Zhu（浙江大学，西湖大学 & 西湖高等研究院），Jun Tang（西湖大学 & 西湖高等研究院），Xiaofei Li（西湖大学 & 西湖高等研究院） 💡 毒舌点评亮点：实验设计非常用心，创新性地引入“监控点网格”和“随机网格掩码”训练策略，有效解决了过拟合和泛化性问题，使网络真正学习到空间连续信息，而非仅仅拟合离散控制点。短板：网络架构采用了非常成熟的3D ResNet，缺乏针对声学问题本身的结构性创新；此外，所有实验均基于模拟数据，未在真实房间和硬件系统中进行验证，结论的工程实用性仍需打上问号。 📌 核心摘要问题：传统个人声区（PSZ）系统依赖于固定的麦克风控制网格来测量声学传递函数（ATF），当目标声场或控制点位置变化时，需要重新测量和计算，这限制了其实际应用的灵活性和便捷性。方法核心：提出了一种基于3D卷积神经网络（CNN）的端到端模型，该模型以目标声区的ATF（在灵活或稀疏的麦克风网格上采样）为输入，直接输出用于扬声器阵列的预滤波器组。创新性：与传统压力匹配（PM）等方法相比，该方法在一次训练后，能够同时处理可变的目标声场、灵活的麦克风网格模式以及更稀疏的控制点，显著提升了系统的适应性和轻量化潜力。主要实验结果：在模拟混响环境中，所提方法在亮区相对均方根误差（REB）和声学对比度（AC）等关键指标上全面优于基线PM方法。例如，在3×3稀疏控制网格（Grid-3#1）下，Neural PSZ的REB为-21.79 dB，远优于PM的-9.67 dB；AC为14.12 dB，也高于PM的9.61 dB（见表1）。图表4和表2显示，其性能在网格变得稀疏时下降缓慢，而PM性能则急剧下降。实际意义：该工作推动了PSZ技术向更灵活、轻量化的实际应用迈进，使得利用少量麦克风快速部署和切换不同虚拟声学场景成为可能，适用于AR/VR、家庭娱乐等场景。主要局限性：研究完全基于仿真实验，未涉及真实硬件系统部署；网络架构为通用设计，未探索针对声学问题的特定优化；模型训练细节（如具体迭代次数）和计算开销分析不够详细。 🏗️ 模型架构 ...