声源定位 | 语音/音乐/音频论文速递

Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization

📄 Physics-Informed Audio-Geometry-Grid Representation Learning for Universal Sound Source Localization #声源定位 #物理信息 #麦克风阵列 #鲁棒性 🔥 8.0/10 | 前25% | #声源定位 | #物理信息 | #麦克风阵列 #鲁棒性学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Min-Sang Baek (韩国汉阳大学电子工程系) 通讯作者：Joon-Hyuk Chang* (韩国汉阳大学电子工程系) 作者列表：Min-Sang Baek (韩国汉阳大学电子工程系)， Gyeong-Su Kim (韩国汉阳大学电子工程系)， Donghyun Kim (韩国汉阳大学电子工程系)， Joon-Hyuk Chang* (韩国汉阳大学电子工程系) 💡 毒舌点评亮点：将表示学习与物理信息先验（如频率非均匀采样、相对位置编码）巧妙结合，提出的LNuDFT和rMPE组件有扎实的理论支撑且在实验中效果显著。短板：框架引入了额外的Gridnet，尽管声称计算开销可控，但在实时性要求极高的边缘设备部署场景下，其推理延迟与资源消耗是否可接受，论文未做深入讨论与分析。 🔗 开源详情代码：论文明确提供了源代码仓库链接：https://github.com/BaekMS/Audio-Geometry-Grid_Representation-Learning。模型权重：论文未提及是否公开预训练模型权重。数据集：论文使用了公开数据集（LOCATA用于评估， LibriSpeech/TIMIT/MS-SNSD/ESC-50用于训练和部分评估）。合成数据集的生成方法已在算法3和附录A.10中详细描述，可依此复现。 Demo：未提及。复现材料：非常充分。论文正文和附录提供了所有关键实现细节，包括：LNuDFT和rMPE的精确公式与初始化；AuGeonet和Gridnet的详细架构图（图4，图5）；多阶段几何学习和深度监督课程学习的超参数表（表6）；合��数据生成算法（算法3）；损失函数、评估指标和推理算法的完整描述。论文中引用的开源项目：论文提到了以下开源工具/代码：gpuRIR（用于RIR模拟）， py-webrtcvad（用于生成语音活动检测标签），以及基线方法Neural-SRP和GI-DOAEnet的公开代码仓库。 📌 核心摘要本文针对现有深度神经网络声源定位（SSL）方法受限于固定麦克风阵列几何形状和预定义方向网格的问题，提出了一个通用框架——音频-几何-网格表示学习（AGG-RL）。该方法核心是通过一个双网络结构，联合学习源自音频信号和阵列几何的音频-几何表征（AGRs），以及编码候选方向的网格表征（GRs），两者通过内积相似性生成概率性空间谱，从而实现对任意网格和几何结构的泛化。与已有方法相比，其新意在于：1）首次将SSL任务解耦为互补的表示学习；2）引入可学习非均匀离散傅里叶变换（LNuDFT），自适应地将频率bin密集分配在富含相位信息的区域；3）提出相对麦克风位置编码（rMPE），直接编码符合TDOA物理特性的相对坐标。在合成数据集（Dynamic-S/U）和真实数据集（NAO机器人、Eigenmike）上的实验表明，所提方法在未见过的阵列几何（如Eigenmike）和通道数（如Dynamic-U）上均取得了最优性能。例如，在未见过的Eigenmike数据集上，所提方法的平均绝对误差（MAE）为11.24°，显著优于次优基线GI-DOAEnet的77.09°。该研究的意义在于为构建跨多种场景的通用空间声学场景理解系统提供了有效方案。其主要局限性在于，尽管设计了高效组件，但整体框架的计算开销相比一些轻量级基线有所增加，且未在动态声源场景下进行验证。 ...

A New Location Estimator for Mixed LOS & NLOS scenarios

📄 A New Location Estimator for Mixed LOS & NLOS scenarios #无线定位 #声源定位 #信号处理 #3D音频 #鲁棒性 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 | #无线定位 #3D音频 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Gaurav Duggal (Virginia Tech, Bradley Department of Electrical and Computer Engineering, Wireless@VT) 通讯作者：未明确指定，从作者列表和致谢信息看，所有作者贡献相当。作者列表： Gaurav Duggal (Virginia Tech, Wireless@VT) R. Michael Buehrer (Virginia Tech, Wireless@VT) Harpreet S. Dhillon (Virginia Tech, Wireless@VT) Jeffrey H. Reed (Virginia Tech, Wireless@VT) 💡 毒舌点评这篇论文的亮点在于其数学上的“优雅”：它没有回避NLOS场景的复杂性，而是用一个统一的衍射路径模型将其无缝涵盖，并通过“虚拟锚点”这一巧妙的数学构造，将非线性的3D问题降维成可高效求解的2D子问题，展现了扎实的理论功底和算法设计能力。短板则相当明显——所有结论都停留在精心设计的计算机仿真里，未给出任何在真实建筑、真实信号传播环境下的验证；其模型假设（如仅考虑单次边缘衍射）在复杂室内外环境中是否成立，需要打上一个大大的问号。 ...

Hankel and Toeplitz Rank-1 Decomposition of Arbitrary Matrices with Applications to Signal Direction-of-Arrival Estimation

📄 Hankel and Toeplitz Rank-1 Decomposition of Arbitrary Matrices with Applications to Signal Direction-of-Arrival Estimation #声源定位 #信号处理 #阵列信号处理 #鲁棒估计 #少样本 ✅ 7.5/10 | 前50% | #声源定位 | #信号处理 | #阵列信号处理 #鲁棒估计 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Georgios I. Orfanidis (佛罗里达大西洋大学连接自主与AI中心、电气工程与计算机科学系) 通讯作者：未说明（三位作者提供了邮箱，但未明确指定通讯作者）作者列表： Georgios I. Orfanidis (佛罗里达大西洋大学连接自主与AI中心、电气工程与计算机科学系) Dimitris A. Pados (佛罗里达大西洋大学连接自主与AI中心、电气工程与计算机科学系) George Sklivanitis (佛罗里达大西洋大学连接自主与AI中心、电气工程与计算机科学系) Elizabeth Serena Bentley (美国空军研究实验室 AFRL/RI) 💡 毒舌点评这篇论文的亮点在于理论推导非常扎实，对秩-1 Hankel逼近问题给出了在L2和L1范数下的最优解形式，并严格证明了其在对应噪声模型下的最大似然最优性，实验部分也覆盖了从仿真到真实UAV数据的完整链条。然而，其短板也同样明显：核心应用场景——单信源、有限快拍的DoA估计——相对具体且传统，算法依赖网格搜索，计算复杂度随精度要求快速上升，且全文未提供任何开源代码或数据，这对于一个依赖精确参数调谐（网格步长、Weiszfeld迭代次数）的方法来说，显著降低了其可复现性和实用价值。 ...

语音/音乐/音频论文速递 2026-04-30

语音/音乐/音频论文速递 2026-04-30 共分析 25 篇论文 ⚡ 今日概览 📥 抓取 25 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 4篇 ████ #音频深度伪造检测 2篇 ██ #声源定位 2篇 ██ #音视频 1篇 █ #语音克隆 1篇 █ #说话人验证 1篇 █ #语音匿名化 1篇 █ #语音情感识别 1篇 █ 📊 论文评分排行榜（25 篇，按分数降序）排名论文评分分档主任务 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark fo 9.0分前25% #语音合成 🥈 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥉 One Voice, Many Tongues: Cross-Lingual Voice Cloning fo 8.0分前25% #语音克隆 4. Similarity Choice and Negative Scaling in Supervised Co 8.0分前25% #音频深度伪造检测 5. Praxy Voice: Voice-Prompt Recovery + BUPS for Commercia 8.0分前25% #语音合成 6. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.5分前25% #说话人验证 7. SPG-Codec: Exploring the Role and Boundaries of Semanti 7.5分前25% #语音合成 8. DiffAnon: Diffusion-based Prosody Control for Voice Ano 7.5分前25% #语音匿名化 9. Diffusion Reconstruction towards Generalizable Audio De 7.5分前25% #音频深度伪造检测 10. EmoTransCap: Dataset and Pipeline for Emotion Transitio 7.5分前25% #语音情感识别 11. Hankel and Toeplitz Rank-1 Decomposition of Arbitrary M 7.5分前50% #声源定位 12. A New Location Estimator for Mixed LOS & NLOS scena 7.5分前25% #声源定位 13. Multimodal LLMs are not all you need for Pediatric Spee 7.5分前25% #语音分类 14. StarDrinks: An English and Korean Test Set for SLU Eval 7.5分前25% #数据集 15. Tatemae: Detecting Alignment Faking via Tool Selection 7.5分前25% #大语言模型 16. Step-Audio-R1.5 Technical Report 7.5分前25% #语音对话系统 17. Preferences of a Voice-First Nation: Large-Scale Pairwi 7.5分前25% #语音合成 18. The False Resonance: A Critical Examination of Emotion 7.0分前25% #语音情感识别 #模型评估 19. A Toolkit for Detecting Spurious Correlations in Speech 7.0分前50% #模型评估 20. Multiple Additive Neural Networks for Structured and Un 7.0分前50% #表格数据预测 21. Random Cloud: Finding Minimal Neural Architectures With 7.0分前50% #模型架构搜索 22. Recurrence-Based Nonlinear Vocal Dynamics as Digital Bi 6.5分前50% #语音生物标志物 23. Full band denoising of room impulse response in the wav 6.5分前50% #音频信号处理 24. Text-Utilization for Encoder-dominated Speech Recogniti 6.5分前50% #语音识别 25. Fitting Large Nonlinear Mixed Effects Models Using Vari 6.5分前50% #统计计算 📋 论文列表 🥇 PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech 🔥 9.0/10 | 前25% | #语音合成 | #模型评估 | #自监督学习 #多语言 | arxiv ...

A Speech-Driven Paradigm for Physics-Informed Modeling of Coupled Micro-Speakers

📄 A Speech-Driven Paradigm for Physics-Informed Modeling of Coupled Micro-Speakers #信号处理 #音频生成 #端到端 #声源定位 ✅ 7.0/10 | 前50% | #音频生成 | #信号处理 | #端到端 #声源定位学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Chen Huang†（重庆邮电大学通信与信息工程学院）通讯作者：Liming Shi†,⋆（重庆邮电大学通信与信息工程学院）作者列表：Chen Huang†（重庆邮电大学通信与信息工程学院）、Chen Gong†（重庆邮电大学通信与信息工程学院）、Lei Zhou†（重庆邮电大学通信与信息工程学院）、Guoliang Wu†（重庆邮电大学通信与信息工程学院）、Hongqing Liu†（重庆邮电大学通信与信息工程学院）、Lu Gan‡（Brunel University College of Engineering, Design and Physical Science）、Liming Shi†（重庆邮电大学通信与信息工程学院） 💡 毒舌点评论文的亮点在于其“范式转变”的提出——用真实语音而非工程信号进行系统辨识，并为此设计了一个物理启发式的紧凑神经网络（HPNN），在参数量和计算量远小于WaveNet的情况下达到了接近的性能，展现了“小而美”的工程优化价值。然而，短板也显而易见：作为一篇强调“生态效度”和“复现”的工作，论文完全未提供任何代码、模型权重或数据集，其实验结论对于第三方复现而言犹如空中楼阁，大大削弱了其作为“新范式”证明的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及公开模型权重。数据集：论文中未提及公开数据集。实验数据为自己采集。 Demo：论文中未提供在线演示。复现材料：论文提供了部分模型配置和训练策略（学习率、优化器、损失函数），但缺少硬件环境、完整超参数搜索过程、数据预处理细节等关键复现信息，不足以独立复现。论文中引用的开源项目：未在提供的论文文本中明确列出依赖的开源工具/模型。 📌 核心摘要问题：智能手机中的共腔多微扬声器系统存在复杂的非线性失真和声学耦合，传统的线性系统辨识方法（如正弦扫频）无法准确建模，影响了声音场控制等下游应用的性能。方法核心：提出一种以真实语音为激励源、基于物理信息的系统辨识新范式。核心是设计了一个“混合多项式神经网络”（HPNN），其架构直接映射自扬声器阵列的物理拓扑：对线性响应的扬声器使用单层卷积，对非线性强的扬声器引入并行多项式卷积与激活，并通过一个全连接混合层联合建模多个扬声器的响应与耦合。与已有方法相比新在哪里：摒弃了传统的扫频激励信号，改用更符合实际使用场景、频谱更丰富的语音信号进行激励和训练，以期更全面地激发系统非线性。模型架构上，HPNN是专为该多扬声器耦合问题定制的“灰盒”模型，兼具可解释性（物理结构指导）和数据拟合能力，在效率和参数规模上显著优于通用黑盒模型（如WaveNet）。主要实验结果：在消声室原型阵列上，HPNN的时间域归一化均方误差（NMSE）达到-11.35 dB，与WaveNet（-11.28 dB）性能相当，但参数量仅为117.62K（WaveNet为1.02M），内存占用和计算量（MACs）也大幅降低。在频率域（200-4000Hz），HPNN在多个频段的表现优于线性FIR模型和Volterra神经网络（VNN），接近WaveNet。具体数据见下表。模型 LSK1 (dB) LSK2 (dB) LSK3 (dB) LSK4 (dB) All (dB) HPNN -13.92 -16.25 -17.54 -8.13 -11.35 WaveNet -13.91 -17.03 -18.25 -8.15 -11.28 VNN -11.39 -12.25 -12.40 -7.32 -9.37 FIR -11.45 -11.47 -12.51 -5.83 -6.27 实际意义：为复杂非线性音频系统（如多扬声器设备）提供了一种更高效、更贴近实际工况的建模范式与模型设计思路，有望加速移动设备等资源受限环境下的音频系统开发与调试。主要局限性：研究仅在特定原型阵列和消声室环境下验证，其泛化能力未知；未公开代码、数据与模型，可复现性差；作为“新范式”的证明，缺乏与更多传统或先进方法的广泛对比。 🏗️ 模型架构论文提出的混合多项式神经网络（HPNN）架构如图1所示，其设计紧密贴合所研究的四扬声器（LSK1-LSK4）智能手机物理系统。 ...

A Unified SVD-Modal Solution for Sparse Sound Field Reconstruction with Hybrid Spherical-Linear Microphone Arrays

📄 A Unified SVD-Modal Solution for Sparse Sound Field Reconstruction with Hybrid Spherical-Linear Microphone Arrays #声源定位 #麦克风阵列 #信号处理 #鲁棒性 ✅ 6.5/10 | 前25% | #声源定位 | #麦克风阵列 | #信号处理 #鲁棒性学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Shunxi Xu (悉尼大学计算与音频研究实验室) 通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Shunxi Xu (悉尼大学计算与音频研究实验室，Computing and Audio Research Lab, The University of Sydney) Thushara Abhayapala (澳大利亚国立大学音频与声学信号处理组，Audio & Acoustic Signal Processing Group, The Australian National University) Craig T. Jin (悉尼大学计算与音频研究实验室) 💡 毒舌点评这篇论文的亮点在于为混合球形-线形麦克风阵列提供了一个原理清晰、数学形式优美的统一处理框架（SVD模态），避免了拼接或两阶段方法的“临时性”，并且通过模态分析直观展示了混合阵列的优势。短板在于缺乏开源实现，且实验环境（模拟混响室、特定阵列构型）虽然合理，但离真实世界复杂场景的验证尚有距离，使得结论的泛化性有待更多实践检验。 ...

Adaptive Spectral Weighting in Sagittal-Plane Sound Localization: A Reliability-Driven Approach

📄 Adaptive Spectral Weighting in Sagittal-Plane Sound Localization: A Reliability-Driven Approach #声源定位 #贝叶斯推理 #信号处理 #空间音频 #模型评估 ✅ 6.5/10 | 前25% | #声源定位 | #贝叶斯推理 | #信号处理 #空间音频学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yunda Chen 通讯作者：Nengheng Zheng (nhzheng@szu.edu.cn) 作者列表：Yunda Chen, Hui Zeng, Nengheng Zheng*（深圳大学，电子信息工程学院） 💡 毒舌点评这篇论文的亮点在于它承认并试图建模听觉感知中“动态权重调整”这一人性化但常被忽视的特性，提出的自适应加权方案在理论上更具生物合理性。但短板也明显：其验证场景主要是基于降质的合成听觉条件（如声码器处理），这更像是证明模型在特定退化下的鲁棒性，而非证明自适应机制在自然复杂环境下的普适优越性，因此结论的外推性有待商榷。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了开源的Auditory Modeling Toolbox (AMT)数据集，可通过引用文献[21]获取。 Demo：未提及。复现材料：论文给出了详细的模型架构、公式和参数拟合策略描述，但未提供检查点、配置文件或附录的额外细节。训练硬件等信息缺失。论文中引用的开源项目：明确引用了并使用了Auditory Modeling Toolbox (AMT)[21]。论文中未提及其它具体的开源代码或工具包。 📌 核心摘要解决什么问题：现有矢状面（上下方向）声源定位模型多采用固定的频谱加权方案，忽略了人类听觉系统会根据输入信号的可靠性动态调整不同频段贡献的这一事实，尤其是在感知线索退化的条件下。方法核心是什么：提出了一种基于贝叶斯推理的计算模型。核心创新是引入了一种自适应频谱加权方案，该方案能根据主导频谱凹陷区域（6-9kHz）的可靠性（用频谱互相关ρ衡量）动态调整权重。模型参数对每位听众进行了个体化校准。与已有方法相比新在哪里：将动态、依赖于信号可靠性的频谱加权机制整合到贝叶斯定位框架中。与四种来自先前研究的固定加权方案（Flat, NR, DT, SV_GL）进行系统比较。主要实验结果如何：对于宽带噪声刺激（高感知置信度），在组水平上没有发现某一种加权方案具有稳定优势（保护超出概率PXP均接近随机水平）。对于经声码器降质的点击序列刺激（模拟不同频谱分辨率，降低感知置信度），组水平PXP同样未显示明确偏好（SV_GL最高为0.281，但贝叶斯模型选择风险BOR为0.68，说明模型间差异不显著）。关键发现（图4）：在单个低置信度被试（NH12）的例子中，自适应加权方案的预测结果最接近人类实际反应。随着频谱线索减少，人类反应分布趋近于模型的双峰先验分布，该趋势也被模型捕获。论文未提供所有被试的详细定量对比表格，PXP值见图3。实际意义是什么：揭示了在感知线索不足时，空间先验知识在人类定位行为中的关键作用，并证明了在计算模型中模拟自适应加权对预测退化条件下听觉行为的重要性。对未来设计适应性更强的助听算法或虚拟声学系统有参考价值。主要局限性是什么：模型验证局限于使用HRTF和特定的降质处理（声码器）模拟的条件。自适应方案的优势仅在低置信度个体案例中直观显现，未能在整体统计上得到确凿的、优于其他方案的结论。模型参数的个体化校准增加了应用复杂度。 🏗️ 模型架构图1. 所提出的矢状面定位模型结构（根据论文图1描述）该模型是一个端到端的贝叶斯计算模型，流程如下： ...

An Envelope Separation Aided Multi-Task Learning Model for Blind Source Counting and Localization

📄 An Envelope Separation Aided Multi-Task Learning Model for Blind Source Counting and Localization #声源定位 #多任务学习 #麦克风阵列 #端到端 ✅ 6.5/10 | 前25% | #声源定位 | #多任务学习 | #麦克风阵列 #端到端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Jiaqi Du（北京大学智能科学与技术学院，通用人工智能国家重点实验室）通讯作者：Tianshu Qu（北京大学智能科学与技术学院，通用人工智能国家重点实验室，邮箱：qutianshu@pku.edu.cn）作者列表：Jiaqi Du（北京大学智能科学与技术学院，通用人工智能国家重点实验室）、Donghang Wu（北京大学智能科学与技术学院，通用人工智能国家重点实验室）、Xihong Wu（北京大学智能科学与技术学院，通用人工智能国家重点实验室）、Tianshu Qu（北京大学智能科学与技术学院，通用人工智能国家重点实验室） 💡 毒舌点评亮点在于将人耳听觉系统中“时空信息协同”的认知神经科学启发融入模型设计，通过一个可学习的门控机制动态平衡包络（时间）和坐标（空间）信息，这种“生理启发式设计”让模型动机显得很有说服力。短板是整体框架更像是把已有的吸引子网络、多任务学习和PIT进行工程化组合，缺乏更底层的理论突破；此外，所有实验都在精心控制的模拟数据集上完成，对真实世界中复杂声学环境（如非平稳噪声、遮挡）的鲁棒性验证不足，略显“温室里的花朵”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：使用了FSD50K公开数据集，但训练/测试的模拟FOA数据是作者通过脚本生成的，论文中未提供该生成脚本。 Demo：未提供在线演示。复现材料：给出了训练优化器、学习率、批次大小、轮数等部分细节。但未提供模型权重文件、训练配置文件或评估脚本。论文中引用的开源项目：论文中明确提及并依赖以下开源工具/数据集： FSD50K：用于获取原始音频。 gpuRIR：用于模拟房间脉冲响应。总结：论文中未提及开源计划。虽然依赖一些公开工具，但复现作者特定的实验设置仍需要大量额外工作。 📌 核心摘要问题：在声源数量未知或可变的条件下，实现准确的盲源计数与定位（SSL）是一个挑战。现有方法或受限于固定输出维度，或因独立处理包络分离与定位任务而未能充分利用时空信息的相互增益。方法：提出一种包络分离辅助的多任务学习模型。该模型包含三个模块：1）声学特征提取模块，编码一阶环绕声信号；2）自适应吸引子模块，动态生成吸引子向量来估计声源数量；3）多任务学习模块，通过一个可学习的门控机制，联合优化包络分离与3D坐标回归任务，并使用排列不变训练解决输出顺序歧义。创新：与现有顺序处理（先分离后定位）或独立优化任务的方法相比，该模型通过多任务学习框架实现了包络分离与方向预测的协同优化，利用包络信息作为辅助线索来增强定位精度。结果：在基于FSD50K和模拟房间脉冲响应生成的测试集上，该方法在盲源计数准确率（平均93.4%，相比基线SEET的88.0%）和定位误差（方位角误差10.59°，仰角误差6.74°，距离误差0.64m，相对距离误差22.08%）上均优于现有基线方法（EINV2, Sp-ACCDOA, SEET）。消融实验证明了包络分离辅助模块的有效性。意义：提供了一种处理未知声源数定位问题的统一框架，其时空信息协同优化的思路可能对其他多任务音频处理任务有借鉴意义。局限性：1）所有实验在模拟数据上进行，泛化能力未知；2）模型复杂度及计算开销未分析；3）多任务学习权重λ需要手动设置。 🏗️ 模型架构如图1所示，模型整体框架由三个串行模块构成： ...

ASAP: An Azimuth-Priority Strip-Based Search Approach to Planar Microphone Array DOA Estimation in 3D

📄 ASAP: An Azimuth-Priority Strip-Based Search Approach to Planar Microphone Array DOA Estimation in 3D #声源定位 #信号处理 #麦克风阵列 #实时处理 ✅ 7.5/10 | 前25% | #声源定位 | #信号处理 #麦克风阵列 | #信号处理 #麦克风阵列 | arxiv 学术质量 7.5/7 | 选题价值 7.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ming Huang（未说明具体机构，仅从作者列表推测与Shuting Xu等同属一单位）通讯作者：He Kong（南方科技大学）作者列表：Ming Huang（未说明），Shuting Xu（未说明），Leying Yang（未说明），Huanzhang Hu（未说明），Yujie Zhang（未说明），Jiang Wang（未说明），Yu Liu（未说明），Hao Zhao（未说明），He Kong（南方科技大学）。注：论文明确说明Xu，Yang，Hu为南方科技大学的访问学生，但未明确其他作者的具体所属机构。 💡 毒舌点评该论文针对平面麦克风阵列3D DOA估计的计算瓶颈，提出了一个结构清晰、实用性强的两阶段搜索算法（ASAP），实验充分且开源代码，是工程上一次扎实的改进。然而，其核心创新（将3D搜索拆解为方位角优先的条带搜索+仰角一维细化）本质上是对现有CFRC和SRP-PHAT的巧妙组合与定制，缺乏理论层面的突破，对平面阵列仰角模糊性的根本解决也显得有些保守。 🔗 开源详情代码：论文明确提供了开源代码仓库链接：https://github.com/AISLAB-sustech/ASAP/tree/main 模型权重：未提及。该方法为传统信号处理算法，无需训练模型权重。数据集：未提及公开数据集。实验使用了自采集的仿真数据和办公室环境下的真实语音录音。 Demo：未提及在线演示。复现材料：论文提供了详细的实验设置参数（阵列半径、麦克风数、信号采样率、STFT参数等）和算法伪代码（Algorithm 1, 2），基本满足复现需求。超参数的具体值（如条带宽度）未在论文中给出，可能需要参考开源代码。论文中引用的开源项目：未明确提及依赖的其他开源工具或模型。 📌 核心摘要要解决什么问题：传统的三维空间声源方向估计（DOA）方法（如SRP-PHAT）计算复杂度高，难以在资源受限的机器人平台上实时运行。对于结构简单的平面阵列，仰角估计精度通常低于方位角，进一步加剧了三维搜索的挑战。方法核心是什么：提出ASAP（方位角优先条带搜索法），采用两阶段策略。第一阶段，在预定义的方位角条带内进行由粗到精（CFRC）的搜索，并利用球帽过滤技术锁定可能的方位角候选区域。第二阶段，针对第一阶段锁定的一个或两个最佳候选方向，采用一维搜索策略（沿子午线或沿大圆弧）精细估计仰角。与已有方法相比新在哪里：与全网格搜索（SRP-PHAT）相比，ASAP避免了遍历所有方向；与通用的CFRC相比，ASAP显式利用了平面阵列方位角更可靠的特性，通过条带化搜索将三维问题降维，引入了结构化的搜索引导，提高了搜索效率。主要实验结果如何：仿真：在3751个测试点，Level 5网格下，ASAP（BP变体）运行时间（73.31秒）比CFRC（92.81秒）快约21%，RMSE（2.73°）比CFRC（3.16°）低约13.6%，并且优于全网格SRP-PHAT（RMSE 2.79°，运行时间3987.86秒）。真实实验：对523段语音录音，Level 5网格下，ASAP（BP变体）运行时间（28.58秒）比CFRC（36.23秒）快约21.1%，RMSE（8.83°）比CFRC（9.23°）低约4.3%，同时优于SRP-PHAT（RMSE 8.90°，运行时间1556.55秒）。实际意义是什么：显著降低了平面麦克风阵列进行三维声源定位的计算开销，同时保持甚至提升了定位精度，使其更适合在计算资源有限的嵌入式设备或移动机器人平台上实时应用。主要局限性是什么：方法的性能依赖于几个关键参数（如条带宽度、球帽半径、细化窗口）的先验设定，需要根据具体场景进行调整。论文假设平面阵列且方位角估计更可靠，该方法对其他阵列形式或方位角不可靠的场景适用性未做探讨。 🏗️ 模型架构 ASAP是一个基于传统信号处理的两阶段DOA估计框架，其整体架构如图1所示。 ...

Assessing The Perceptual Impact of Low-Altitude Aircraft Noise in Cities: An Auralization Framework Using Gaussian Beam Tracing

📄 Assessing The Perceptual Impact of Low-Altitude Aircraft Noise in Cities: An Auralization Framework Using Gaussian Beam Tracing #音频生成 #信号处理 #空间音频 #声源定位 🔥 8.0/10 | 前25% | #音频生成 | #信号处理 | #空间音频 #声源定位学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Qichen Tan（苏州大学未来科学与工程学院，香港科技大学）通讯作者：Kexin Sun（四川大学）作者列表：Qichen Tan（苏州大学未来科学与工程学院，香港科技大学）、Kexin Sun（四川大学）、Xun Jiang（电子科技大学）、Peng Hou（苏州大学未来科学与工程学院）、Jiayu Fan（苏州大学未来科学与工程学院） 💡 毒舌点评这篇论文的亮点在于其扎实的工程系统集成和基于真实物理模型的验证，将高精度声源测量与高效的波束追踪仿真结合，形成一个完整的、可用于实际场景评估的听觉化工具链，实验结果与实测数据吻合度极高。但短板在于创新性更多体现在系统整合而非算法本身的突破，高斯波束追踪等核心方法已有先例，且论文缺乏与现有先进仿真工具或传统航空听觉化方法的直接量化对比，使其“先进性”论述略显单薄。 🔗 开源详情代码：论文中提到项目主页（https://gbtflyovernoise.github.io），但未明确说明是否提供代码仓库链接。模型权重：未提及。数据集：论文中描述了其实验测量过程，但未提及是否公开声源方向性测量数据集或城市场景仿真数据。 Demo：未提及。复现材料：未提供训练细节、配置、检查点、附录说明等详细复现信息。论文中引用的开源项目：未提及。总结：论文提到了一个项目页面，但未提供关于代码、模型或数据开源的具体信息，因此整体开源情况不明确。 📌 核心摘要本文针对低空经济快速发展带来的城市飞行器噪音污染评估难题，提出了一种基于高斯波束追踪（GBT）的听觉化计算框架。该框架通过户外实验获取真实无人机的声源方向性数据，并将其与GPU加速的GBT远场声传播模型相结合，能够高保真地合成考虑城市复杂反射、衍射和大气吸收效应的飞越噪音。与传统假设声源为全向、环境为自由场的航空听觉化模型不同，本方法首次将频谱方向性建模与基于波动的声传播仿真相结合。主要实验结果包括：1）在模拟的香港密集社区场景中，接收器声压级随高度变化符合物理规律，频谱特征与无人机旋翼特征频率一致；2）在真实海边场景的交叉验证中，合成信号与实测信号在整体声压级（OASPL）上高度吻合，平均误差小于0.03 dBA，最大OASPL误差小于0.2 dBA（详见下表）。该框架为航空管理部门提供了用于城市规划、航线设计和噪音管理的实用数据指导工具，有助于平衡低空经济发展与噪音控制。其主要局限性可能在于，目前验证场景（两个案例）相对有限，且框架的计算效率与GPU依赖性可能影响其在超大规模或资源受限场景下的应用。 ...