FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band Layers for Multiple Moving Sound Source Localization

📄 FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band Layers for Multiple Moving Sound Source Localization #声源定位 #U-Net #深度学习 #麦克风阵列 🔥 8.0/10 | 前25% | #声源定位 | #U-Net | #深度学习 #麦克风阵列 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中未明确标注第一作者,作者列表按姓氏排序) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Yuseon Choi(光州科学技术院, Deeply Inc.)、Hyeonseung Kim(光州科学技术院)、Jewoo Jun(光州科学技术院)、Jong Won Shin(光州科学技术院) 💡 毒舌点评 亮点:论文的“性价比”极高,通过引入成熟的U-Net架构和深度可分离卷积,在模型参数量几乎不变的情况下,将计算复杂度(FLOPs)降低了近一半,同时定位精度还有小幅提升,这在面向实时部署的边缘计算场景下具有很强的吸引力。 短板:模型在更贴近真实、更具挑战性的LOCATA数据集上,性能相比基线IPDnet并未取得明显优势,这暗示其在极端复杂声学环境下的泛化能力或改进效果可能存在天花板,创新性稍显不足。 📌 核心摘要 这篇论文针对多移动声源定位任务中现有高性能模型(如IPDnet)计算复杂度过高的问题,提出了一种名为FUN-SSL的新颖神经网络架构。其方法核心是将原有的全窄带处理块(FN-block)替换为“全带层+U-Net窄带层”(FUN-block),在保持全带处理以捕捉频间相关性的同时,利用U-Net结构在多个分辨率上高效地建模时序依赖。主要创新在于模块化设计和引入了模块间的跳跃连接以丰富信息流。实验结果表明,在模拟数据集上,FUN-SSL(0.8M参数)在粗粒度准确率(94.2%)、细粒度误差(1.9°)和误警率(5.8%)上均优于重新训练的IPDnet(0.7M参数,对应指标为93.0%、2.0°、7.1%),同时计算量(FLOPs)从19.4G/s降至10.8G/s。该工作的实际意义在于为资源受限设备(如麦克风阵列)上的实时多声源跟踪提供了更高效的解决方案。主要局限性在于其在真实世界LOCATA数据集上的性能与基线模型相当,未展现出显著优势。 🏗️ 模型架构 本文提出的FUN-SSL是一个端到端的深度学习模型,其整体架构和核心模块FUN-block的详细设计如下图所示。 整体架构(图1上部): 输入:多通道音频信号的短时傅里叶变换(STFT)表示,形状为 N × K × 2M(帧数N,频率点K,麦克风数M,实虚部2)。输入经过拉普拉斯归一化。 处理主体:由一系列FUN块堆叠而成(论文中设置为B=2)。 输出头:最后一个FUN块的输出经过一个因果卷积块,其中使用了深度可分离卷积(先逐点卷积后深度卷积),最终输出各麦克风对关于Q个候选源的直接路径相对传递函数(DP-RTF)的实部和虚部估计值。 定位决策:估计的DP-RTF与所有可能方向的理论DP-RTF进行比对,以确定声源活动和到达方向(DoA)。 FUN块(图1下部详细结构):每个FUN块是模型的核心计算单元,旨在以更低的计算成本实现全带-窄带双路径处理。 ...

2026-04-29

HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse Response Dataset

📄 HiFi-HARP: A High-Fidelity 7th-Order Ambisonic Room Impulse Response Dataset #数据集 #混合仿真 #麦克风阵列 #空间音频 #声源定位 ✅ 7.5/10 | 前25% | #数据集 | #混合仿真 | #麦克风阵列 #空间音频 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Shivam Saini(Leibniz University Hannover, Institut für Kommunikationstechnik) 通讯作者:未说明 作者列表:Shivam Saini(Leibniz University Hannover, Institut für Kommunikationstechnik)、Jürgen Peissig(Leibniz University Hannover, Institut für Kommunikationstechnik) 💡 毒舌点评 亮点:论文的亮点在于其“集大成”的工程实现——将高阶Ambisonics(7阶)、混合声学仿真(低频波导+高频射线追踪)以及来自3D-FRONT的复杂室内场景这三个关键要素成功融合并规模化,形成了一个在技术规格上超越以往同类数据集(如HARP、GWA)的资源。短板:主要短板在于其“高保真”声称部分依赖于文本语义的材料映射(图2,图3),这引入了一个与真实世界材料属性不确定性的间隙,使得数据集的保真度上限可能受限于该映射方法的精度,而非物理仿真本身的极限。 📌 核心摘要 解决的问题:为了解决现有大规模房间脉冲响应(RIR)数据集要么Ambisonic阶数低(如FOA),要么声学仿真方法单一(仅几何声学或仅波导),要么房间场景过于简单(鞋盒模型)的问题,本论文旨在创建一个结合了高阶、高保真仿真和复杂真实场景的大规模RIR数据集。 方法核心:方法核心是构建一个混合声学仿真流水线:对900 Hz以下的低频采用基于有限差分时域(FDTD)的波导仿真,以准确模拟衍射等波动现象;对900 Hz以上的高频采用射线追踪方法进行高效仿真。数据基于3D-FRONT数据库中复杂、带家具的室内场景,并通过基于语义标签的文本分类方法为物体表面分配频率相关的声学吸收系数。最终将原始RIR编码为AmbiX格式(ACN)的7阶Ambisonic表示。 相比已有方法新在哪里:HiFi-HARP是首个将7阶高阶Ambisonics与混合波导-几何声学仿真相结合,并应用于大规模复杂室内场景的数据集。相比仅用图像源法(ISM)的HARP数据集,它引入了更精确的低频波动效应;相比仅用几何仿真的SoundSpaces,它提供了更高的Ambisonic阶数和低频精度;相比单通道的GWA数据集,它提供了完整的高阶空间信息。 主要实验结果: 数据集规模与特性:包含超过10万个7阶RIR,场景覆盖约2000个复杂室内空间,RT60主要分布在0.2-0.8秒,中频吸收系数在0.2-0.9之间。 下游任务验证: T60估计(表II):使用HiFi-HARP数据对测量数据增强训练后,模型在真实测试集上的性能显著提升,Pearson相关系数(ρ)从0.85提高到0.92,MSE从0.018降至0.012。 DOA估计(表III):训练数据的Ambisonic阶数越高,DOA估计模型在真实BRIR测试集上的性能越好。使用7阶数据训练的模型达到最低MSE(1.93)和最高的Pearson相关系数(0.90)。 仿真验证:与商业仿真软件Treble及实验室测量对比(图2,图3),显示在不同频带存在一定误差,主要归因于材料属性映射的不精确。 实际意义:为声场录制、空间音频渲染(VR/AR)、声源定位、去混响、房间声学参数估计等领域的数据驱动算法研究和基准测试提供了前所未有的高质量、大规模、多样化的训练和评估资源。 主要局限性:局限性包括:1)材料属性通过文本语义映射获取,与真实测量存在偏差;2)所有场景和声源均为静态,不包含动态变化;3)64通道球形麦克风阵列是一个物理近似,在900 Hz以上存在空间混叠;4)未建模家具的细微结构和房间内人员的存在。 🏗️ 模型架构 本文的核心贡献是一个数据生成流水线(Pipeline),而非一个用于推理的端到端模型。该流水线的主要架构和流程如下: ...

2026-04-29

ICASSP 2026 - 声源定位 论文列表

ICASSP 2026 - 声源定位 共 15 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics wi 8.5分 前25% 🥈 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for S 8.0分 前10% 🥉 FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band 8.0分 前25% 4. Atomic Norm Minimization Revisited: Progressive Atom Identif 7.5分 前25% 5. Physics-Informed Neural Networks for Ocean Acoustic Field Re 7.5分 前25% 6. Theory and Application of Circular Relative Harmonic Coeffic 7.5分 前25% 7. Sequential and Simultaneous Optimization of Microphone Array 7.5分 前25% 8. Spiking Attention Network: A Hybrid Neuromorphic Approach to 7.0分 前25% 9. SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors 7.0分 前25% 10. Phase-Retrieval-Based Physics-Informed Neural Networks For A 7.0分 前50% 11. Microphone-Less Measurement of Three-Dimensional Radiating I 7.0分 前25% 12. Improving Binaural Distance Estimation in Reverberant Rooms 7.0分 前25% 13. A Unified SVD-Modal Solution for Sparse Sound Field Reconstr 6.5分 前25% 14. An Envelope Separation Aided Multi-Task Learning Model for B 6.5分 前25% 15. Adaptive Spectral Weighting in Sagittal-Plane Sound Localiza 6.5分 前25% 📋 论文详情 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics with Real2sim Diffusion 🔥 8.5/10 | 前25% | #声源定位 | #扩散模型 | #麦克风阵列 #信号处理 ...

2026-04-29

Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning

📄 Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning #声源定位 #对比学习 #多任务学习 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #声源定位 | #对比学习 | #多任务学习 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Daniel Neudek(波鸿鲁尔大学通信声学研究所) 通讯作者:未明确说明,但根据邮箱和星号标注,Rainer Martin(波鸿鲁尔大学通信声学研究所)和Stephan Getzmann(多特蒙德工业大学IfADo研究所)可能是负责人。 作者列表:Daniel Neudek(波鸿鲁尔大学通信声学研究所)、Benjamin Stodt(多特蒙德工业大学IfADo研究所)、Jean Paul Farah(波鸿鲁尔大学通信声学研究所)、Stephan Getzmann(多特蒙德工业大学IfADo研究所)、Rainer Martin(波鸿鲁尔大学通信声学研究所) 💡 毒舌点评 亮点在于将对比学习(CL)的“拉近相似、推远不同”思想巧妙地应用于距离感知的潜空间塑造,显著提升了模型在完全未见的真实环境中的鲁棒性,这比在合成数据上刷点更有意义。短板则是其方法的“有效性”高度依赖精心设计的合成数据生成管线和辅助任务的定义,真实世界的复杂声源和接收器多样性可能仍未被完全覆盖,导致VAST等更具挑战的测试集上相关性系数(ρ)仍偏低。 📌 核心摘要 要解决什么问题:现有双耳声源距离估计模型在训练所用的声学环境(房间、接收器HRTF、声源指向性)下表现良好,但在面对训练时未见过的全新环境时性能显著下降,鲁棒性和泛化能力不足。 方法核心是什么:提出一种结合多任务学习与监督对比学习的训练框架。主任务是估计距离,辅助任务是估计直达声响应。通过构造同一配置下略有变化(如不同HRTF、指向性)的BRIR变体作为对比学习的正样本对,强制模型学习一个“距离感知”的潜空间,使相同距离的表征接近,不同距离的表征远离。 与已有方法相比新在哪里:以往多任务学习(如联合估计DOA或直达声)仅共享潜空间但未显式约束其结构。本文首次明确地将对比学习整合到双耳距离估计的多任务框架中,直接优化潜空间结构以增强对声学条件变化的鲁棒性。 主要实验结果如何:实验表明,在合成数据集(S1/S2)上,所提方法将最佳MAE分别降低了6.2cm和4.3cm。在未见过的VAST数据集和真实录制数据上,对比学习的引入带来了更显著的提升:对于S1训练的模型,VAST的MAE降低了22cm,真实数据降低了16cm;对于更鲁棒的S2训练的模型,MAE也分别降低了22cm和9.8cm。同时,模型预测的距离与真实距离的幂律指数α更接近线性(α≈0.6-0.7),比人类感知(α≈0.4)更线性。 实际意义是什么:该工作为在复杂多变的声学环境中(如智能家居、AR/VR空间)部署可靠的声源距离感知系统提供了一种有效的训练范式,减少了对目标场景真实数据的依赖。 主要局限性是什么:模型的泛化性能仍严重依赖合成数据生成的质量和多样性。在最具挑战的VAST测试集上,相关系数ρ最高仅约0.54,表明预测与真实值的线性关系仍有很大提升空间。论文未探讨模型在移动声源或复杂噪声干扰下的表现。 核心摘要 表1:不同训练配置下的平均绝对误差(MAE)和相关系数(ρ) 训练集 βCL βrec S1/S2 MAE [m] (ρ) VAST MAE [m] (ρ) 真实数据 MAE [m] (ρ) S1 0 0 0.688 (0.88) 1.62 (0.30) 1.43 (0.84) 5 10 0.626 (0.90) 1.48 (0.45) 1.27 (0.83) S2 0 0 0.904 (0.81) 1.47 (0.34) 0.924 (0.77) 5 10 0.884 (0.83) 1.17 (0.52) 0.863 (0.79) 注:加粗表示在该测试集上最佳结果(对于S2模型的VAST和真实数据)。最佳权衡配置(βCL=5, βrec=10)在所有测试集上均表现最优或接近最优。 ...

2026-04-29

Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography

📄 Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography #声源定位 #信号处理 #3D音频 #麦克风阵列 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #3D音频 #麦克风阵列 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Yuzuki Saito(早稻田大学) 通讯作者:未说明 作者列表:Yuzuki Saito(早稻田大学)、Kenji Ishikawa(NTT, Inc.)、Risako Tanigawa(早稻田大学 & NTT, Inc.)、Yasuhiro Oikawa(早稻田大学) 💡 毒舌点评 这篇论文巧妙地利用高速光学成像“绕过”了麦克风阵列的物理限制,首次实现了声源三维脉冲响应的无接触全空间测量,概念上堪称“声学CT”。其主要短板在于,这种基于物理模型的重建方法计算复杂度高,且受限于球谐展开的阶数,在高频和低频两端的重建精度明显下降,表明该方法目前更像一个精确但笨重的“原型”,距离便捷实用的工程工具还有距离。 📌 核心摘要 本文旨在解决传统麦克风阵列测量声源三维脉冲响应(IR)时存在的空间分辨率受限和干扰声场等问题。论文提出了一种基于球谐域声光层析成像(SH-AOT)的新方法。其核心是利用并行相移干涉术(PPSI)从多个方向测量声源辐射的延时脉冲(TSP)信号,获得多个二维线积分IR(LIR),然后利用基于亥姆霍兹方程的物理模型,通过求解球谐系数,从这些线积分数据中重建出三维的点状IR。与已有的仅能获取二维LIR的PPSI方法相比,本工作的创新点在于实现了三维重建;与麦克风阵列相比,其优势是非接触、高空间分辨率且不干扰声场。实验使用扬声器作为声源,将PPSI测量结果与16通道线性麦克风阵列的扫描测量结果进行对比。结果显示,两种方法得到的声辐射模式一致(见图2),单点波形和频谱在主要频段吻合较好(见图3),并成功可视化了三维IR的辐射球面波(见图4)。该工作的实际意义是为声源三维特性分析提供了一种全新的高分辨率测量手段。其主要局限性是高频重建不完美(受球谐阶数M=5限制)和低频测量困难(受光学方法原理限制),且计算复杂度高。 🏗️ 模型架构 本文的核心不是传统的数据驱动神经网络,而是一个基于物理模型的信号处理与重建框架。其流程可以视为一个多阶段的“计算成像”流水线。 整体流程与主要组件: 多方向光学测量(数据获取阶段): 输入:由高速偏振相机(PPSI系统)采集的、来自扬声器的TSP信号声场图像序列。 过程:将扬声器固定于旋转台,从18个不同角度(间隔10度)进行测量。每次测量获得一个二维平面上(320×512像素)的声压线积分值随时间变化的数据(即二维LIR d_{ij}(t))。 输出:一组多方向、二维的LIR数据集。 二维LIR预处理(计算优化阶段): ...

2026-04-29

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Huaxuan Wang(北京理工大学机械工程学院) 通讯作者:Huilong Yu(北京理工大学机械工程学院);Wei Zhou(Cardiff University, School of Computer Science and Informatics) 作者列表:Huaxuan Wang(北京理工大学机械工程学院),Huilong Yu(北京理工大学机械工程学院),Ruizeng Zhang(北京理工大学机械工程学院),Wei Zhou(Cardiff University, School of Computer Science and Informatics),Junqiang Xi(北京理工大学机械工程学院) 💡 毒舌点评 亮点:论文思路清晰,将“看不见的场景结构”(通过BEV图像表示)与“听得见的目标线索”(音频多域特征)显式融合,逻辑上自洽,实验也证明在特定场景下性能提升有效。短板:融合方式相对直接(拼接向量),且BEV生成依赖于已有地图和人工标注,限制了该框架在完全未知环境中的泛用性;验证仅限于公开数据集上的T型路口,现实复杂路况的鲁棒性存疑。 📌 核心摘要 问题:自动驾驶车辆在交通盲区(如T型路口)无法直接感知突然出现的障碍物,现有感知手段(摄像头、雷达)受限于视距,而传统音频感知方法忽略了场景结构对声波传播的决定性影响。 方法核心:提出一个场景感知的音视频融合网络。核心是引入鸟瞰图(BEV)来显式表征场景空间结构,并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征,其中音频分支创新性地结合了LSTM、CNN和Conformer模块,以建模音频信号的时序依赖与全局局部特征。 新颖性:相较于之前仅依赖音频或未考虑场景结构的方法,本工作的主要创新在于:a) 显式构建并利用BEV图像融入场景结构先验;b) 在音频特征处理中引入Conformer模块,增强了模型对复杂声学特征的建模能力。 实验结果:在OVAD和AOVD两个真实世界数据集上,该方法的整体准确率分别达到94.1%和97.0%(移除BEV分支),显著优于SVM(88.2%, 90.8%)和pCRNN(92.6%, 95.4%)等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。 实际意义:为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案,提升了自动驾驶的安全性。 主要局限性:系统性能高度依赖于先验的BEV地图生成(需要卫星图像和手动标注),限制了部署的灵活性;研究聚焦于T型路口这一特定场景,未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构 论文提出的整体框架如 图1 (pdf-image-page2-idx0) 所示,是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下: ...

2026-04-29

Physics-Informed Neural Networks for Ocean Acoustic Field Reconstruction and Source Localization

📄 Physics-Informed Neural Networks for Ocean Acoustic Field Reconstruction and Source Localization #声源定位 #物理信息神经网络 #水声学 #匹配场处理 #信号处理 ✅ 7.5/10 | 前25% | #声源定位 | #物理信息神经网络 | #水声学 #匹配场处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yongsung Park(Woods Hole Oceanographic Institution, Woods Hole, MA, USA) 通讯作者:未说明 作者列表:Yongsung Park(Woods Hole Oceanographic Institution) 💡 毒舌点评 论文巧妙地利用包络平滑技术,让原本对神经网络来说过于“剧烈”的水下声场变得“温和”,从而成功将PINN应用于生成物理合理的匹配场副本,在未见区域表现亮眼。然而,作为一篇定位领域的论文,其对比基线却只是一个简单的全连接网络分类器,显得有些保守,未能充分彰显该方法相对于现有高性能MFP或PINN方法的优势。 📌 核心摘要 本文针对水下声源定位中传统匹配场处理(MFP)易受环境失配影响,以及纯数据驱动方法在未见场景下泛化能力差的问题,提出了一种基于物理信息神经网络(PINN)的匹配场处理(PINN-MFP)框架。该方法的核心是训练一个PINN,从稀疏测量数据中重建声场,其训练损失函数同时包含数据拟合项和支配声传播的亥姆霍兹方程残差项。为解决声场快速振荡导致的训练难题,论文引入包络场平滑技术作为预处理。训练完成后,PINN可作为物理生成模型,为任意候选源位置生成准确的“副本场”,再通过经典的Bartlett处理器与实测数据进行匹配定位。在SWellEx-96实验数据集上的验证表明,PINN-MFP的定位均方根误差为0.032 km,相较于作为基线的前馈神经网络分类器(RMSE 0.171 km)降低了81%,尤其在训练未覆盖的距离区间(2.0-2.25 km)内仍能保持准确估计,显示出优越的泛化能力。该工作展示了物理知识与数据驱动方法融合在解决复杂波导问题中的潜力。其局限性在于实验对比基线相对简单,且未在更复杂的环境参数失配条件下进行充分验证。 🏗️ 模型架构 论文提出的PINN-MFP框架包含两个主要阶段:PINN训练和基于PINN的匹配场处理。 ...

2026-04-29

Reconstruction of Spherical Sound Source Radiation Characteristics with Graph Signal Processing

📄 Reconstruction of Spherical Sound Source Radiation Characteristics with Graph Signal Processing #空间音频 #声源定位 #信号处理 #麦克风阵列 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #声源定位 #麦克风阵列 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 基于当前提供的论文内容尽量完整提取作者与机构信息: 第一作者:Shota Okubo(KDDI Research, Inc., Japan) 通讯作者:论文中未明确说明通讯作者 作者列表:Shota Okubo(KDDI Research, Inc., Japan)、Ryosuke Watanabe(KDDI Research, Inc., Japan)、Tomoaki Konno(KDDI Research, Inc., Japan)、Toshiharu Horiuchi(KDDI Research, Inc., Japan) 💡 毒舌点评 这篇论文的亮点在于巧妙地将图信号处理(GSP)框架引入到球形声源辐射特性重建问题中,为平衡局部细节和全局平滑性提供了一个新颖的数学工具。然而,其短板在于验证实验的规模和场景相对有限(仅一个扬声器在消声室的数据),且在中低频插值区域性能不及传统方法,方法的普适性和优势场景的边界仍需更全面的评估。 📌 核心摘要 要解决什么问题:从稀疏的麦克风阵列测量中,准确重建球形声源的辐射特性(即方向性),以满足元宇宙、数字孪生等应用对真实空间音频的需求。 方法核心是什么:提出一种基于图信号处理(GSP)的频域重建方法。首先利用球谐展开(SHE)为所有方向生成初始估计,然后基于这些估计构建一个图(节点为方向,边权基于特性相似度),最后通过求解一个带非负约束的图谱带限信号重建问题,得到最终的辐射特性。 与已有方法相比新在哪里:相比于传统方法PLR(擅长局部但外推差)和SHE(擅长全局但会平滑高频),该方法通过图结构显式地建模方向间的依赖关系,在重建优化中兼顾了局部细节与全局一致性,尤其旨在改善中高频的外推性能。 主要实验结果如何:在真实测量的单扬声器数据集上进行实验。插值区域:PLR在低中频表现最好(LSD<1.1 dB up to 1kHz),GSP在高频(2-4 kHz)接近PLR。外推区域:GSP在中高频(2-4 kHz)取得了最低误差(5.4-5.6 dB),显著优于SHE(5.8-7.0 dB),并在低中频也明显优于SHE。具体关键数据见下表: 区域 方法 125 Hz 250 Hz 500 Hz 1000 Hz 2000 Hz 4000 Hz 插值 PLR 0.9 0.9 0.9 1.1 2.5 4.0 插值 SHE 1.5 1.4 1.5 2.1 3.0 4.6 插值 GSP 1.5 2.5 2.0 1.9 2.7 4.3 外推 PLR 1.8 1.8 2.0 3.7 5.9 8.3 外推 SHE 14.2 11.5 10.0 8.9 7.0 5.8 外推 GSP 9.3 8.2 8.1 5.7 5.4 5.6 实际意义是什么:为在无法进行密集测量的实际场景(如消费电子、虚拟现实)中,利用少量麦克风获取高精度的声源方向性模型提供了新的算法选择,有望提升空间音频渲染和声学仿真的真实性。 主要局限性是:实验仅在一个扬声器和一种麦克风阵列配置上验证,缺乏对多个声源、复杂阵列几何或真实室内反射环境的测试;论文中未提及相位信息的处理,重建仅针对幅度谱。 🏗️ 模型架构 论文没有提供整体的架构图。其方法流程可以分为两个主要阶段:图构建与信号重建。 ...

2026-04-29

SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection

📄 SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection #音频事件检测 #声源定位 #迁移学习 #多通道音频 ✅ 7.0/10 | 前25% | #音频事件检测 | #迁移学习 | #声源定位 #多通道音频 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yun Liang (华南农业大学) 通讯作者:Cankun Zhong (华南农业大学, email: ck.zhong@scau.edu.cn) 作者列表:Yun Liang (华南农业大学), Peng Zhang (华南农业大学), Cankun Zhong (华南农业大学), Yishen Lin (华南农业大学), Luoan Gu (华南农业大学), Yan Chen (华南农业大学, 温氏食品集团股份有限公司) 💡 毒舌点评 亮点:在适配器设计上做得相当扎实,没有满足于用一个万能MLP适配器,而是精心设计了Conv、DCT、SE三种分别针对时频局部结构、去相关、通道注意力的异构适配器,并通过可视化(图1)清晰展示了各自专注的“工作区域”,这种“专家治领域”的思路值得借鉴。 短板:论文最大的遗憾是“关门谢客”——没有开源代码。对于一个强调“参数高效”和“可复现”的微调方法,不提供代码就像厨师不分享菜谱,大大降低了工作对社区的实际推动力。 ...

2026-04-29

Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming

📄 Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming #波束成形 #麦克风阵列 #声源定位 #空间音频 #优化算法 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #麦克风阵列 #空间音频 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gal Itzhak(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering) 通讯作者:未明确说明,根据学术惯例及贡献,第二作者Simon Doclo或第三作者Israel Cohen可能是通讯作者,但论文中未明确标注。 作者列表:Gal Itzhak(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering)、Simon Doclo(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics)、Israel Cohen(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering) 💡 毒舌点评 这篇论文的亮点在于提出了一个巧妙的“分而治之”顺序优化框架,将原本难以处理的大规模混合整数规划问题,转化为一系列可求解的小问题,这在工程上很有价值。但短板也很明显,其核心假设(ROI内信号完全相干)在实际复杂声学环境中可能不成立,且实验完全基于仿真,缺乏真实场景的验证,这让其实用性打了折扣。 ...

2026-04-29