ICASSP 2026 - 声源定位 论文列表

ICASSP 2026 - 声源定位 共 15 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics wi 8.5分 前25% 🥈 DSRMS-TransUnet: A Decentralized Non-Shifted Transunet for S 8.0分 前10% 🥉 FUN-SSL: Full-Band Layer Followed by U-Net With Narrow-Band 8.0分 前25% 4. Atomic Norm Minimization Revisited: Progressive Atom Identif 7.5分 前25% 5. Physics-Informed Neural Networks for Ocean Acoustic Field Re 7.5分 前25% 6. Theory and Application of Circular Relative Harmonic Coeffic 7.5分 前25% 7. Sequential and Simultaneous Optimization of Microphone Array 7.5分 前25% 8. Spiking Attention Network: A Hybrid Neuromorphic Approach to 7.0分 前25% 9. SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors 7.0分 前25% 10. Phase-Retrieval-Based Physics-Informed Neural Networks For A 7.0分 前50% 11. Microphone-Less Measurement of Three-Dimensional Radiating I 7.0分 前25% 12. Improving Binaural Distance Estimation in Reverberant Rooms 7.0分 前25% 13. A Unified SVD-Modal Solution for Sparse Sound Field Reconstr 6.5分 前25% 14. An Envelope Separation Aided Multi-Task Learning Model for B 6.5分 前25% 15. Adaptive Spectral Weighting in Sagittal-Plane Sound Localiza 6.5分 前25% 📋 论文详情 🥇 Bridging the Measurement–Simulation Gap in Room Acoustics with Real2sim Diffusion 🔥 8.5/10 | 前25% | #声源定位 | #扩散模型 | #麦克风阵列 #信号处理 ...

2026-04-29 · 更新于 2026-05-19 · 7 min · 1446 words

Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning

📄 Improving Binaural Distance Estimation in Reverberant Rooms Through Contrastive And Multi-Task Learning #声源定位 #对比学习 #多任务学习 #鲁棒性 #数据增强 ✅ 7.0/10 | 前25% | #声源定位 | #对比学习 | #多任务学习 #鲁棒性 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Daniel Neudek(波鸿鲁尔大学通信声学研究所) 通讯作者:未明确说明,但根据邮箱和星号标注,Rainer Martin(波鸿鲁尔大学通信声学研究所)和Stephan Getzmann(多特蒙德工业大学IfADo研究所)可能是负责人。 作者列表:Daniel Neudek(波鸿鲁尔大学通信声学研究所)、Benjamin Stodt(多特蒙德工业大学IfADo研究所)、Jean Paul Farah(波鸿鲁尔大学通信声学研究所)、Stephan Getzmann(多特蒙德工业大学IfADo研究所)、Rainer Martin(波鸿鲁尔大学通信声学研究所) 💡 毒舌点评 亮点在于将对比学习(CL)的“拉近相似、推远不同”思想巧妙地应用于距离感知的潜空间塑造,显著提升了模型在完全未见的真实环境中的鲁棒性,这比在合成数据上刷点更有意义。短板则是其方法的“有效性”高度依赖精心设计的合成数据生成管线和辅助任务的定义,真实世界的复杂声源和接收器多样性可能仍未被完全覆盖,导致VAST等更具挑战的测试集上相关性系数(ρ)仍偏低。 🔗 开源详情 论文中未提及任何开源计划,包括代码、模型权重、数据集或训练配置。所有实验细节均在论文中描述,但完全复现依赖未公开的工具和大量计算资源。 📌 核心摘要 要解决什么问题:现有双耳声源距离估计模型在训练所用的声学环境(房间、接收器HRTF、声源指向性)下表现良好,但在面对训练时未见过的全新环境时性能显著下降,鲁棒性和泛化能力不足。 方法核心是什么:提出一种结合多任务学习与监督对比学习的训练框架。主任务是估计距离,辅助任务是估计直达声响应。通过构造同一配置下略有变化(如不同HRTF、指向性)的BRIR变体作为对比学习的正样本对,强制模型学习一个“距离感知”的潜空间,使相同距离的表征接近,不同距离的表征远离。 与已有方法相比新在哪里:以往多任务学习(如联合估计DOA或直达声)仅共享潜空间但未显式约束其结构。本文首次明确地将对比学习整合到双耳距离估计的多任务框架中,直接优化潜空间结构以增强对声学条件变化的鲁棒性。 主要实验结果如何:实验表明,在合成数据集(S1/S2)上,所提方法将最佳MAE分别降低了6.2cm和4.3cm。在未见过的VAST数据集和真实录制数据上,对比学习的引入带来了更显著的提升:对于S1训练的模型,VAST的MAE降低了22cm,真实数据降低了16cm;对于更鲁棒的S2训练的模型,MAE也分别降低了22cm和9.8cm。同时,模型预测的距离与真实距离的幂律指数α更接近线性(α≈0.6-0.7),比人类感知(α≈0.4)更线性。 实际意义是什么:该工作为在复杂多变的声学环境中(如智能家居、AR/VR空间)部署可靠的声源距离感知系统提供了一种有效的训练范式,减少了对目标场景真实数据的依赖。 主要局限性是什么:模型的泛化性能仍严重依赖合成数据生成的质量和多样性。在最具挑战的VAST测试集上,相关系数ρ最高仅约0.54,表明预测与真实值的线性关系仍有很大提升空间。论文未探讨模型在移动声源或复杂噪声干扰下的表现。 核心摘要 表1:不同训练配置下的平均绝对误差(MAE)和相关系数(ρ) 训练集 βCL βrec S1/S2 MAE [m] (ρ) VAST MAE [m] (ρ) 真实数据 MAE [m] (ρ) S1 0 0 0.688 (0.88) 1.62 (0.30) 1.43 (0.84) 5 10 0.626 (0.90) 1.48 (0.45) 1.27 (0.83) S2 0 0 0.904 (0.81) 1.47 (0.34) 0.924 (0.77) 5 10 0.884 (0.83) 1.17 (0.52) 0.863 (0.79) 注:加粗表示在该测试集上最佳结果(对于S2模型的VAST和真实数据)。最佳权衡配置(βCL=5, βrec=10)在所有测试集上均表现最优或接近最优。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 267 words

Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography

📄 Microphone-Less Measurement of Three-Dimensional Radiating Impulse Response of Sound Source using Spherical Harmonic-Domain Acousto-Optic Tomography #声源定位 #信号处理 #3D音频 #麦克风阵列 ✅ 7.0/10 | 前25% | #声源定位 | #信号处理 | #3D音频 #麦克风阵列 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -1.0 | 置信度 高 👥 作者与机构 第一作者:Yuzuki Saito(早稻田大学) 通讯作者:未说明 作者列表:Yuzuki Saito(早稻田大学)、Kenji Ishikawa(NTT, Inc.)、Risako Tanigawa(早稻田大学 & NTT, Inc.)、Yasuhiro Oikawa(早稻田大学) 💡 毒舌点评 这篇论文巧妙地利用高速光学成像“绕过”了麦克风阵列的物理限制,首次实现了声源三维脉冲响应的无接触全空间测量,概念上堪称“声学CT”。其主要短板在于,这种基于物理模型的重建方法计算复杂度高,且受限于球谐展开的阶数,在高频和低频两端的重建精度明显下降,表明该方法目前更像一个精确但笨重的“原型”,距离便捷实用的工程工具还有距离。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:不适用。未提及公开任何模型权重。 数据集:未提及。 Demo:未提及。 复现材料:论文提供了详细的实验条件参数表(表1、表2)和方法描述,但缺乏算法实现的关键细节(如tsVD的具体截断策略、矩阵构建的优化代码),复现难度极高。 论文中引用的开源项目:论文引用了多篇光学和声学测量的参考文献,但未明确指出依赖于特定的开源软件库或工具。 📌 核心摘要 本文旨在解决传统麦克风阵列测量声源三维脉冲响应(IR)时存在的空间分辨率受限和干扰声场等问题。论文提出了一种基于球谐域声光层析成像(SH-AOT)的新方法。其核心是利用并行相移干涉术(PPSI)从多个方向测量声源辐射的延时脉冲(TSP)信号,获得多个二维线积分IR(LIR),然后利用基于亥姆霍兹方程的物理模型,通过求解球谐系数,从这些线积分数据中重建出三维的点状IR。与已有的仅能获取二维LIR的PPSI方法相比,本工作的创新点在于实现了三维重建;与麦克风阵列相比,其优势是非接触、高空间分辨率且不干扰声场。实验使用扬声器作为声源,将PPSI测量结果与16通道线性麦克风阵列的扫描测量结果进行对比。结果显示,两种方法得到的声辐射模式一致(见图2),单点波形和频谱在主要频段吻合较好(见图3),并成功可视化了三维IR的辐射球面波(见图4)。该工作的实际意义是为声源三维特性分析提供了一种全新的高分辨率测量手段。其主要局限性是高频重建不完美(受球谐阶数M=5限制)和低频测量困难(受光学方法原理限制),且计算复杂度高。 🏗️ 模型架构 本文的核心不是传统的数据驱动神经网络,而是一个基于物理模型的信号处理与重建框架。其流程可以视为一个多阶段的“计算成像”流水线。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 161 words

Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

📄 Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion #音频分类 #多模态模型 #时频分析 #Conformer #声源定位 🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Huaxuan Wang(北京理工大学机械工程学院) 通讯作者:Huilong Yu(北京理工大学机械工程学院);Wei Zhou(Cardiff University, School of Computer Science and Informatics) 作者列表:Huaxuan Wang(北京理工大学机械工程学院),Huilong Yu(北京理工大学机械工程学院),Ruizeng Zhang(北京理工大学机械工程学院),Wei Zhou(Cardiff University, School of Computer Science and Informatics),Junqiang Xi(北京理工大学机械工程学院) 💡 毒舌点评 亮点:论文思路清晰,将“看不见的场景结构”(通过BEV图像表示)与“听得见的目标线索”(音频多域特征)显式融合,逻辑上自洽,实验也证明在特定场景下性能提升有效。短板:融合方式相对直接(拼接向量),且BEV生成依赖于已有地图和人工标注,限制了该框架在完全未知环境中的泛用性;验证仅限于公开数据集上的T型路口,现实复杂路况的鲁棒性存疑。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开数据集OVAD和AOVD,但论文未提供额外数据或获取指南。 Demo:未提及。 复现材料:论文给出了一些训练超参数(学习率、batch size、epoch数、优化器),但未提供完整的配置文件、训练脚本或模型检查点。BEV生成的具体算法细节(如特征提取和LoS分析)描述较粗略。 论文中引用的开源项目:未明确提及依赖的具体开源工具/模型库(如PyTorch是框架,未特指某开源实现)。 📌 核心摘要 问题:自动驾驶车辆在交通盲区(如T型路口)无法直接感知突然出现的障碍物,现有感知手段(摄像头、雷达)受限于视距,而传统音频感知方法忽略了场景结构对声波传播的决定性影响。 方法核心:提出一个场景感知的音视频融合网络。核心是引入鸟瞰图(BEV)来显式表征场景空间结构,并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征,其中音频分支创新性地结合了LSTM、CNN和Conformer模块,以建模音频信号的时序依赖与全局局部特征。 新颖性:相较于之前仅依赖音频或未考虑场景结构的方法,本工作的主要创新在于:a) 显式构建并利用BEV图像融入场景结构先验;b) 在音频特征处理中引入Conformer模块,增强了模型对复杂声学特征的建模能力。 实验结果:在OVAD和AOVD两个真实世界数据集上,该方法的整体准确率分别达到94.1%和97.0%(移除BEV分支),显著优于SVM(88.2%, 90.8%)和pCRNN(92.6%, 95.4%)等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。 实际意义:为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案,提升了自动驾驶的安全性。 主要局限性:系统性能高度依赖于先验的BEV地图生成(需要卫星图像和手动标注),限制了部署的灵活性;研究聚焦于T型路口这一特定场景,未在更复杂或未知环境中验证其泛化能力。 🏗️ 模型架构 论文提出的整体框架如 图1 (pdf-image-page2-idx0) 所示,是一个用于遮挡车辆分类的音视频融合网络。系统处理流程如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 336 words

Physics-Informed Neural Networks for Ocean Acoustic Field Reconstruction and Source Localization

📄 Physics-Informed Neural Networks for Ocean Acoustic Field Reconstruction and Source Localization #声源定位 #物理信息神经网络 #水声学 #匹配场处理 #信号处理 ✅ 7.5/10 | 前25% | #声源定位 | #物理信息神经网络 | #水声学 #匹配场处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yongsung Park(Woods Hole Oceanographic Institution, Woods Hole, MA, USA) 通讯作者:未说明 作者列表:Yongsung Park(Woods Hole Oceanographic Institution) 💡 毒舌点评 论文巧妙地利用包络平滑技术,让原本对神经网络来说过于“剧烈”的水下声场变得“温和”,从而成功将PINN应用于生成物理合理的匹配场副本,在未见区域表现亮眼。然而,作为一篇定位领域的论文,其对比基线却只是一个简单的全连接网络分类器,显得有些保守,未能充分彰显该方法相对于现有高性能MFP或PINN方法的优势。 🔗 开源详情 论文中未提及任何开源计划。 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验使用公开的SWellEx-96数据集,但论文未提供获取或处理该数据集的具体脚本。 Demo:未提及。 复现材料:论文提供了一些关键超参数(网络层数、宽度、激活函数、优化器、学习率、迭代次数、损失权重),但缺失部分细节(如各损失项的具体点数量、完整数据处理流程),整体复现信息不够充分。 论文中引用的开源项目:未提及依赖的特定开源工具或模型库。 📌 核心摘要 本文针对水下声源定位中传统匹配场处理(MFP)易受环境失配影响,以及纯数据驱动方法在未见场景下泛化能力差的问题,提出了一种基于物理信息神经网络(PINN)的匹配场处理(PINN-MFP)框架。该方法的核心是训练一个PINN,从稀疏测量数据中重建声场,其训练损失函数同时包含数据拟合项和支配声传播的亥姆霍兹方程残差项。为解决声场快速振荡导致的训练难题,论文引入包络场平滑技术作为预处理。训练完成后,PINN可作为物理生成模型,为任意候选源位置生成准确的“副本场”,再通过经典的Bartlett处理器与实测数据进行匹配定位。在SWellEx-96实验数据集上的验证表明,PINN-MFP的定位均方根误差为0.032 km,相较于作为基线的前馈神经网络分类器(RMSE 0.171 km)降低了81%,尤其在训练未覆盖的距离区间(2.0-2.25 km)内仍能保持准确估计,显示出优越的泛化能力。该工作展示了物理知识与数据驱动方法融合在解决复杂波导问题中的潜力。其局限性在于实验对比基线相对简单,且未在更复杂的环境参数失配条件下进行充分验证。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 235 words

Reconstruction of Spherical Sound Source Radiation Characteristics with Graph Signal Processing

📄 Reconstruction of Spherical Sound Source Radiation Characteristics with Graph Signal Processing #空间音频 #声源定位 #信号处理 #麦克风阵列 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #声源定位 #麦克风阵列 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 基于当前提供的论文内容尽量完整提取作者与机构信息: 第一作者:Shota Okubo(KDDI Research, Inc., Japan) 通讯作者:论文中未明确说明通讯作者 作者列表:Shota Okubo(KDDI Research, Inc., Japan)、Ryosuke Watanabe(KDDI Research, Inc., Japan)、Tomoaki Konno(KDDI Research, Inc., Japan)、Toshiharu Horiuchi(KDDI Research, Inc., Japan) 💡 毒舌点评 这篇论文的亮点在于巧妙地将图信号处理(GSP)框架引入到球形声源辐射特性重建问题中,为平衡局部细节和全局平滑性提供了一个新颖的数学工具。然而,其短板在于验证实验的规模和场景相对有限(仅一个扬声器在消声室的数据),且在中低频插值区域性能不及传统方法,方法的普适性和优势场景的边界仍需更全面的评估。 🔗 开源详情 论文中未提及任何开源计划,包括: 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文中描述了自建的测量数据库,但未说明是否公开及如何获取。 Demo:未提及。 复现材料:论文提供了一些关键超参数(如Nsh=6, κ=23)和测量环境描述,但缺乏完整的实验配置和求解器信息。 论文中引用的开源项目:未提及。 📌 核心摘要 要解决什么问题:从稀疏的麦克风阵列测量中,准确重建球形声源的辐射特性(即方向性),以满足元宇宙、数字孪生等应用对真实空间音频的需求。 方法核心是什么:提出一种基于图信号处理(GSP)的频域重建方法。首先利用球谐展开(SHE)为所有方向生成初始估计,然后基于这些估计构建一个图(节点为方向,边权基于特性相似度),最后通过求解一个带非负约束的图谱带限信号重建问题,得到最终的辐射特性。 与已有方法相比新在哪里:相比于传统方法PLR(擅长局部但外推差)和SHE(擅长全局但会平滑高频),该方法通过图结构显式地建模方向间的依赖关系,在重建优化中兼顾了局部细节与全局一致性,尤其旨在改善中高频的外推性能。 主要实验结果如何:在真实测量的单扬声器数据集上进行实验。插值区域:PLR在低中频表现最好(LSD<1.1 dB up to 1kHz),GSP在高频(2-4 kHz)接近PLR。外推区域:GSP在中高频(2-4 kHz)取得了最低误差(5.4-5.6 dB),显著优于SHE(5.8-7.0 dB),并在低中频也明显优于SHE。具体关键数据见下表: 区域 方法 125 Hz 250 Hz 500 Hz 1000 Hz 2000 Hz 4000 Hz 插值 PLR 0.9 0.9 0.9 1.1 2.5 4.0 插值 SHE 1.5 1.4 1.5 2.1 3.0 4.6 插值 GSP 1.5 2.5 2.0 1.9 2.7 4.3 外推 PLR 1.8 1.8 2.0 3.7 5.9 8.3 外推 SHE 14.2 11.5 10.0 8.9 7.0 5.8 外推 GSP 9.3 8.2 8.1 5.7 5.4 5.6 实际意义是什么:为在无法进行密集测量的实际场景(如消费电子、虚拟现实)中,利用少量麦克风获取高精度的声源方向性模型提供了新的算法选择,有望提升空间音频渲染和声学仿真的真实性。 主要局限性是:实验仅在一个扬声器和一种麦克风阵列配置上验证,缺乏对多个声源、复杂阵列几何或真实室内反射环境的测试;论文中未提及相位信息的处理,重建仅针对幅度谱。 🏗️ 模型架构 论文没有提供整体的架构图。其方法流程可以分为两个主要阶段:图构建与信号重建。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 244 words

SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection

📄 SELD-MOHA: A Fine-Tuning Method with the Mixture of Heterogeneous Adapters for Sound Event Localization and Detection #音频事件检测 #声源定位 #迁移学习 #多通道音频 ✅ 7.0/10 | 前25% | #音频事件检测 | #迁移学习 | #声源定位 #多通道音频 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yun Liang (华南农业大学) 通讯作者:Cankun Zhong (华南农业大学, email: ck.zhong@scau.edu.cn) 作者列表:Yun Liang (华南农业大学), Peng Zhang (华南农业大学), Cankun Zhong (华南农业大学), Yishen Lin (华南农业大学), Luoan Gu (华南农业大学), Yan Chen (华南农业大学, 温氏食品集团股份有限公司) 💡 毒舌点评 亮点:在适配器设计上做得相当扎实,没有满足于用一个万能MLP适配器,而是精心设计了Conv、DCT、SE三种分别针对时频局部结构、去相关、通道注意力的异构适配器,并通过可视化(图1)清晰展示了各自专注的“工作区域”,这种“专家治领域”的思路值得借鉴。 短板:论文最大的遗憾是“关门谢客”——没有开源代码。对于一个强调“参数高效”和“可复现”的微调方法,不提供代码就像厨师不分享菜谱,大大降低了工作对社区的实际推动力。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 400 words

Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming

📄 Sequential and Simultaneous Optimization of Microphone Array Geometry and Region-of-Interest Beamforming #波束成形 #麦克风阵列 #声源定位 #空间音频 #优化算法 ✅ 7.5/10 | 前25% | #声源定位 | #波束成形 | #麦克风阵列 #空间音频 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Gal Itzhak(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering) 通讯作者:未明确说明,根据学术惯例及贡献,第二作者Simon Doclo或第三作者Israel Cohen可能是通讯作者,但论文中未明确标注。 作者列表:Gal Itzhak(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering)、Simon Doclo(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics)、Israel Cohen(Technion–Israel Institute of Technology, Faculty of Electrical & Computer Engineering) 💡 毒舌点评 这篇论文的亮点在于提出了一个巧妙的“分而治之”顺序优化框架,将原本难以处理的大规模混合整数规划问题,转化为一系列可求解的小问题,这在工程上很有价值。但短板也很明显,其核心假设(ROI内信号完全相干)在实际复杂声学环境中可能不成立,且实验完全基于仿真,缺乏真实场景的验证,这让其实用性打了折扣。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 209 words

Single-Microphone Audio Point Source Discriminative Localization from Reverberation Late Tail Estimation

📄 Single-Microphone Audio Point Source Discriminative Localization from Reverberation Late Tail Estimation #说话人分离 #声源定位 #信号处理 #单通道 ✅ 7.0/10 | 前25% | #说话人分离 | #信号处理 | #声源定位 #单通道 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Matthew Maciejewski(Johns Hopkins University, Human Language Technology Center of Excellence, Baltimore, USA) 通讯作者:未说明 作者列表:Matthew Maciejewski(Johns Hopkins University, Human Language Technology Center of Excellence) 💡 毒舌点评 这篇论文巧妙地将一个成熟的去混响工具(WPE)“废物利用”,提取出隐藏的空间定位线索,思路颇具巧思且理论推导自洽,实验也从合成数据一直做到了真实会议场景。然而,其核心弱点暴露无遗:一旦说话人像在真实会议里那样动来动去,这个严重依赖房间脉冲响应稳定性的方法就直接“翻车”,性能在AMI数据集上断崖式下跌,最终还是打不过人家用“刷脸”(x-vector)的主流方法,证明了其目前只能作为锦上添花的辅助信号,而非革命性的替代方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:论文使用了三个数据集:Linear WHAMR!(源自WHAMR!)、LibriCSS和AMI Meeting Corpus。论文未说明这些数据集是否公开,但WHAMR!、LibriCSS和AMI均为公开数据集。 Demo:未提及。 复现材料:论文提供了WPE的主要参数(窗长、滤波器长度、延迟、迭代次数)和用于比较的窗口大小。但未提供LDA训练所用开发集的构成、分布参数估计细节、以及基线x-vector系统的完整复现信息。 论文中引用的开源项目:提到了用于生成模拟房间响应的Image Method([43])以及x-vector基线系统(ReNet-101, [36])。但未明确说明是否直接使用了这些项目的代码。 📌 核心摘要 本文针对单麦克风音频源位置区分问题,提出了一种基于房间混响晚期拖尾估计的统计判别方法。核心思想是利用WPE去混响滤波器的特性,该滤波器主要建模与房间几何形状相关且相对稳定的混响晚期成分。论文假设,如果两个音频片段来自同一位置,其对应的WPE滤波器在幅度和相位(反映延迟) 上应相似。方法通过估计滤波器间的幅度差异(α̂)和延迟差异(d̂),并计算在“同源”与“异源”假设下的对数似然比,最后使用LDA融合两个分数得到最终判别得分。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 259 words

SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors for Highly-Directive Spatialization with First-Order Ambisonics

📄 SIRUP: A Diffusion-Based Virtual Upmixer of Steering Vectors for Highly-Directive Spatialization with First-Order Ambisonics #空间音频 #声源定位 #扩散模型 #波束成形 #麦克风阵列 ✅ 7.0/10 | 前25% | #声源定位 | #扩散模型 | #空间音频 #波束成形 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Emilio Picard(法国索邦大学,日本RIKEN高级智能项目中心) 通讯作者:未说明 作者列表:Emilio Picard(法国索邦大学,日本RIKEN高级智能项目中心)、Diego Di Carlo(日本RIKEN高级智能项目中心)、Aditya Arie Nugraha(日本RIKEN高级智能项目中心)、Mathieu Fontaine(法国巴黎电信学院LTCI实验室,日本RIKEN高级智能项目中心)、Kazuyoshi Yoshii(日本京都大学工程研究生院,日本RIKEN高级智能项目中心) 💡 毒舌点评 亮点:将图像领域的潜在扩散模型“上采样”思路巧妙地移植到空间音频的波束成形向量超分辨率问题上,是一个非常具体且聪明的类比应用,实验结果也清晰展示了在狭窄波束和低旁瓣方面的显著提升。短板:整篇论文的验证完全依赖于模拟数据,对于真实世界中复杂的声场、阵列误差和未知噪声的鲁棒性只字未提,这极大地限制了其结论的说服力和实际应用价值的判断。 🔗 开源详情 代码:论文明确提供了代码仓库链接 https://github.com/emilio-pcrd/sirup,并注明“upon acceptance”(接收后发布)。目前(基于论文阅读时间)可能尚未公开。 模型权重:未提及。 数据集:使用了公开的LibriSpeech数据集的部分音频(dev-clean文件夹)作为声源,但用于训练的房间脉冲响应和混合数据是论文作者自己模拟生成的,未提及是否会公开这些模拟数据或生成脚本。 Demo:未提及。 复现材料:论文提供了详细的模型配置(参数量、训练超参数)、评估设置和损失函数描述,但训练硬件等关键信息缺失。 引用的开源项目:主要依赖 pyroomacoustics 进行房间模拟,以及 bss_eval 工具包进行评估。 📌 核心摘要 问题:现有的高空间分辨率音频系统(如高阶Ambisonics, HOA)需要昂贵的麦克风阵列。常见的一阶Ambisonics(FOA)系统空间分辨率低,导致声源定位不精确,波束成形效果差。传统上混方法(先估计声源参数再渲染)会误差传播。 方法:本文提出SIRUP,一种基于潜在扩散模型的波束成形向量(SV)虚拟上混方法。其核心是直接学习将低阶FOA SV映射到高阶HOA SV的潜在空间。具体分为两步:首先,用变分自编码器(VAE)学习HOA SV的紧凑潜在表示;然后,训练一个以FOA SV为条件的扩散模型,在该潜在空间中生成高阶SV的嵌入。 创新:与传统“估计-渲染”级联方法不同,SIRUP直接操作和超分辨率波束成形向量本身,避免了中间参数估计误差的传播。它利用扩散模型在数据分布上的强大生成能力,学习FOA与HOA SV之间的复杂非线性映射。 结果:实验在模拟房间环境中进行。与FOA基线相比,SIRUP上混后的SV在声源定位(DOA误差)、空间滤波质量(-3dB波束宽度平均提升+10°,旁瓣抑制-9dB)和双声源语音分离(SIR,SAR等指标)上均取得显著改进,性能接近真实HOA系统。关键数据见表1与表2。 意义:为低成本FOA设备提供了一种软件方式,使其能够虚拟达到接近昂贵HOA设备的空间分析和渲染性能,对空间音频应用、机器人听觉等有潜在价值。 局限:所有实验基于模拟数据,缺乏真实世界复杂环境的验证;混响增大时,相对于HOA基线的优势减小;模型目前仅适用于单声源SV估计场景。 🏗️ 模型架构 SIRUP模型是一个条件潜在扩散模型,旨在将M通道的FOA SV(估计值或代数值)上混为M‘通道(M‘>M)的HOA SV。其整体流程分为训练和推理两个阶段,核心组件包括变分自编码器(VAE) 和潜在扩散模型(LDM)。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 342 words