Distributed Multichannel Active Noise Control with Asynchronous Communication

📄 Distributed Multichannel Active Noise Control with Asynchronous Communication #信号处理 #分布式算法 #多通道 #实时处理 🔥 8.0/10 | 前25% | #信号处理 | #分布式算法 | #多通道 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junwei Ji(南洋理工大学电气与电子工程学院) 通讯作者:未说明(但根���邮箱和贡献,可能是Woon-Seng Gan) 作者列表: Junwei Ji(南洋理工大学电气与电子工程学院) Dongyuan Shi(西北工业大学海洋科学与技术学院) Boxiang Wang(南洋理工大学电气与电子工程学院) Ziyi Yang(南洋理工大学电气与电子工程学院) Haowen Li(南洋理工大学电气与电子工程学院) Woon-Seng Gan(南洋理工大学电气与电子工程学院) 💡 毒舌点评 论文巧妙地将权重约束与异步触发机制结合,为分布式降噪系统提供了一个通信友好的实用方案,仿真实验也扎实地证明了其在降低通信开销方面的显著效果。然而,其核心创新是工程组合而非理论突破,且实验仅限于仿真环境,未在真实异步、有延迟的网络条件下进行验证,说服力打了折扣。 📌 核心摘要 问题:传统的分布式多通道主动噪声控制(DMCANC)方法通常假设节点间同步且频繁地通信,导致通信开销过高,难以适应异构或资源受限的网络环境。 方法核心:提出异步通信DMCANC系统。每个节点独立运行权重约束的FxLMS(WCFxLMS)算法,在通信间隔期间保持稳定。节点根据本地噪声抑制性能的下降情况自主决定是否发起通信请求。响应时,其他节点仅传输其控制滤波器与中心点的权重差(weight difference),并通过混合权重差(MWD)操作融合信息,更新本地控制滤波器和中心点。 新意:与现有同步、每采样点都通信的分布式方法不同,该方法实现了按需、异步通信,大幅减少了通信次数。WCFxLMS确保了非通信期间的稳定性,MWD规则实现了异步信息的有效融合。 实验结果:在6节点系统中进行仿真。图3(a)显示,在抑制100-1000Hz宽带噪声时,ACDMCANC的降噪性能(ANSE)略低于集中式MEFxLMS和同步MGDFxLMS,但显著优于无通信的基准。图3(b)表明节点通信时间点不同,验证了异步性。图4(a)(b)在真实压缩机噪声下,ACDMCANC同样表现出有效的降噪性能,但收敛稍慢。关键数据:在图3(a)中,15秒时ACDMCANC的ANSE约比MEFxLMS差5-8 dB,但实现了“通信实例”的大幅减少(图3(b)显示节点1和2在15秒内仅分别触发通信约4次和2次)。 实际意义:该方法降低了对网络通信带宽和实时性的要求,提升了分布式降噪系统在异构网络中的可部署性、扩展性和鲁棒性。 局限性:由于异步通信和权重约束,其收敛速度和最终降噪性能略逊于完全同步通信的方法。仿真实验未考虑实际网络中的传输延迟和丢包问题。 🏗️ 模型架构 论文提出的ACDMCANC系统是一个分布式自适应信号处理系统,其核心架构由多个功能相同的ANC节点组成。每个节点包含一个参考传感器(共享)、一个次级声源、一个误差传声器和一个负责通信与处理的ANC控制器。图2展示了第k个节点的详细框图。 完整输入输出流程: ...

2026-04-29

Efficient Solutions for Mitigating Initialization Bias in Unsupervised Self-Adaptive Auditory Attention Decoding

📄 Efficient Solutions for Mitigating Initialization Bias in Unsupervised Self-Adaptive Auditory Attention Decoding #听觉注意解码 #自监督学习 #脑电图 #信号处理 🔥 8.5/10 | 前25% | #听觉注意解码 | #自监督学习 | #脑电图 #信号处理 学术质量 6.5/7 | 选题价值 1.3/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Yuanyuan Yao (KU Leuven, Department of Electrical Engineering (ESAT), STADIUS Center for Dynamical Systems, Signal Processing and Data Analytics) 通讯作者:未说明 作者列表:Yuanyuan Yao (KU Leuven, ESAT-STADIUS), Simon Geirnaert (KU Leuven, ESAT-STADIUS; KU Leuven, Department of Neurosciences, ExpORL), Tinne Tuytelaars (KU Leuven, ESAT-PSI), Alexander Bertrand (KU Leuven, ESAT-STADIUS) 💡 毒舌点评 这篇论文的亮点在于将看似棘手的“初始化偏差”问题,转化为通过巧妙的模型架构调整(如双编码器)或训练策略设计(如软标签、复合信号初始化)来系统性地解决,并且每种方案都附带了严格的计算效率分析,这是很多方法论研究容易忽视的工程价值。短板则在于实验验证的广度略显不足,仅在一个公开数据集上进行了评估,缺乏在更复杂、更现实的场景(如嘈杂环境、说话人移动)中的进一步验证,这可能会让部分读者对其泛化能力持保留态度。 ...

2026-04-29

Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec

📄 Entropy-Guided GRVQ for Ultra-Low Bitrate Neural Speech Codec #语音合成 #信号处理 #低资源 #流式处理 ✅ 7.5/10 | 前25% | #语音合成 | #信号处理 | #低资源 #流式处理 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Yanzhou Ren(早稻田大学) 通讯作者:未说明 作者列表:Yanzhou Ren(早稻田大学)、Noboru Harada(NTT, Inc., Japan)、Daiki Takeuchi(NTT, Inc., Japan)、Siyu Chen(早稻田大学)、Wei Liu(早稻田大学)、Xiao Zhang(早稻田大学)、Liyuan Zhang(早稻田大学)、Takehiro Moriya(NTT, Inc., Japan)、Shoji Makino(早稻田大学) 💡 毒舌点评 这篇论文就像给一辆已经不错的汽车(Mimi)换了套更智能的轮胎(EG-GRVQ),开起来确实更稳更高效,但发动机和底盘没变。优点是思路自然、实验扎实,将信息论概念(熵/方差)与工程实践(分组量化)结合得很漂亮;缺点是技术突破感不强,更像一次精细的调优,而且没把“改装图纸”(代码)公开出来。 📌 核心摘要 要解决什么问题:在超低比特率条件下,神经语音编码器如何同时保证高保真的波形重建质量和足够高的语音可懂度(语义信息)。 方法核心是什么:提出熵引导的分组残差矢量量化(EG-GRVQ)。它在保留Mimi模型语义分支的同时,在声学分支中,利用编码器各通道输出的方差(作为信息量的代理)来指导如何将通道分成两个信息量均衡的组,而非传统的均匀分割。 与已有方法相比新在哪里:相较于Mimi原始的RVQ和HiFi-Codec的均匀分组GRVQ,EG-GRVQ的创新点在于“引导分组”的依据。它基于高斯分布假设,认为通道方差与其携带的微分熵正相关,因此通过方差排序和累加来确保分组间的信息负载均衡,旨在提升码本利用效率和减少信息冗余。 主要实验结果如何:在0.6875 kbps的超低比特率下,与多个基线相比,EG-GRVQ在客观指标和主观评价上均取得提升。关键数据如下: 客观评估: 方法 PESQ↑ STOI↑ ViSQOL↑ Mimi (official) 1.872 0.876 2.010 Mimi (retrain) 1.779 0.886 2.546 Mimi (GRVQ) 1.852 0.889 2.464 Proposal (EG-GRVQ) 1.881 0.890 2.496 (表1数据) 码本利用效率:EG-GRVQ在各层码本上保持了更高且更均衡的利用率,而传统RVQ在深层码本利用率急剧下降。 主观评估:MUSHRA测试中,EG-GRVQ比官方Mimi得分高21分,比Mimi (GRVQ)高11分,且提升具有统计显著性(图4,图5)。 实际意义是什么:该方法为低带宽实时语音通信(如VoIP、卫星通信)提供了一种提升音质的可行方案,能在固定比特率预算内更高效地利用量化资源,平衡语义与声学保真度。 主要局限性是什么:1) 分组策略在训练前固定为超参数,未探讨逐帧自适应的可能性(论文中提及但为简化未实施);2) 核心改进局限于声学分支的分组策略,未涉及编解码器整体架构或语义分支的优化;3) 未开源代码和模型,限制了直接复现和快速迭代。 🏗️ 模型架构 模型整体架构(如图1所示)沿用了Mimi的编解码器框架,采用因果、低延迟设计,适用于实时通信。 ...

2026-04-29

Event Classification by Physics-Informed Inpainting for Distributed Multichannel Acoustic Sensor with Partially Degraded Channels

📄 Event Classification by Physics-Informed Inpainting for Distributed Multichannel Acoustic Sensor with Partially Degraded Channels #音频事件检测 #信号处理 #麦克风阵列 #多通道 🔥 8.0/10 | 前25% | #音频事件检测 | #信号处理 | #麦克风阵列 #多通道 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Noriyuki Tonami (NEC Corporation, Japan) 通讯作者:未说明 作者列表:Noriyuki Tonami (NEC Corporation, Japan)、Wataru Kohno (NEC Laboratories America, Inc., USA)、Yoshiyuki Yajima (NEC Corporation, Japan)、Sakiko Mishima (NEC Corporation, Japan)、Yumi Arai (NEC Corporation, Japan)、Reishi Kondo (NEC Corporation, Japan)、Tomoyuki Hino (NEC Corporation, Japan) 💡 毒舌点评 亮点:论文巧妙地将地震学中成熟的逆时偏移(RTM)物理模型“移植”到声学事件分类的预处理环节,提出了一个无需训练、完全基于波动物理的信道修复前端,为应对传感器退化和布局变化提供了一个高解释性的新思路。 短板:整个方法建立在“完美同步、无混响、自由场”的理想化模拟之上,且性能上限(Oracle)遥不可及,这大大削弱了其在现实复杂声场中部署的说服力——毕竟,真正的挑战往往始于时延和反射。 ...

2026-04-29

Exterior Sound Field Estimation Based on Physics-Constrained Kernel

📄 Exterior Sound Field Estimation Based on Physics-Constrained Kernel #空间音频 #声源定位 #物理约束核 #高斯过程回归 #信号处理 ✅ 6.5/10 | 前25% | #空间音频 | #高斯过程回归 | #声源定位 #物理约束核 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Juliano G. C. Ribeiro(雅马哈公司,滨松) 通讯作者:未说明 作者列表:Juliano G. C. Ribeiro(雅马哈公司,滨松)、Ryo Matsuda(雅马哈公司,滨松)、Jorge Trevino(雅马哈公司,滨松) 💡 毒舌点评 本文的核心亮点在于将高斯过程回归与严格的物理约束(外部亥姆霍兹方程解)结合,并通过引入可训练的加权内积实现了对高阶模式衰减的自动学习,理论上比传统球谐展开方法更灵活且对麦克风分布鲁棒。然而,论文的“软肋”也非常明显:所有结论完全建立在精心设计的数值模拟上,未进行任何真实环境或硬件测试,这使得其宣称的“在实际应用中更优”缺乏直接证据;此外,论文在开源和复现细节上完全留白,对于一篇依赖复杂优化的工作,这无疑大幅削弱了其科学价值。 📌 核心摘要 要解决什么问题:论文研究外部声场(源区域外的声场)插值问题。传统方法(如球谐函数展开)通常需要特定的麦克风阵列构型,且对正则化参数和麦克风分布敏感。 方法核心是什么:提出一种基于物理约束核的高斯过程回归(GPR)方法。该方法使用满足外部亥姆霍兹方程的解(球汉克尔函数与球谐函数的乘积)构建再生核希尔伯特空间(RKHS),并通过引入一个参数化的径向衰减函数,使高阶模式能根据数据自动衰减,从而避免发散问题。 与已有方法相比新在哪里:不同于直接截断的球谐展开(SWF)或端到端学习的物理信息神经网络(PNN),该方法将物理知识以“核”的形式嵌入高斯过程框架。其创新在于定义了一个可收敛的加权内积(式(13)),并由此导出带权重的核函数(式(17)),使得模型参数(α, β)可通过最大化似然函数自动优化,无需手动调整截断阶数或正则化项。 主要实验结果如何:在包含27个点源的模拟环境中,对比了SWF和PNN方法。在100 Hz至2.5 kHz频段内,所提方法在两种麦克风分布(球形t-design阵列和随机阵列)下的归一化均方误差(NMSE)平均比最优基线(PNN)低1.94 dB,比理想的SWF(使用测试数据选择正则化参数)低2.06 dB。在1 kHz处的点估计中,所提方法显示出更低且分布更均匀的归一化平方误差(NSE)(见图5)。 实际意义是什么:该方法为声场再现、主动噪声控制等应用提供了一种更鲁棒的声场插值工具,理论上允许麦克风任意分布,降低了系统对硬件阵列的依赖。 主要局限性是什么:所有实验均为数值模拟,缺乏真实声学环境、混响、非理想声源等复杂条件的验证;论文未提供代码和详细复现指南;所提优化问题(式(20))没有闭式解,其求解稳定性和计算复杂度未深入讨论。 🏗️ 模型架构 本文提出的方法并非一个传统的多层神经网络,而是一个基于核方法的高斯过程回归模型。其整体架构和流程如下: 输入:目标区域ΩT内M个麦克风位置{rm}M=1处的复声压测量值 s,以及这些位置的坐标。频率域独立处理。 核心组件——物理约束核函数: 基础:使用外部亥姆霍兹方程的解 ψν,μ(r) = hν(k∥r∥)Yμν(r/∥r∥) 作为基函数。其中hν是球汉克尔函数,Yμν是球谐函数。 创新——加权内积与RKHS定义:为解决hν在源点(r=0)的奇异性(阶数ν的极点),定义了一个径向衰减加权内积(式(9)),其权重函数为 w(r) = k exp(-(α/(k∥r∥))^{1/β})。这个权重确保了所有阶数的ψν,μ在积分下的范数有限(式(14))。 可训练模式衰减:通过权重函数导出每个阶数ν的衰减系数ξν(α, β)(式(15))。α和β是可训练参数,控制高阶模式的衰减速度(如图2所示)。 核函数构建:在上述RKHS中,定义再生核为 κ(r, r’; α, β) = Σν=0^20 Σμ=-ν^ν ξν(α, β) ψν,μ(r) ψν,μ(r’)(式(17))。截断阶数νKRR=20,固定。 估计器:声场估计器为这些核函数的线性组合:ûKRR(r) = Σm=1^M am κα,β(r, rm)(式(18))。 参数优化:系数向量 a 通过核岭回归(KRR)求解(式(19))。核参数α, β和正则化系数λKRR通过最大化高斯过程的对数边缘似然函数(式(20))来联合优化,其中加入了对Gram矩阵条件数的约束以保证数值稳定性。 输出:对于目标区域内任意点r,输出其估计的复声压ûKRR(r)。 图1:问题陈述示意图 图1展示了问题设置:目标区域ΩT(外部球壳)包含声源区域ΩS(内部球体)。麦克风分布在ΩT中。 ...

2026-04-29

Forward Convolutive Prediction for Frame Online Monaural Speech Dereverberation based on Kronecker Product Decomposition

📄 Forward Convolutive Prediction for Frame Online Monaural Speech Dereverberation based on Kronecker Product Decomposition #语音增强 #信号处理 #Kronecker分解 #在线处理 ✅ 7.5/10 | 前50% | #语音增强 | #信号处理 | #Kronecker分解 #在线处理 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Yujie Zhu(武汉大学电子信息学院) 通讯作者:未说明 作者列表:Yujie Zhu(武汉大学电子信息学院),Jilu Jin(西北工业大学CIAIC),Xueqin Luo(西北工业大学CIAIC),Wenxing Yang(上海理工大学东方泛血管器械创新学院),Zhong-Qiu Wang(南方科技大学计算机科学与工程系),Gongping Huang(武汉大学电子信息学院),Jingdong Chen(西北工业大学CIAIC),Jacob Benesty(加拿大魁北克大学INRS-EMT) 💡 毒舌点评 亮点:本文成功地将计算复杂的长线性预测滤波器,通过Kronecker积(KP)分解为两个短滤波器的乘积,并提供了有效的自适应更新算法,在保持或略微提升性能(在P值较大时)的同时,显著降低了计算量,为实时单通道去混响提供了更可行的工程方案。短板:论文的核心贡献是将现有的KP分解框架“嫁接”到FCP方法上,属于一个系统集成的创新,而非底层理论的突破。此外,第一阶段的DNN(GTCRN)是现成的架构,并未提出新的网络设计。 📌 核心摘要 这篇论文针对单通道语音去混响中计算复杂度高的问题,提出了基于Kronecker积(KP)分解的前向卷积预测(FCP)方法。其核心思想是将原本很长的线性预测滤波器,建模为两个长度短得多的滤波器的KP,从而大幅减少参数量和计算负担。与传统的FCP方法相比,新方法在滤波器更新阶段引入了KP分解框架,并通过基于递归最小二乘(RLS)的自适应算法迭代更新这两个短滤波器。实验在模拟的混响环境(VCTK数据集)中进行,结果表明,当KP分解的阶数P选择合适(如P=4或5)时,KP-FCP方法在PESQ和FWSNR等指标上能够达到甚至超过传统FCP的性能,同时计算复杂度显著降低。例如,在T60=400ms条件下,KP-FCP(P=5)的PESQ为1.837,优于FCP(online)的1.709。该研究为资源受限场景下的实时单通道语音去混响提供了一种高效的解决方案。主要局限性在于,第一阶段的神经网络部分采用了现有架构,且KP分解阶数P的选择需要权衡性能与效率。 🏗️ 模型架构 本文提出的系统是一个两阶段的帧在线单通道语音去混响框架,如图1所示。 第一阶段:直达声估计 输入:带噪混响语音信号的STFT表示 Y(t, f) 及其幅度谱。 核心组件:一个因果的、基于分组时序卷积循环网络(GTCRN)的深度神经网络(DNN)。 内部流程:如图2所示,输入首先经过频带合并(BM)模块压缩高频信息;然后通过子带特征提取(SFE)模块重塑频率维度以捕捉跨频带关系;接着由编码器编码成紧凑的时频表征;随后通过两个分组双路径循环网络(G-DPRNN)模块分别对帧内和帧间依赖关系建模(其中帧间建模使用单向GRU以确保因果性);最后解码器与频带分离(BS)操作预测出直达声分量 Ŝnn(t, f)。 设计动机:在线、因果设计,确保处理当前帧时不依赖未来信息,适用于流式应用。 ...

2026-04-29

Full Band Denoising of Room Impulse Response in the Wavelet Domain with Dictionary Learning

📄 Full Band Denoising of Room Impulse Response in the Wavelet Domain with Dictionary Learning #房间脉冲响应去噪 #小波变换 #字典学习 #信号处理 ✅ 7.5/10 | 前25% | #房间脉冲响应去噪 | #小波变换 #字典学习 | #小波变换 #字典学习 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Théophile Dupré(Trinnov Audio, Neuilly-Plaisance, France) 通讯作者:未说明 作者列表:Théophile Dupré(Trinnov Audio)、Romain Couderc(Trinnov Audio)、Miguel Moleron(Trinnov Audio)、Axel Coulon(Trinnov Audio)、Rémy Bruno(Trinnov Audio)、Arnaud Laborie(Trinnov Audio) 💡 毒舌点评 亮点在于精准切中了传统小波去噪在低频RIR上失效的工程痛点,并巧妙地用带自适应误差容忍的稀疏字典学习来“修复”这部分信号,思路务实且效果显著。短板则是该方法本质上仍是基于信号模型的后处理,面对非平稳或有色低频噪声时可能依然力不从心,且论文未讨论字典学习带来的额外计算开销,对实时应用是个潜在顾虑。 📌 核心摘要 问题:传统的基于小波阈值的房间脉冲响应(RIR)去噪方法主要处理高频细节系数,无法有效去除低频噪声,导致低频声学参数(如衰减时间DT60)估计不准。 核心方法:提出一种两阶段后处理算法。首先,对RIR进行离散小波变换(DWT)。然后,高频细节系数使用传统阈值法去噪;低频近似系数则采用一种基于误差约束的稀疏字典学习方法进行去噪,其中重构误差容忍度根据估计的RIR指数衰减包络模型进行时变调整。 创新性:将稀疏字典学习引入RIR低频去噪;设计了一种基于信噪比估计的时变误差容忍度机制,实现了在信号强处(高SNR)精确重建、在信号弱处(低SNR)允许更大灵活性的自适应去噪。 实验结果: 在仿真数据上,所提方法在SNR低至15dB时仍能保持较低的DT60估计误差,显著优于基线方法(在SNR低于25dB时误差急剧上升)。 在实测数据上(大型扬声器和低音炮),所提方法在低SNR下能生成更接近无噪真实曲线的Schroeder积分曲线,且动态范围改善(去噪前后噪底差)始终优于基线方法。具体数值见图表。 实际意义:能够提升存在低频环境噪声(如通风系统、结构振动)时的RIR测量精度,从而获得更可靠的房间声学参数,对声学测量、虚拟现实声场重建等应用有益。 局限性:计算复杂度高于基线方法;性能依赖于对RIR衰减包络和噪声水平的准确估计;论文未与基于深度学习的去噪方法进行对比。 🏗️ 模型架构 该方法并非传统意义上的神经网络模型,而是一个信号处理流程。其整体架构如下图所示(对应论文Fig. 1): Fig. 1. Diagram of the proposed approach. 流程详解: ...

2026-04-29

Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring

📄 Fusion of Multimodal Estimations by Extended State Hidden Markov Model: Application to Fetal Heart Rate Monitoring #生物声学 #信号处理 #多任务学习 #医疗 ✅ 7.0/10 | 前50% | #生物声学 | #信号处理 | #多任务学习 #医疗 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC) 通讯作者:Bertrand Rivet(未明确说明,但提供了邮箱;机构为Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 作者列表:Baptiste Rault(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Julie Fontecave-Jallon(Université Grenoble Alpes, CNRS, UMR 5525, VetAgro Sup, Grenoble INP, TIMC)、Bertrand Rivet(Université Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab) 💡 毒舌点评 亮点:扩展HMM状态变量以显式建模“观测是目标信号、混淆信号还是噪声”的思路巧妙且可解释,有效提升了融合算法在真实临床数据上的抗混淆能力(FuSEmHR的RMC中位数降至1.5%)。短板:算法复杂度急剧增加(融合1分钟数据从35ms升至8秒),且最终版本严重依赖可靠的参考信号(mHR),限制了其在未知或不稳定干扰下的应用;更遗憾的是,论文未开源任何代码或数据,让“可复现性”成了一纸空文。 ...

2026-04-29

Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker

📄 Generating Localized Audible Zones Using a Single-Channel Parametric Loudspeaker #空间音频 #麦克风阵列 #信号处理 #音频生成 ✅ 6.5/10 | 前50% | #空间音频 | #麦克风阵列 | #信号处理 #音频生成 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 通讯作者:未说明 作者列表:Tao Zhuang(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Shaozhe Li(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室),Feng Niu(国家计量院力学与声学部),Jia-Xin Zhong(宾夕法尼亚州立大学声学研究生项目),Jing Lu(南京大学现代声学实验室;南京大学-地平线智能音频联合实验室) 💡 毒舌点评 亮点在于概念上的巧妙“偷天换日”,将多通道阵列处理所需的物理通道数,通过超声波非线性效应“虚拟”出来,从而用单一物理扬声器硬件实现了复杂声场控制,思路新颖且具启发性。短板则是这篇顶会论文的实验部分显得过于“理论”,仅停留在自由场条件的数值仿真,缺乏任何硬件原型搭建与实测数据验证,使得从“概念可行”到“实际可用”的距离依然模糊,论文的说服力因此大打折扣。 📌 核心摘要 本文针对传统声音区域控制(SZC)系统依赖多通道扬声器阵列、硬件复杂的瓶颈,提出了一种单通道多载波参量扬声器(MCPL)方案。其核心是将不同音频信号调制到多个不同频率的超声波载波上,合成单路信号后由单一换能器发射,利用空气的非线性自解调效应,在空气中虚拟出多个独立的音频通道,从而将为传统阵列设计的SZC算法直接应用于此虚拟通道。与已有双载波方法相比,该方案推广至N个载波,提供了更强的声场控制自由度。仿真实验表明,该方案能有效缩短声音的传播距离(例如,1kHz音频下,4载波系统的有效传播距离从传统PL的约7米缩短至1.8米),并生成局部化的听音区,验证了该方法在简化硬件系统的同时维持SZC性能的潜力。该工作的主要局限是所有结论均基于数值模拟,未进行实际硬件实验,且未讨论复杂声学环境下的鲁棒性。 🏗️ 模型架构 该系统并非传统意义上的深度学习模型,而是一个基于声学物理原理的信号处理与控制系统。其架构流程如下: 输入:一个音频信号 audio_signal(频率为fa)。 多载波调制(数字域):将该音频信号调制到N个频率不同(fc,1, fc,2, …, fc,N)的超声波载波上。每个载波通道 n 生成两个边带信号 wu,n 和 wu,n,分别控制下边带和上边带的幅度和相位,得到调制信号 sn(t)。 信号合成(数字域):将所有调制后的信号 sn(t) 相加,生成一个单一的复合电信号 s(t)。这是整个系统唯一的物理输出信号。 数模转换与发射:单一通道信号 s(t) 经过单个DAC转换为模拟信号,驱动单个超声波换能器阵列(文中称为“单通道参量扬声器”)。 空气非线性解调(物理域):发射出的超声波复合信号在空气中传播时,由于空气的非线性特性,不同载波频率的信号之间发生相互作用,自解调产生音频信号。论文的核心论点在于,当各载波频率间距足够大(>20kHz)时,最终产生的总音频声压 pa(r, ωa) 是各虚拟通道贡献的线性叠加,如公式(6)所示:pa = Σ wn * Ha,n。这等效于创建了N个虚拟的、由权重 wn 控制的独立音频源通道。 声场控制:基于这个虚拟的多通道模型,应用经典的声学对比度控制(ACC)算法。通过优化权重向量 w = [w1, ..., wN]T,最大化目标“亮区”与“暗区”之间的声压平方比(公式9-10),从而生成所需的局部化听音区。 图1:(a) 展示了圆形MCPL在平面内生成亮区和暗区的示意图。(b) 是信号流程图,清晰地展示了音频信号如何调制到N个载波,合成单一信号 s(t),并通过空气解调形成N个虚拟通道,最终辐射出所需的音频声场。 ...

2026-04-29

H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability

📄 H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability #语音增强 #信号处理 #时频分析 #实时处理 #低资源 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #时频分析 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jitao Ma(浙江大华技术股份有限公司)(论文标注为共同第一贡献) 通讯作者:Ruidong Fang(浙江大华技术股份有限公司) 作者列表:Jitao Ma(浙江大华技术股份有限公司),Jingbiao Huang(浙江大华技术股份有限公司),Ruidong Fang(浙江大华技术股份有限公司),Jucai Lin(浙江大华技术股份有限公司),Han Xue(浙江大华技术股份有限公司),Yapeng Mao(浙江大华技术股份有限公司),Jun Yin(浙江大华技术股份有限公司) 💡 毒舌点评 本文亮点在于提出了“块激活概率”这一巧妙机制,用一个紧凑的神经网络同时解决了传统自适应滤波器步长选择和滤波器长度固定两大痛点,且计算开销极低。然而,纯线性框架可能在处理设备扬声器严重非线性失真时存在天花板,而论文中的对比实验(如与Deep Adaptive AEC的比较)也显示在复杂场景下其性能仍不及更重的混合方法,且代码未开源限制了复现价值。 📌 核心摘要 问题:在低成本消费设备上部署声学回声消除(AEC)时,传统自适应滤波器(如PBFDAF)面临步长选择困难、滤波器长度需手动固定以适应不同回声路径、以及现有神经网络混合方法计算成本过高的挑战。 方法核心:提出神经网络分块频域自适应滤波器(nnPBFDAF)。核心是一个轻量神经网络,它同时估计频域步长向量(用于替代固定步长)和块激活概率向量(每个分块一个概率值)。块激活概率向量的和可用于间接控制有效滤波器长度,实现自动适应。进一步提出两阶段层次结构(H-nnPBFDAF),第一阶段估计的回声作为第二阶段的参考信号,以提升鲁棒性。 创新点:a) 将神经网络步长估计与PBFDAF深度融合;b) 引入块激活概率向量,首次解决了固定分块数PBFDAF无法自适应不同回声路径长度的难题;c) 设计两阶段级联架构(H-nnPBFDAF),以粗到精的方式提升回声估计精度。 实验结果:在三个测试集上进行评估。如表1所示,在模拟短回声路径(Subset 1)上,H-nnPBFDAF的PESQ为3.12,ERLE为34.57 dB,优于传统PBFDKF(PESQ 2.93, ERLE 25.77 dB)。在AEC Challenge盲测集(Subset 2)上,H-nnPBFDAF在双讲回声评价(DT-E)得分为3.40,略低于Deep Adaptive AEC(4.40),但计算复杂度仅为其约1/26。在真实消费设备数据(Subset 3)上,H-nnPBFDAF的ERLE为21.47 dB,显著优于NKF(7.29 dB)。消融实验(表2)证实,采用块激活概率的nnPBFDAF在不同回声路径长度下的平均PESQ(2.87)优于所有固定分块数模型。 实际意义:该方法在极低计算开销(仅占ARM Cortex-A35单核<9%资源)下实现了高性能AEC,并能自动适应回声路径变化,非常适合资源受限的消费类电子产品(如智能音箱、会议设备)部署,且模型已实际部署。 主要局限性:作为线性AEC框架,对高度非线性失真的回声消除能力可能有限;神经网络部分的具体结构和训练策略细节(如优化器、学习率)未完全公开;代码未开源。 🏗️ 模型架构 模型的核心是nnPBFDAF模块,其整体流程和内部结构如下图所示: ...

2026-04-29