H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability

📄 H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Frequency Domain Adaptive Filter with Novel Block Activation Probability #语音增强 #信号处理 #时频分析 #实时处理 #低资源 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #时频分析 #实时处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Jitao Ma(浙江大华技术股份有限公司)(论文标注为共同第一贡献) 通讯作者:Ruidong Fang(浙江大华技术股份有限公司) 作者列表:Jitao Ma(浙江大华技术股份有限公司),Jingbiao Huang(浙江大华技术股份有限公司),Ruidong Fang(浙江大华技术股份有限公司),Jucai Lin(浙江大华技术股份有限公司),Han Xue(浙江大华技术股份有限公司),Yapeng Mao(浙江大华技术股份有限公司),Jun Yin(浙江大华技术股份有限公司) 💡 毒舌点评 本文亮点在于提出了“块激活概率”这一巧妙机制,用一个紧凑的神经网络同时解决了传统自适应滤波器步长选择和滤波器长度固定两大痛点,且计算开销极低。然而,纯线性框架可能在处理设备扬声器严重非线性失真时存在天花板,而论文中的对比实验(如与Deep Adaptive AEC的比较)也显示在复杂场景下其性能仍不及更重的混合方法,且代码未开源限制了复现价值。 📌 核心摘要 问题:在低成本消费设备上部署声学回声消除(AEC)时,传统自适应滤波器(如PBFDAF)面临步长选择困难、滤波器长度需手动固定以适应不同回声路径、以及现有神经网络混合方法计算成本过高的挑战。 方法核心:提出神经网络分块频域自适应滤波器(nnPBFDAF)。核心是一个轻量神经网络,它同时估计频域步长向量(用于替代固定步长)和块激活概率向量(每个分块一个概率值)。块激活概率向量的和可用于间接控制有效滤波器长度,实现自动适应。进一步提出两阶段层次结构(H-nnPBFDAF),第一阶段估计的回声作为第二阶段的参考信号,以提升鲁棒性。 创新点:a) 将神经网络步长估计与PBFDAF深度融合;b) 引入块激活概率向量,首次解决了固定分块数PBFDAF无法自适应不同回声路径长度的难题;c) 设计两阶段级联架构(H-nnPBFDAF),以粗到精的方式提升回声估计精度。 实验结果:在三个测试集上进行评估。如表1所示,在模拟短回声路径(Subset 1)上,H-nnPBFDAF的PESQ为3.12,ERLE为34.57 dB,优于传统PBFDKF(PESQ 2.93, ERLE 25.77 dB)。在AEC Challenge盲测集(Subset 2)上,H-nnPBFDAF在双讲回声评价(DT-E)得分为3.40,略低于Deep Adaptive AEC(4.40),但计算复杂度仅为其约1/26。在真实消费设备数据(Subset 3)上,H-nnPBFDAF的ERLE为21.47 dB,显著优于NKF(7.29 dB)。消融实验(表2)证实,采用块激活概率的nnPBFDAF在不同回声路径长度下的平均PESQ(2.87)优于所有固定分块数模型。 实际意义:该方法在极低计算开销(仅占ARM Cortex-A35单核<9%资源)下实现了高性能AEC,并能自动适应回声路径变化,非常适合资源受限的消费类电子产品(如智能音箱、会议设备)部署,且模型已实际部署。 主要局限性:作为线性AEC框架,对高度非线性失真的回声消除能力可能有限;神经网络部分的具体结构和训练策略细节(如优化器、学习率)未完全公开;代码未开源。 🏗️ 模型架构 模型的核心是nnPBFDAF模块,其整体流程和内部结构如下图所示: ...

2026-04-29

Hair Noise Analysis and Mitigation for Smart Glasses Audio Captures

📄 Hair Noise Analysis and Mitigation for Smart Glasses Audio Captures #语音增强 #信号处理 #麦克风阵列 #音频分类 #数据集 ✅ 7.5/10 | 前25% | #语音增强 | #信号处理 | #麦克风阵列 #音频分类 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Subrata Biswas(Worcester Polytechnic Institute, MA, USA 及 Meta Reality Labs, WA, USA) 通讯作者:未明确说明(根据邮箱排列,可能是Daniel Wong) 作者列表: Subrata Biswas(Worcester Polytechnic Institute 及 Meta Reality Labs) Daniel Wong(Meta Reality Labs) Bashima Islam(Worcester Polytechnic Institute) Sanjeel Parekh(Meta Reality Labs) Vladimir Tourbabin(Meta Reality Labs) 💡 毒舌点评 亮点:论文开创性地将“头发噪音”这个长期困扰智能眼镜用户却鲜少被学界系统研究的“房间里的大象”定义为明确的学术问题,其用户研究和数据集构建工作扎实且具有长远价值。短板:提出的NMF基准方法略显保守,虽然有效,但在深度学习大行其道的今天,缺乏与基于深度学习的降噪/分离方法(如论文引用但未深入对比的[6][7][8])的直接较量,使得“基准”的标杆高度受限。 ...

2026-04-29

HCGAN: Harmonic-Coupled Generative Adversarial Network for Speech Super-Resolution in Low-Bandwidth Scenarios

📄 HCGAN: Harmonic-Coupled Generative Adversarial Network for Speech Super-Resolution in Low-Bandwidth Scenarios #语音增强 #生成模型 #端到端 #低资源 🔥 8.0/10 | 前50% | #语音增强 | #生成模型 | #端到端 #低资源 学术质量 5.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Xin Wang(河海大学信息科学与工程学院) 通讯作者:Yibin Tang(河海大学信息科学与工程学院) 作者列表:Xin Wang(河海大学信息科学与工程学院)、Yuan Gao(河海大学信息科学与工程学院)、Xiaotong Wang(河海大学信息科学与工程学院)、Yibin Tang(河海大学信息科学与工程学院)、Aimin Jiang(河海大学信息科学与工程学院)、Ying Chen(常州大学微电子与控制工程学院) 💡 毒舌点评 亮点:该工作的双分支设计思路清晰,将语音的谱特征与谐波结构显式解耦并分别建模,对于解决4kHz这类谐波严重丢失的极窄带问题确有针对性,消融实验也证明了谐波分支的贡献。短板:作为2026年发表在ICASSP的工作,其网络架构(U-Net + GAN + Mamba)的集成缺乏更深入的原理性创新,更像是一个工程上的有效组合;且Mamba模块在消融实验中对核心指标PESQ的提升并不显著,其必要性有待更强论证。 📌 核心摘要 问题:在低带宽场景(如采样率4kHz)下进行语音超分辨率时,输入信号的谐波信息严重丢失,现有方法难以恢复出自然清晰的高质量语音。 方法核心:提出谐波耦合生成对抗网络(HCGAN)。生成器采用双分支架构:谱分支通过U-Net和Mamba模块处理频谱图;谐波分支通过时谐模块从低频谐波矩阵估计高频谐波矩阵。两分支输出融合后生成最终频谱。 创新点:1)显式引入并建模语音的谐波结构,通过矩阵形式实现谐波从低频到高频的迁移;2)设计双分支架构,分别学习谱平滑性和谐波连续性,并进行特征融合;3)在U-Net瓶颈处集成轻量Mamba模块以降低计算复杂度。 主要结果:在8kHz->16kHz任务上,HCGAN的PESQ达到3.64,超越所有对比方法(最高为TUNet的3.50)。在更困难的4kHz->16kHz任务上,其PESQ为2.50,也优于AFiLM、NVSR等传统方法。消融实验证实了多尺度特征损失、Mamba模块和谐波提取(HE)模块的有效性。 表1:16 kHz高分辨率语音从8 kHz语音恢复对比 方法 LSD PESQ SNR (dB) Params (M) AFiLM [20] 0.74 3.02 20.0 134.7 NVSR [21] 0.78 3.09 17.4 99.0 TFiLM [12] 0.78 2.51 19.8 68.2 AERO [17] 0.77 3.01 22.5 36.3 Tramba [16] 0.82 3.23 23.2 5.2 TUNet [13] 1.36 3.50 17.4 2.9 HCGAN 0.78 3.64 19.8 4.7 表2:16 kHz高分辨率语音从4 kHz语音恢复对比 方法 LSD PESQ SNR (dB) Params (M) AFiLM [20] 1.00 1.88 15.4 134.7 NVSR [21] 0.95 2.03 11.7 99.0 TFiLM [12] 1.17 2.08 15.0 68.2 TFNet [11] 1.27 1.73 17.5 55.8 HCGAN 0.96 2.50 14.3 4.7 实际意义:HCGAN以仅4.7M的参数量,在关键的感知质量指标PESQ上表现优异,尤其适用于卫星通信、物联网等对模型大小敏感且带宽极度受限的语音通信增强场景。 局限性:当输入语音基频较高(>300Hz)时,低频谐波矩阵包含的信息不足,导致谐波分支的性能提升有限。此外,实验部分未提供语音增强后的MOS评分或主观听感测试,客观指标与主观感受的关联性有待进一步验证。 🏗️ 模型架构 HCGAN是一个在GAN框架下的双分支生成器模型,其整体架构如图1所示。其核心思想是分别建模语音的频谱特征和谐波结构,然后进行融合。 ...

2026-04-29

High-Fidelity Speech Enhancement Via Discrete Audio Tokens

📄 High-Fidelity Speech Enhancement Via Discrete Audio Tokens #语音增强 #自回归模型 #语音大模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #语音大模型 #数据集 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Luca A. Lanzendörfer(未明确标注,但根据作者列表顺序推测) 通讯作者:未说明 作者列表:Luca A. Lanzendörfer (ETH Zurich), Frédéric Berdoz (ETH Zurich), Antonis Asonitis (ETH Zurich), Roger Wattenhofer (ETH Zurich) 💡 毒舌点评 亮点在于其架构的“暴力美学”——用一个足够大的语言模型(1B LLaMA)和足够高分辨率的离散表示(44.1kHz DAC),将复杂的语音增强多阶段流水线简化为直接的token-to-token转换,并取得了SOTA结果,为“大力出奇迹”在语音领域提供了又一例证。短板在于这种简化高度依赖预训练的高质量编解码器(DAC)和计算资源,论文对模型计算成本、推理延迟等实际部署考量几乎只字未提,且在处理特定失真(如DNS挑战中的背景噪声抑制)时并未展现出压倒性优势。 📌 核心摘要 这篇论文旨在解决现有基于语言模型的语音增强方法局限于低采样率(16kHz)和依赖复杂多阶段架构的问题,以实现高保真(44.1kHz)的语音增强与带宽扩展。 方法核心是提出一个名为DAC-SE1的单阶段框架,该框架直接使用44.1kHz的DAC离散音频令牌作为输入和输出,由一个基于LLaMA的1B参数自回归模型进行处理,无需额外的语义编码器或多阶段流水线。 与已往工作相比,新方法的新颖之处在于:1)直接操作高分辨率DAC令牌,保留了精细的声学细节;2)架构高度简化,统一了增强与带宽扩展任务;3)通过扩大模型参数和训练数据规模来提升性能。 主要实验结果表明,DAC-SE1在HiFiTTS-2测试集的客观指标(如DNSMOS OVRL: 2.95)和MUSHRA主观评分(58.3分)上均优于LLaSE-G1和VoiceFixer等基线。在ICASSP 2022 PLC挑战中,其PLCMOS分数达到4.34,超越了所有对比方法。在ICASSP 2023 DNS挑战中,性能与最强基线持平。 该工作的实际意义在于证明了通过简单、可扩展的自回归语言模型范式,结合高质量的音频离散表示,能够实现统一且高质量的语音增强任务,为未来构建通用音频生成模型提供了新思路。 主要局限性是论文未详细讨论模型的计算效率、训练成本以及在不同噪声类型或极低信噪比条件下的泛化能力,且其性能提升部分依赖于庞大的模型参数,可能限制了实际部署场景。 ...

2026-04-29

HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning

📄 HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning #语音增强 #流匹配 #端到端 #轻量化模型 🔥 8.0/10 | 前25% | #语音增强 | #流匹配 | #端到端 #轻量化模型 学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Yang Zhang(杭州电子科技大学 通信工程学院) 通讯作者:Wenbin Jiang(杭州电子科技大学 通信工程学院,邮箱:wbjiang@hdu.edu.cn) 作者列表:Yang Zhang(杭州电子科技大学 通信工程学院),Wenbin Jiang(杭州电子科技大学 通信工程学院),Zhen Wang(杭州电子科技大学 通信工程学院),KaiYing Wu(杭州电子科技大学 通信工程学院),Wen Zhang(杭州电子科技大学 通信工程学院),Fei Wen(上海交通大学 信息科学与电子工程学院) 💡 毒舌点评 亮点在于巧妙地利用可微分ODE这一技术“胶水”,将本应用于生成建模的流匹配与用于精细监督的判别损失无缝融合,以端到端方式显著提升了轻量级模型的性能,方案优雅且有效。短板在于其创新主要停留在训练策略的集成上,网络架构本身(NCSN++)并无新意,且论文缺乏对判别损失如何具体指导向量场学习这一内在机制的更深入剖析。 📌 核心摘要 解决的问题:纯生成式的流匹配语音增强模型在追求轻量化(参数少)和高效率(低NFE)时,性能会显著下降,而现有的级联或两阶段解决方案会引入额外的推理步骤,增加计算开销,违背了流匹配高效推理的初衷。 方法核心:提出HyFlowSE框架,其核心是将标准的条件流匹配(CFM)生成损失与一个由L1损失、多分辨率STFT谱收敛损失和对数STFT幅度损失组成的判别性损失相结合。通过利用可微分的神经常微分方程(Neural ODE)求解器,这两个损失可以在一次前向传播中计算,并实现端到端联合优化。 与已有方法的新颖之处:与需要级联多个流模型(如CasFlowSE)或依赖预训练判别模型的方法不同,HyFlowSE在单一模型和单次推理流程中集成了生成与判别目标,不增加推理时的NFE,实现了效率与性能的兼得。 主要实验结果:在VoiceBank+DEMAND数据集上,仅5.2M参数的HyFlowSE(T)模型在PESQ(3.21)上超过了65.6M参数的FlowSE(3.12)。在更具挑战性的WSJ0+CHiME3低信噪比(L)场景下,HyFlowSE(T)(5.2M)的PESQ达到3.09,大幅超越27.8M参数的FlowSE(M)(2.64)和CasFlowSE(2.64)。在混响条件下(WSJ0+Reverb),其PESQ(2.95)也优于FlowSE(M)(2.45)和CasFlowSE(2.80)。 实际意义:为在资源受限设备上部署高性能语音增强系统提供了新路径。它表明通过精心的训练目标设计,可以用更小的模型达到甚至超越大模型的性能,对降低算法落地成本和功耗有直接价值。 主要局限性:网络骨干(NCSN++)并非新颖设计,创新性集中在训练目标上。论文未详细分析混合损失中各项权重的敏感性及其背后的机理。实验未与更多非流匹配的轻量级判别模型(如DCCRN等)进行对比,难以全面评估其在轻量化模型谱系中的绝对位置。 🏗️ 模型架构 HyFlowSE是一个端到端的语音增强框架,其整体架构如图1所示。 ...

2026-04-29

I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement

📄 I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement #语音增强 #变分自编码器 #预训练 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #变分自编码器 | #预训练 #鲁棒性 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Jiatong Li(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群) 通讯作者:未说明(两位作者并列提供邮箱,未明确指定通讯作者) 作者列表:Jiatong Li(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群)、Simon Doclo(Carl von Ossietzky Universität Oldenburg, 医学物理与声学系及 Hearing4all 卓越集群) 💡 毒舌点评 本文像一位严谨的工程师,将VAE语音增强系统的“后门”(跳跃连接)焊死,强迫其从潜在空间“真正学习”,并用β-VAE的旋钮精细调节学习内容,结果泛化能力显著提升。然而,改进更多是“修补”与“优化”现有架构,缺乏从根本上改变游戏规则的洞见,且未能与当前生成模型SOTA(如基于扩散模型的方法)同台竞技,使其影响力打了折扣。 ...

2026-04-29

ICASSP 2026 - 语音增强 论文列表

ICASSP 2026 - 语音增强 共 75 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enha 8.5分 前25% 🥈 DiTSE: High-Fidelity Generative Speech Enhancement via Laten 8.5分 前10% 🥉 Towards Lightweight Adaptation of Speech Enhancement Models 8.5分 前25% 4. FastEnhancer: Speed-Optimized Streaming Neural Speech Enhanc 8.5分 前25% 5. DisContSE: Single-Step Diffusion Speech Enhancement based on 8.5分 前10% 6. Sidon: Fast and Robust Open-Source Multilingual Speech Resto 8.5分 前25% 7. Spike-Driven Low-Power Speech Bandwidth Extension 8.0分 前25% 8. MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generativ 8.0分 前25% 9. Deep Learning-Based Joint Optimization of Adaptive Feedback 8.0分 前25% 10. HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement 8.0分 前25% 11. HCGAN: Harmonic-Coupled Generative Adversarial Network for S 8.0分 前50% 12. Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U 8.0分 前25% 13. Mixture To Beamformed Mixture: Leveraging Beamformed Mixture 8.0分 前25% 14. Modeling Strategies For Speech Enhancement in The Latent Spa 8.0分 前50% 15. LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Re 8.0分 前25% 16. Influence of Clean Speech Characteristics on Speech Enhancem 8.0分 前25% 17. LipsAM: Lipschitz-Continuous Amplitude Modifier for Audio Si 7.5分 前25% 18. MSANET: Multi-Scale Semantic Aggregation Network for Brain-A 7.5分 前25% 19. Bone-Conduction Guided Multimodal Speech Enhancement with Co 7.5分 前25% 20. The 3rd Clarity Prediction Challenge: A Machine Learning Cha 7.5分 前25% 21. Two-Stage Language Model Framework for Acoustic Echo Cancell 7.5分 前25% 22. E2E-AEC: Implementing An End-To-End Neural Network Learning 7.5分 前25% 23. SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via In 7.5分 前25% 24. A Stabilized Hybrid Active Noise Control Algorithm of GFANC 7.5分 前25% 25. Enhancing Speech Intelligibility Prediction for Hearing Aids 7.5分 前25% 26. H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Fr 7.5分 前25% 27. Joint Deep Secondary Path Estimation and Adaptive Control fo 7.5分 前25% 28. Enhancing Noise Robustness for Neural Speech Codecs Through 7.5分 前25% 29. Low-Bandwidth High-Fidelity Speech Transmission with Generat 7.5分 前25% 30. From Diet to Free Lunch: Estimating Auxiliary Signal Propert 7.5分 前25% 31. Beamforming Using Virtual Microphones for Hearing Aid Applic 7.5分 前50% 32. I-DCCRN-VAE: An Improved Deep Representation Learning Framew 7.5分 前25% 33. Do We Need EMA for Diffusion-Based Speech Enhancement? Towar 7.5分 前50% 34. Hair Noise Analysis and Mitigation for Smart Glasses Audio C 7.5分 前25% 35. Are Modern Speech Enhancement Systems Vulnerable to Adversar 7.5分 前25% 36. UJCodec: An End-to-end Unet-Style Codec for Joint Speech Com 7.5分 前25% 37. Spatial Covariance Matrix Reconstruction for Speech Enhancem 7.5分 前25% 38. Training-Free Inference-Time Scaling for Audio Source Separa 7.5分 前25% 39. Forward Convolutive Prediction for Frame Online Monaural Spe 7.5分 前50% 40. MeanFlowSE: One-Step Generative Speech Enhancement via Condi 7.5分 前10% 41. FlowSE-GRPO: Training Flow Matching Speech Enhancement via O 7.5分 前25% 42. Aligning Generative Speech Enhancement with Perceptual Feedb 7.5分 前25% 43. PG-SE: Predictive Acceleration and Correction for Generative 7.5分 前25% 44. Dynamically Slimmable Speech Enhancement Network with Metric 7.5分 前25% 45. Lightweight Phoneme-Conditioned Bandwidth Extension for Body 7.5分 前25% 46. Fast-ULCNet: A Fast and Ultra Low Complexity Network for Sin 7.5分 前25% 47. ParaGSE: Parallel Generative Speech Enhancement with Group-V 7.5分 前25% 48. High-Fidelity Speech Enhancement Via Discrete Audio Tokens 7.5分 前25% 49. DISSR: Disentangling Speech Representation for Degradation-P 7.5分 前25% 50. Ranking The Impact of Contextual Specialization in Neural Sp 7.5分 前25% 51. BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enh 7.0分 前25% 52. DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Enve 7.0分 前25% 53. DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipien 7.0分 前50% 54. Acoustic Teleportation Via Disentangled Neural Audio Codec R 7.0分 前25% 55. Reference Microphone Selection for Guided Source Separation 7.0分 前50% 56. Low-Latency Audio Front-End Region-of-Interest Beamforming f 7.0分 前25% 57. AmbiDrop: Array-Agnostic Speech Enhancement Using Ambisonics 7.0分 前50% 58. Joint Multichannel Acoustic Feedback Cancellation and Speake 7.0分 前25% 59. Gdiffuse: Diffusion-Based Speech Enhancement with Noise Mode 7.0分 前25% 60. An Efficient Neural Network for Modeling Human Auditory Neur 7.0分 前25% 61. Shortcut Flow Matching for Speech Enhancement: Step-Invarian 7.0分 前25% 62. Generalizability of Predictive and Generative Speech Enhance 7.0分 前50% 63. Mambaformer: State-Space Augmented Self-Attention with Downu 7.0分 前25% 64. Auditory-Inspired Transformer for Binaural Speech Enhancemen 7.0分 前25% 65. A State-Dependent Markov Diffusion Process for Generative Sp 6.5分 前25% 66. Confidence-Based Filtering for Speech Dataset Curation with 6.5分 前50% 67. Sampling-Rate-Agnostic Speech Super-Resolution Based on Gaus 6.5分 前25% 68. Low-Frequency Harmonic Control for Speech Intelligibility in 6.5分 前50% 69. What the student learns in knowledge distillation: A subspac 6.5分 前50% 70. MeanSE: Efficient Generative Speech Enhancement with Mean Fl 6.5分 前25% 71. On The Design of Efficient Neural Methods for Geometry-Agnos 6.5分 前50% 72. Position-Invariant Fine-Tuning Of Speech Enhancement Models 6.5分 前50% 73. Stereophonic Acoustic Echo Cancellation Using an Improved Af 6.0分 前50% 74. Towards Real-Time Generative Speech Restoration with Flow-Ma 6.0分 前50% 75. Is Phase Really Needed for Weakly-Supervised Dereverberation 6.0分 前50% 📋 论文详情 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation 🔥 8.5/10 | 前25% | #语音增强 | #深度学习 | #轻量级模型 #空间音频 ...

2026-04-29

Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise

📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ryusei Miura(东京科学大学 系统与控制工程系) 通讯作者:未说明 作者列表:Ryusei Miura(东京科学大学 系统与控制工程系),Takahiro Osaki(东京科学大学 系统与控制工程系),Benjamin Yen(东京科学大学 系统与控制工程系),Takeshi Ashizawa(东京科学大学 系统与控制工程系),Kazuhiro Nakadai(东京科学大学 系统与控制工程系) 💡 毒舌点评 亮点:论文针对“语音增强会扭曲语音”这个经典矛盾,提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案,思路清晰且工程化味道浓。短板:在-10 dB信噪比下,所提系统性能雪崩式下降(CER平均92.4%),甚至远不如直接用ASR(81.6%),这暴露出方法在极端噪声下的脆弱性,也让其宣称的“鲁棒性”打了不少折扣。 📌 核心摘要 解决的问题:在无人机噪声环境下,使用语音增强(SE)作为预处理会引入失真或信息丢失,导致后续自动语音识别(ASR)模型因声学失配而性能下降。 方法核心:提出一个由前端自适应融合模型(AFM)和后端偏差网络(BN)组成的ASR系统。AFM动态融合基于扩散模型的SE中间输出,以平衡降噪与失真;BN利用预知的无人机噪声静态特征,对AFM输出的语音特征进行校正,以减少声学失配,且无需重训ASR模型。 创新性:AFM通过Transformer建模不同扩散步骤输出的时序和步间关系,自适应地加权融合,相比固定选择单一步骤或简单二选一的方法更灵活。BN是一种轻量级的后处理校正模块,利用噪声先验知识来适配预训练ASR模型。 主要实验结果:在LibriSpeech测试集与三种无人机噪声混合的数据上,所提系统(DM+AFM+BN)在0 dB和-5 dB SNR下相比ASR-only基线,平均字符错误率(CER)绝对降低了约20和25个百分点(相对改进分别为54.2%和39.1%)。但在-10 dB SNR下,系统失效,CER高达92.4%,甚至劣于基线。 ...

2026-04-29

Influence of Clean Speech Characteristics on Speech Enhancement Performance

📄 Influence of Clean Speech Characteristics on Speech Enhancement Performance #语音增强 #模型比较 #多语言 #声学特征 🔥 8.0/10 | 前25% | #语音增强 | #模型比较 | #多语言 #声学特征 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland) 通讯作者:未说明(论文未明确指出通讯作者) 作者列表:Mingchi Hou(Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland)、Ina Kodrasi(Idiap Research Institute, Switzerland) 💡 毒舌点评 亮点: 论文提出了一个此前被忽视的、极具启发性的研究视角——即干净语音本身的“内在特征”如何影响语音增强的难度,并通过严谨的跨模型、跨语言实验设计,无可辩驳地证明了共振峰振幅(尤其是F3)与增强性能的强相关性,为领域内理解“为何某些语音样本难以增强”提供了新解释。 短板: 作为一篇ICASSP论文,其核心贡献是“相关性分析”而非提出一个新模型或新算法,对实际的语音增强系统改进方案(如如何利用这些特征设计模型或数据集)探讨略显不足;此外,PESQ指标在西班牙语上的弱相关性,一定程度上削弱了“跨语言结论一致性”的说服力。 ...

2026-04-29

Is Phase Really Needed for Weakly-Supervised Dereverberation?

📄 Is Phase Really Needed for Weakly-Supervised Dereverberation? #语音增强 #弱监督学习 #信号处理 #时频分析 #自监督学习 ✅ 6.0/10 | 前50% | #语音增强 | #自监督学习 | #弱监督学习 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Marius Rodrigues(LTCI, Télécom Paris, Institut Polytechnique de Paris) 通讯作者:未说明 作者列表:Marius Rodrigues(LTCI, Télécom Paris, Institut Polytechnique de Paris)、Louis Bahrman(LTCI, Télécom Paris, Institut Polytechnique de Paris)、Roland Badeau(LTCI, Télécom Paris, Institut Polytechnique de Paris)、Gaël Richard(LTCI, Télécom Paris, Institut Polytechnique de Paris) 💡 毒舌点评 论文核心的物理洞见(混响相位近似均匀噪声)非常漂亮且具有启发性,为弱监督语音处理提供了坚实的理论依据。然而,实验部分却显得有些“雷声大雨点小”,仅在一个特定的弱监督框架内用简单的损失修改进行验证,缺乏与当前最强基线(例如全监督的TF-GridNet或更复杂的弱监督方法)的横向对比,使得结论的普适性和影响力打了折扣。 ...

2026-04-29