语音增强 | 语音/音乐/音频论文速递

High-Fidelity Speech Enhancement Via Discrete Audio Tokens

📄 High-Fidelity Speech Enhancement Via Discrete Audio Tokens #语音增强 #自回归模型 #语音大模型 #数据集 #预训练 ✅ 7.5/10 | 前25% | #语音增强 | #自回归模型 | #语音大模型 #数据集学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Luca A. Lanzendörfer（未明确标注，但根据作者列表顺序推测）通讯作者：未说明作者列表：Luca A. Lanzendörfer (ETH Zurich), Frédéric Berdoz (ETH Zurich), Antonis Asonitis (ETH Zurich), Roger Wattenhofer (ETH Zurich) 💡 毒舌点评亮点在于其架构的“暴力美学”——用一个足够大的语言模型（1B LLaMA）和足够高分辨率的离散表示（44.1kHz DAC），将复杂的语音增强多阶段流水线简化为直接的token-to-token转换，并取得了SOTA结果，为“大力出奇迹”在语音领域提供了又一例证。短板在于这种简化高度依赖预训练的高质量编解码器（DAC）和计算资源，论文对模型计算成本、推理延迟等实际部署考量几乎只字未提，且在处理特定失真（如DNS挑战中的背景噪声抑制）时并未展现出压倒性优势。 🔗 开源详情代码：论文明确表示“We release our codebase and model checkpoints”，并提供了Demo网站链接 https://lucala.github.io/dac-se1/。但未直接给出代码仓库URL。模型权重：承诺发布模型检查点。数据集：使用了公开数据集（HiFiTTS-2, MUSAN, DEMAND等），但论文中生成的训练数据集本身是否公开未说明。 Demo：提供了在线演示网站。复现材料：论文给出了模型架构、训练数据来源、两阶段训练策略、主要超参数（模型大小、码本等）。但未提供完整的训练配置文件、损失函数具体实现、推理脚本等细节。论文中引用的开源项目：依赖的开源工具/模型包括DAC编码器/解码器、LLaMA架构、Whisper-Large（用于计算WER）。 📌 核心摘要这篇论文旨在解决现有基于语言模型的语音增强方法局限于低采样率（16kHz）和依赖复杂多阶段架构的问题，以实现高保真（44.1kHz）的语音增强与带宽扩展。方法核心是提出一个名为DAC-SE1的单阶段框架，该框架直接使用44.1kHz的DAC离散音频令牌作为输入和输出，由一个基于LLaMA的1B参数自回归模型进行处理，无需额外的语义编码器或多阶段流水线。与已往工作相比，新方法的新颖之处在于：1）直接操作高分辨率DAC令牌，保留了精细的声学细节；2）架构高度简化，统一了增强与带宽扩展任务；3）通过扩大模型参数和训练数据规模来提升性能。主要实验结果表明，DAC-SE1在HiFiTTS-2测试集的客观指标（如DNSMOS OVRL: 2.95）和MUSHRA主观评分（58.3分）上均优于LLaSE-G1和VoiceFixer等基线。在ICASSP 2022 PLC挑战中，其PLCMOS分数达到4.34，超越了所有对比方法。在ICASSP 2023 DNS挑战中，性能与最强基线持平。该工作的实际意义在于证明了通过简单、可扩展的自回归语言模型范式，结合高质量的音频离散表示，能够实现统一且高质量的语音增强任务，为未来构建通用音频生成模型提供了新思路。主要局限性是论文未详细讨论模型的计算效率、训练成本以及在不同噪声类型或极低信噪比条件下的泛化能力，且其性能提升部分依赖于庞大的模型参数，可能限制了实际部署场景。 ...

HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning

📄 HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement via Generative-Discriminative Learning #语音增强 #流匹配 #端到端 #轻量化模型 🔥 8.0/10 | 前25% | #语音增强 | #流匹配 | #端到端 #轻量化模型学术质量 6.2/7 | 选题价值 1.6/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Yang Zhang（杭州电子科技大学通信工程学院）通讯作者：Wenbin Jiang（杭州电子科技大学通信工程学院，邮箱：wbjiang@hdu.edu.cn）作者列表：Yang Zhang（杭州电子科技大学通信工程学院），Wenbin Jiang（杭州电子科技大学通信工程学院），Zhen Wang（杭州电子科技大学通信工程学院），KaiYing Wu（杭州电子科技大学通信工程学院），Wen Zhang（杭州电子科技大学通信工程学院），Fei Wen（上海交通大学信息科学与电子工程学院） 💡 毒舌点评亮点在于巧妙地利用可微分ODE这一技术“胶水”，将本应用于生成建模的流匹配与用于精细监督的判别损失无缝融合，以端到端方式显著提升了轻量级模型的性能，方案优雅且有效。短板在于其创新主要停留在训练策略的集成上，网络架构本身（NCSN++）并无新意，且论文缺乏对判别损失如何具体指导向量场学习这一内在机制的更深入剖析。 🔗 开源详情代码：论文中提供了项目主页链接 https://zhangyang77.github.io/HyFlowSE/，可用于访问音频样本等材料。论文中未明确提及代码仓库链接。模型权重：未提及是否公开预训练模型权重。数据集：使用了公开数据集（VoiceBank+DEMAND, WSJ0, DEMAND, CHiME3），并说明了部分数据生成方式（使用StoRM开源代码）。未提及是否提供预处理后的数据。 Demo：项目主页提供了音频样本，可作为在线演示。复现材料：论文给出了模型参数规模、损失函数权重（α, β, w值）、优化器及学习率。但缺少batch size、训练步数/轮数、数据预处理细节、硬件环境等关键复现信息。论文中引用的开源项目：引用了用于生成WSJ0数据集的 StoRM 开源代码，以及用于可微分ODE求解的 torchdiffeq 库。总结：论文提供了部分复现信息和展示页面，但未声明开源计划，也未提供完全复现所需的全部细节。 📌 核心摘要解决的问题：纯生成式的流匹配语音增强模型在追求轻量化（参数少）和高效率（低NFE）时，性能会显著下降，而现有的级联或两阶段解决方案会引入额外的推理步骤，增加计算开销，违背了流匹配高效推理的初衷。方法核心：提出HyFlowSE框架，其核心是将标准的条件流匹配（CFM）生成损失与一个由L1损失、多分辨率STFT谱收敛损失和对数STFT幅度损失组成的判别性损失相结合。通过利用可微分的神经常微分方程（Neural ODE）求解器，这两个损失可以在一次前向传播中计算，并实现端到端联合优化。与已有方法的新颖之处：与需要级联多个流模型（如CasFlowSE）或依赖预训练判别模型的方法不同，HyFlowSE在单一模型和单次推理流程中集成了生成与判别目标，不增加推理时的NFE，实现了效率与性能的兼得。主要实验结果：在VoiceBank+DEMAND数据集上，仅5.2M参数的HyFlowSE(T)模型在PESQ（3.21）上超过了65.6M参数的FlowSE（3.12）。在更具挑战性的WSJ0+CHiME3低信噪比（L）场景下，HyFlowSE(T)（5.2M）的PESQ达到3.09，大幅超越27.8M参数的FlowSE(M)（2.64）和CasFlowSE（2.64）。在混响条件下（WSJ0+Reverb），其PESQ（2.95）也优于FlowSE(M)（2.45）和CasFlowSE（2.80）。实际意义：为在资源受限设备上部署高性能语音增强系统提供了新路径。它表明通过精心的训练目标设计，可以用更小的模型达到甚至超越大模型的性能，对降低算法落地成本和功耗有直接价值。主要局限性：网络骨干（NCSN++）并非新颖设计，创新性集中在训练目标上。论文未详细分析混合损失中各项权重的敏感性及其背后的机理。实验未与更多非流匹配的轻量级判别模型（如DCCRN等）进行对比，难以全面评估其在轻量化模型谱系中的绝对位置。 🏗️ 模型架构 HyFlowSE是一个端到端的语音增强框架，其整体架构如图1所示。 ...

I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement

📄 I-DCCRN-VAE: An Improved Deep Representation Learning Framework for Complex VAE-Based Single-Channel Speech Enhancement #语音增强 #变分自编码器 #预训练 #鲁棒性 ✅ 7.5/10 | 前25% | #语音增强 | #变分自编码器 | #预训练 #鲁棒性学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jiatong Li（Carl von Ossietzky Universität Oldenburg，医学物理与声学系及 Hearing4all 卓越集群）通讯作者：未说明（两位作者并列提供邮箱，未明确指定通讯作者）作者列表：Jiatong Li（Carl von Ossietzky Universität Oldenburg，医学物理与声学系及 Hearing4all 卓越集群）、Simon Doclo（Carl von Ossietzky Universität Oldenburg，医学物理与声学系及 Hearing4all 卓越集群） 💡 毒舌点评本文像一位严谨的工程师，将VAE语音增强系统的“后门”（跳跃连接）焊死，强迫其从潜在空间“真正学习”，并用β-VAE的旋钮精细调节学习内容，结果泛化能力显著提升。然而，改进更多是“修补”与“优化”现有架构，缺乏从根本上改变游戏规则的洞见，且未能与当前生成模型SOTA（如基于扩散模型的方法）同台竞技，使其影响力打了折扣。 ...

ICASSP 2026 - 语音增强论文列表

ICASSP 2026 - 语音增强共 75 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enha 8.5分前25% 🥈 DiTSE: High-Fidelity Generative Speech Enhancement via Laten 8.5分前10% 🥉 Towards Lightweight Adaptation of Speech Enhancement Models 8.5分前25% 4. FastEnhancer: Speed-Optimized Streaming Neural Speech Enhanc 8.5分前25% 5. DisContSE: Single-Step Diffusion Speech Enhancement based on 8.5分前10% 6. Sidon: Fast and Robust Open-Source Multilingual Speech Resto 8.5分前25% 7. Spike-Driven Low-Power Speech Bandwidth Extension 8.0分前25% 8. MAGE: A Coarse-to-Fine Speech Enhancer with Masked Generativ 8.0分前25% 9. Deep Learning-Based Joint Optimization of Adaptive Feedback 8.0分前25% 10. HyFlowSE: Hybrid End-To-End Flow-Matching Speech Enhancement 8.0分前25% 11. HCGAN: Harmonic-Coupled Generative Adversarial Network for S 8.0分前50% 12. Exploring Resolution-Wise Shared Attention in Hybrid Mamba-U 8.0分前25% 13. Mixture To Beamformed Mixture: Leveraging Beamformed Mixture 8.0分前25% 14. Modeling Strategies For Speech Enhancement in The Latent Spa 8.0分前50% 15. LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Re 8.0分前25% 16. Influence of Clean Speech Characteristics on Speech Enhancem 8.0分前25% 17. LipsAM: Lipschitz-Continuous Amplitude Modifier for Audio Si 7.5分前25% 18. MSANET: Multi-Scale Semantic Aggregation Network for Brain-A 7.5分前25% 19. Bone-Conduction Guided Multimodal Speech Enhancement with Co 7.5分前25% 20. The 3rd Clarity Prediction Challenge: A Machine Learning Cha 7.5分前25% 21. Two-Stage Language Model Framework for Acoustic Echo Cancell 7.5分前25% 22. E2E-AEC: Implementing An End-To-End Neural Network Learning 7.5分前25% 23. SpatialNet-Echo: Real-Time Acoustic Echo Cancellation via In 7.5分前25% 24. A Stabilized Hybrid Active Noise Control Algorithm of GFANC 7.5分前25% 25. Enhancing Speech Intelligibility Prediction for Hearing Aids 7.5分前25% 26. H-nnPBFDAF: Hierarchical Neural Network Partitioned Block Fr 7.5分前25% 27. Joint Deep Secondary Path Estimation and Adaptive Control fo 7.5分前25% 28. Enhancing Noise Robustness for Neural Speech Codecs Through 7.5分前25% 29. Low-Bandwidth High-Fidelity Speech Transmission with Generat 7.5分前25% 30. From Diet to Free Lunch: Estimating Auxiliary Signal Propert 7.5分前25% 31. Beamforming Using Virtual Microphones for Hearing Aid Applic 7.5分前50% 32. I-DCCRN-VAE: An Improved Deep Representation Learning Framew 7.5分前25% 33. Do We Need EMA for Diffusion-Based Speech Enhancement? Towar 7.5分前50% 34. Hair Noise Analysis and Mitigation for Smart Glasses Audio C 7.5分前25% 35. Are Modern Speech Enhancement Systems Vulnerable to Adversar 7.5分前25% 36. UJCodec: An End-to-end Unet-Style Codec for Joint Speech Com 7.5分前25% 37. Spatial Covariance Matrix Reconstruction for Speech Enhancem 7.5分前25% 38. Training-Free Inference-Time Scaling for Audio Source Separa 7.5分前25% 39. Forward Convolutive Prediction for Frame Online Monaural Spe 7.5分前50% 40. MeanFlowSE: One-Step Generative Speech Enhancement via Condi 7.5分前10% 41. FlowSE-GRPO: Training Flow Matching Speech Enhancement via O 7.5分前25% 42. Aligning Generative Speech Enhancement with Perceptual Feedb 7.5分前25% 43. PG-SE: Predictive Acceleration and Correction for Generative 7.5分前25% 44. Dynamically Slimmable Speech Enhancement Network with Metric 7.5分前25% 45. Lightweight Phoneme-Conditioned Bandwidth Extension for Body 7.5分前25% 46. Fast-ULCNet: A Fast and Ultra Low Complexity Network for Sin 7.5分前25% 47. ParaGSE: Parallel Generative Speech Enhancement with Group-V 7.5分前25% 48. High-Fidelity Speech Enhancement Via Discrete Audio Tokens 7.5分前25% 49. DISSR: Disentangling Speech Representation for Degradation-P 7.5分前25% 50. Ranking The Impact of Contextual Specialization in Neural Sp 7.5分前25% 51. BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enh 7.0分前25% 52. DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Enve 7.0分前25% 53. DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipien 7.0分前50% 54. Acoustic Teleportation Via Disentangled Neural Audio Codec R 7.0分前25% 55. Reference Microphone Selection for Guided Source Separation 7.0分前50% 56. Low-Latency Audio Front-End Region-of-Interest Beamforming f 7.0分前25% 57. AmbiDrop: Array-Agnostic Speech Enhancement Using Ambisonics 7.0分前50% 58. Joint Multichannel Acoustic Feedback Cancellation and Speake 7.0分前25% 59. Gdiffuse: Diffusion-Based Speech Enhancement with Noise Mode 7.0分前25% 60. An Efficient Neural Network for Modeling Human Auditory Neur 7.0分前25% 61. Shortcut Flow Matching for Speech Enhancement: Step-Invarian 7.0分前25% 62. Generalizability of Predictive and Generative Speech Enhance 7.0分前50% 63. Mambaformer: State-Space Augmented Self-Attention with Downu 7.0分前25% 64. Auditory-Inspired Transformer for Binaural Speech Enhancemen 7.0分前25% 65. A State-Dependent Markov Diffusion Process for Generative Sp 6.5分前25% 66. Confidence-Based Filtering for Speech Dataset Curation with 6.5分前50% 67. Sampling-Rate-Agnostic Speech Super-Resolution Based on Gaus 6.5分前25% 68. Low-Frequency Harmonic Control for Speech Intelligibility in 6.5分前50% 69. What the student learns in knowledge distillation: A subspac 6.5分前50% 70. MeanSE: Efficient Generative Speech Enhancement with Mean Fl 6.5分前25% 71. On The Design of Efficient Neural Methods for Geometry-Agnos 6.5分前50% 72. Position-Invariant Fine-Tuning Of Speech Enhancement Models 6.5分前50% 73. Stereophonic Acoustic Echo Cancellation Using an Improved Af 6.0分前50% 74. Towards Real-Time Generative Speech Restoration with Flow-Ma 6.0分前50% 75. Is Phase Really Needed for Weakly-Supervised Dereverberation 6.0分前50% 📋 论文详情 🥇 A Lightweight Fourier-Based Network for Binaural Speech Enhancement with Spatial Cue Preservation 🔥 8.5/10 | 前25% | #语音增强 | #深度学习 | #轻量级模型 #空间音频 ...

Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise

📄 Improving Automatic Speech Recognition by Mitigating Distortions Introduced by Speech Enhancement Under Drone Noise #语音识别 #语音增强 #扩散模型 #鲁棒性 #无人机 ✅ 6.5/10 | 前25% | #语音识别 | #语音增强 #扩散模型 | #语音增强 #扩散模型学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Ryusei Miura（东京科学大学系统与控制工程系）通讯作者：未说明作者列表：Ryusei Miura（东京科学大学系统与控制工程系），Takahiro Osaki（东京科学大学系统与控制工程系），Benjamin Yen（东京科学大学系统与控制工程系），Takeshi Ashizawa（东京科学大学系统与控制工程系），Kazuhiro Nakadai（东京科学大学系统与控制工程系） 💡 毒舌点评亮点：论文针对“语音增强会扭曲语音”这个经典矛盾，提出了“动态融合增强中间结果”+“用噪声特征校正特征”的双模块轻量化解决方案，思路清晰且工程化味道浓。短板：在-10 dB信噪比下，所提系统性能雪崩式下降（CER平均92.4%），甚至远不如直接用ASR（81.6%），这暴露出方法在极端噪声下的脆弱性，也让其宣称的“鲁棒性”打了不少折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的LibriSpeech语音集和三个无人机噪声数据集（Bebop, Mambo, MK-Quadro），论文中给出了引用。 Demo：未提供在线演示。复现材料：论文提供了较为详细的实现细节（如模型维度、超参数、训练流程），但缺少完整的配置代码和预处理脚本。论文中引用的开源项目：ESPnet工具包[24]。总体情况：论文中未提及开源计划。 📌 核心摘要解决的问题：在无人机噪声环境下，使用语音增强（SE）作为预处理会引入失真或信息丢失，导致后续自动语音识别（ASR）模型因声学失配而性能下降。 ...

Influence of Clean Speech Characteristics on Speech Enhancement Performance

📄 Influence of Clean Speech Characteristics on Speech Enhancement Performance #语音增强 #模型比较 #多语言 #声学特征 🔥 8.0/10 | 前25% | #语音增强 | #模型比较 | #多语言 #声学特征学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Mingchi Hou（Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland）通讯作者：未说明（论文未明确指出通讯作者）作者列表：Mingchi Hou（Idiap Research Institute, Switzerland; École Polytechnique Fédérale de Lausanne, Switzerland）、Ina Kodrasi（Idiap Research Institute, Switzerland） 💡 毒舌点评亮点：论文提出了一个此前被忽视的、极具启发性的研究视角——即干净语音本身的“内在特征”如何影响语音增强的难度，并通过严谨的跨模型、跨语言实验设计，无可辩驳地证明了共振峰振幅（尤其是F3）与增强性能的强相关性，为领域内理解“为何某些语音样本难以增强”提供了新解释。短板：作为一篇ICASSP论文，其核心贡献是“相关性分析”而非提出一个新模型或新算法，对实际的语音增强系统改进方案（如如何利用这些特征设计模型或数据集）探讨略显不足；此外，PESQ指标在西班牙语上的弱相关性，一定程度上削弱了“跨语言结论一致性”的说服力。 ...

Is Phase Really Needed for Weakly-Supervised Dereverberation?

📄 Is Phase Really Needed for Weakly-Supervised Dereverberation? #语音增强 #弱监督学习 #信号处理 #时频分析 #自监督学习 ✅ 6.0/10 | 前50% | #语音增强 | #自监督学习 | #弱监督学习 #信号处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Marius Rodrigues（LTCI, Télécom Paris, Institut Polytechnique de Paris）通讯作者：未说明作者列表：Marius Rodrigues（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Louis Bahrman（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Roland Badeau（LTCI, Télécom Paris, Institut Polytechnique de Paris）、Gaël Richard（LTCI, Télécom Paris, Institut Polytechnique de Paris） 💡 毒舌点评论文核心的物理洞见（混响相位近似均匀噪声）非常漂亮且具有启发性，为弱监督语音处理提供了坚实的理论依据。然而，实验部分却显得有些“雷声大雨点小”，仅在一个特定的弱监督框架内用简单的损失修改进行验证，缺乏与当前最强基线（例如全监督的TF-GridNet或更复杂的弱监督方法）的横向对比，使得结论的普适性和影响力打了折扣。 ...

Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation

📄 Joint Deep Secondary Path Estimation and Adaptive Control for Active Noise Cancellation #语音增强 #端到端 #实时处理 #深度学习 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #端到端 | #实时处理 #深度学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Fareedha (National Institute of Technology, Warangal, Telangana, India) 通讯作者：未说明作者列表：Fareedha (National Institute of Technology, Warangal, Telangana, India)、Vasundhara (National Institute of Technology, Warangal, Telangana, India)、Asutosh Kar (Birmingham City University, Birmingham, UK)、Mads Græsbøll Christensen (Aalborg University, Denmark) 💡 毒舌点评论文将深度学习中的估计与控制模块“缝合”得相当流畅，消融实验做得很扎实，有力地证明了注意力机制和双向LSTM在其中的价值。然而，核心创新更多是工程层面的集成优化，而非方法论的革新；且实验场景（主要是飞机噪声）稍显单一，要宣称在“动态环境”下鲁棒，或许还应挑战更多极端的非平稳声学条件。 ...

Joint Multichannel Acoustic Feedback Cancellation and Speaker Extraction via Kalman Filter and Deep Non-Linear Spatial Filter

📄 Joint Multichannel Acoustic Feedback Cancellation and Speaker Extraction via Kalman Filter and Deep Non-Linear Spatial Filter #语音增强 #语音分离 #信号处理 #麦克风阵列 #多通道 ✅ 7.0/10 | 前25% | #语音增强 | #信号处理 | #语音分离 #麦克风阵列学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ze Li（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人；南京大学）通讯作者：未说明作者列表：Ze Li（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人；南京大学），Haocheng Guo（华为技术有限公司），Xiaoyang Ge（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人），Kai Chen（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人），Jing Lu（南京大学现代声学研究所 & NJU-Horizon智能音频实验室，地平线机器人） 💡 毒舌点评亮点：该工作切中了公共广播和助听器系统中“反馈”与“干扰”两大痛点，提出的AFC-SPEX框架在系统设计上逻辑清晰，将经典卡尔曼滤波与深度空间滤波器巧妙结合，并通过教师强制策略有效解决了训练难题。短板：尽管仿真实验对比了众多基线，但结论的说服力止步于“在模拟环境中表现良好”；对于声学反馈这类严重依赖实际硬件与声场交互的问题，缺乏真实录音数据的验证是一个明显的遗憾，限制了其向实际产品转化的说服力。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/ZLiNJU/AFC-SPEX。模型权重：论文中未提及公开预训练模型权重。数据集：训练所用的仿真数据集未公开，但提供了仿真设置细节和使用的公开语音库（WSJ0）。 Demo：论文中未提及在线演示。复现材料：提供了论文中描述的主要超参数（帧长、帧移、分块数等）、仿真设置以及依赖的开源项目（pyroomacoustics）。但缺乏完整的训练脚本、配置文件、训练日志及检查点。论文中引用的开源项目：引用了pyroomacoustics用于房间声学仿真，以及Rank2-MWF的开源实现。 📌 核心摘要这篇论文旨在解决公共广播和助听器等系统中同时存在的声学反馈和干扰噪声问题。核心方法AFC-SPEX将分块频域卡尔曼滤波器（PBFDKF）作为自适应反馈消除模块，其输出的残差信号与原始麦克风信号一起输入到一个深度非线性空间滤波器（DNSF）中，后者通过LSTM网络学习时、频、空特征以估计复数理想比值掩膜，从而提取目标语音。与现有级联方案或单独使用深度网络的方法相比，该工作的主要创新在于联合优化与交互设计：DNSF不仅依赖原始信号，还利用AFC模块的输出作为辅助参考，以联合抑制反馈和干扰；同时，采用了针对闭环问题的教师强制训练策略。实验结果（在模拟的带反馈和干扰的房间声学环境中）表明，所提方法在SI-SDR、PESQ、STOI及最大稳定增益提升（ΔMSG）等多项指标上均优于直接级联、单独DNSF以及一种传统的多通道维纳滤波方法（Rank2-MWF）。例如，在同时存在反馈和干扰的场景（Simulation A）中，AFC-SPEX的SI-SDR达到4.38，优于AFC+DNSF的-1.78和Rank2-MWF的-26.00。该工作的实际意义在于为需要同时处理声学反馈和语音提取的音频系统提供了一种高性能的算法框架。其主要局限性是所有实验均基于仿真，未进行真实世界数据的验证。 ...

LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration

📄 LAFUFU: Latent Acoustic Features For Ultra-Fast Utterance Restoration #语音增强 #扩散模型 #实时处理 #潜在空间 🔥 8.0/10 | 前25% | #语音增强 | #扩散模型 | #实时处理 #潜在空间学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Łazarz Radosław Wosik（论文作者列表首位，但未明确标注为第一作者）通讯作者：论文中未明确标注作者列表：Łazarz Radosław Wosik (Samsung R&D Institute Poland), Mateusz Pudo (Samsung R&D Institute Poland), Urszula Krywalska (Samsung R&D Institute Poland), Adam Cie´slak (Samsung R&D Institute Poland), († AGH University of Krak´ow) — 论文开头列出作者姓名及主要所属机构为Samsung R&D Institute Poland，其中一位作者带有†标记，表示其同时隶属于AGH University of Krak´ow。 💡 毒舌点评亮点在于它非常务实且有效：通过将扩散过程搬到一个更小、更高效的潜在空间里，直接戳破了生成式语音恢复“效果好但算力吃不消”的泡沫，实现了显著的加速（RTF降低约40%）而不牺牲质量。短板是其创新本质是“缝合”了图像领域的Latent Diffusion思想和语音领域的SGMSE+模型，属于应用创新而非理论突破，且双模型架构无形中增加了部署时的内存管理复杂度。 ...