BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention

📄 BASENet: Band-Adapted Speech Enhancement Network with Cross-Band Attention #语音增强 7.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.5/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 作者:Damien Martins Gomes, François Capman 机构:Thales SIX GTS, France 💡 毒舌点评 这篇论文像一位精心调参的工匠,在标准基准(VoiceBank+DEMAND)上打磨出一个高效的“玩具”。它的主要卖点——基于Bark尺度的编码器深度缩放——是一个直觉上合理但创新深度有限的工程技巧。跨频带注意力的线性复杂度设计值得肯定,但模型整体停留在对MP-SENet范式的修补上。实验严格局限于单一数据集,完全回避了真实世界噪声、多说话人、远场等更具挑战性的场景,结论的泛化性存疑。将“参数最少”作为主要卖点,更像是工程优化而非学术突破。因果版本的验证过于简单,未探讨因果约束对注意力机制本身设计的影响。总体而言,这是一篇扎实的、以工程效率为导向的工作,但距离顶会的创新性和实验全面性标准还有差距。 📌 核心摘要 BASENet是一种面向语音增强的频率自适应神经网络。其核心思想是根据人耳听觉的非均匀频率分辨率(Bark尺度)来分配模型处理资源:低频区域感知灵敏,分配更深的编码器分支;高频区域感知粗糙,分配更浅的分支。这种分配通过一个基于临界带密度的简单闭式公式自动完成。为了整合各频带信息,设计了一个线性复杂度的跨频带注意力模块。该网络建立在轻量的倒残差块和密集连接基础上,整体参数量仅0.83M,计算量7.3G MACs。在VoiceBank+DEMAND基准测试中,其非因果版本达到了与更复杂模型相当的性能(PESQ 3.55),因果版本(PESQ 3.44)也优于部分非因果基线,显示了在资源受限设备上进行实时流处理的潜力。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重发布链接。 数据集:论文中使用了 VoiceBank+DEMAND 数据集进行评估。该数据集由 Valentini 等人发布(引用 [valentini2016investigating]),但论文中未提供直接的下载链接或官方项目主页。获取方式需参考其原始出处。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了详细的训练配置和实验设置,包括:使用的 STFT 参数(nfft=400,hop length=100,采样率 16kHz)、训练轮次(100 epochs)、优化器(Adam)及其超参数、硬件(NVIDIA Quadro RTX 6000 GPU)以及数据集划分信息。然而,论文中未提供训练好的模型检查点、配置文件或代码附件等完整的复现材料包。 论文中引用的开源项目: MP-SENet:论文中引用的基线方法之一([lu2023mpsenet]),BASENet 的整体架构范式(掩码和相位估计)和损失函数均遵循该工作。论文中未提供该项目的具体链接。 MUSE:论文中引用的基线方法之一([lin24h_interspeech])。论文中未提供该项目的具体链接。 Mamba-SEUNet:论文中引用的基线方法之一([wang2025mambaseunetmambaunetmonaural]),并且论文中的消融研究提及了将其 Mamba 时序模块用于 BASENet 的对比。论文中未提供该项目的具体链接。 DeepFilterNet:论文中引用的相关工作([schroter2022deepfilternet])。论文中未提供该项目的具体链接。 FullSubNet 及 InterSubNet:论文中引用的相关工作([hao2021fullsubnet], [chen2023intersubnet])。论文中未提供项目链接。 Band-Split RNN (BSRNN):论文中引用的基线方法([yu23b_interspeech])。论文中未提供该项目的具体链接。 Adam 优化器:引用自 [kingma2017adam]。标准优化器,通常通过深度学习框架(如 PyTorch/TensorFlow)的内置实现或官方 GitHub 仓库获取(例如 https://github.com/pytorch/optim)。 🏗️ 方法概述和架构 BASENet的整体流程如图1所示,采用掩码与相位估计范式(同MP-SENet)。输入为含噪语音的短时傅里叶变换(STFT)幅度谱(经\(c=0.3\)的幂律压缩)与相位谱,在通道维度拼接形成输入张量 \(\mathbf{X} \in \mathbb{R}^{2 \times N \times F}\),其中 \(N\) 为时间帧数,\(F\) 为频率点数。 ...

2026-06-12 · 更新于 2026-06-12 · 3 min · 480 words

Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection

📄 Generating Training Targets for Real-World Speech Enhancement via Close-to-Distant Microphone Projection #语音增强 6.4/10 | 创新 1.4/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.4/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 论文中未明确提及作者与机构信息。 💡 毒舌点评 这篇论文的核心思想很直接:既然直接用近端麦克风(CM)信号当训练目标效果差,那就用它训练一个滤波器,把它“投影”成和远端麦克风(DM)信号对齐的干净信号。这个想法确实解决了真实数据训练中的一个痛点。然而,技术内核并不新颖,本质上是PMWF/SDW-MWF的一个变体应用。论文最大的贡献在于将这个经典框架在真实、复杂(多说话人、强混响)的CHiME6数据集上系统化地实现并验证了其有效性,超过了强大的GSS基线。但实验局限性明显:评估高度依赖特定的CHiME6/CHiME8数据集、CM/DM硬件配置和Oracle DRR;缺乏对关键设计选择(如\(\mu\)值、统计量估计方法)的消融研究;超参数\(\mu=0\)的选择依据和敏感性未充分讨论。方法并非即插即用,其有效性严重依赖于训练时可用的CM信号质量以及与DM的统计相关性。总体而言,这是一份扎实的系统性工程和方法论验证,但创新性和普适性有限。 📌 核心摘要 针对神经网络语音增强在真实场景中缺乏配对训练数据的问题,本文提出了Close-to-Distant microphone Projection (C2D投影)方法。该方法利用训练阶段可用的近端麦克风(CM)信号,估计一个投影矩阵,将CM信号变换为与远端麦克风(DM)信号对齐且去噪的训练目标。该投影矩阵被推导为参数化多通道维纳滤波器(PMWF)的一个变体,其闭式解通过最小化投影误差与噪声抑制的加权代价函数得到。在CHiME6(多人晚餐对话)数据集上,使用C2D生成的目标训练的神经网络在ASR任务(tcpWER)上超越了强基线GSS。在跨场景的CHiME8数据集上,该方法在大部分场景下也表现出优势,展现了对训练-测试条件不匹配的鲁棒性。主要局限是依赖CM信号的存在与质量,且评估局限于特定挑战赛数据集。 🔗 开源详情 代码:论文中未提供C2D投影方法或训练流程的完整代码。仅提及DRE中的NCSN++网络实现使用了公开代码:https://github.com/sp-uhh/sgmse。 模型权重:未提及。 数据集:使用CHiME6和CHiME8数据集。两者均需通过CHiME挑战赛官方渠道申请获取,论文未提供直接下载链接。 Demo:未提及。 复现材料:未提供检查点、详细配置文件或完整的复现脚本。论文提供了关键参数(\(\mu=0\), \(M=4\))和训练/验证集划分,但复现仍需大量自行实现工作。 🏗️ 方法概述和架构 本文提出的C2D投影方法旨在从真实录制的近端(CM)和远端(DM)麦克风信号中生成用于训练语音增强(SE)神经网络的配对数据。其核心思想是估计一个投影矩阵 \(\mathbf{W}_{n}(f)\),将第 \(n\) 个说话人的CM信号 \(\mathbf{x}^{c}(t,f)\) 投影为该说话人对应于DM位置的源图像信号 \(\hat{\mathbf{x}}_{n}^{d}(t,f)\),从而生成与DM观测 \(\mathbf{x}^{d}(t,f)\) 对齐的训练目标。 ...

2026-06-12 · 更新于 2026-06-12 · 2 min · 266 words

HALO: Half-Frame-Rate Adaptive Learnable Operator for Lightweight STFT-Based Speech Enhancement

📄 HALO: Half-Frame-Rate Adaptive Learnable Operator for Lightweight STFT-Based Speech Enhancement #语音增强 8.4/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.6/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.4/10 | 前50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 第一作者:Jiadong Zhao (南京大学, 南京大学现代声学研究所) 其他作者:Dahan Wang (南京大学), Yu Sun (三星电子中国研发中心), Leyan Yang (南京大学), Xiaobin Rong (南京大学), Shiruo Sun (地平线机器人), Yuxiang Hu (地平线机器人), Jing Lu (南京大学) 机构:南京大学现代声学研究所及南京大学NJU-Horizon智能音频实验室, 地平线机器人, 三星电子(中国)研发中心。 ...

2026-06-11 · 更新于 2026-06-12 · 3 min · 579 words

G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching

📄 G-MaP-SE: Guided Speech Enhancement via GMM-Based Prior Matching #语音增强 #说话人识别 #语音质量评估 #高斯混合模型 9.3/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.3/10 | 前50% | #语音增强 | #高斯混合模型 | #说话人识别 #语音质量评估 | arxiv 👥 作者与机构 作者:Yike Zhu, Ziqian Wang, Zikai Liu, Xingchen Li, Zhuangqi Chen, Xianjun Xia, Chuanzeng Huang, Lei Xie 机构:Audio, Speech and Language Processing Group (ASLP@NPU), School of Software, Northwestern Polytechnical University, Xi’an, China 💡 毒舌点评 这篇论文提出了一个解决特定痛点(无需注册语音的个性化增强)的巧妙工程方案,但离“重大突破”还有距离。其创新更多是“组合创新”而非“原理创新”——用现成的GMM和余弦匹配给噪声嵌入做个“整形手术”。最令人玩味的是实验设计:用在VBD上训练的模型去测DNS2020,然后宣称“跨域”效果显著,这本质上是在验证一个简单的假设:说话人嵌入空间在不同噪声分布下是相对稳定的。论文的诚意体现在开源了代码,但缺乏与同期更强大(如基于扩散模型)的语音增强方法的对比,让“state-of-the-art”的宣称显得底气不足。方法的“轻量”是优点,但也暗示了其天花板可能有限。 ...

2026-06-09 · 更新于 2026-06-12 · 2 min · 329 words

Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion

📄 Paediatric-HGNN: A Hybrid Heterogeneous Graph Neural Network for Detecting Disfluency in Children's Speech via Multiscale Acoustic Fusion #语音合成 #语音增强 #图神经网络 #多模态模型 #数据增强 6.5/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 后50% | #语音合成 | #图神经网络 | #语音增强 #多模态模型 | arxiv 👥 作者与机构 Rashini Liyanarachchi, Rachael Mackay, Alison Short, Aditya Joshi, Erik Meijering 1 University of New South Wales (UNSW), Sydney, Australia 2 Western Sydney University, Sydney, Australia 3 Resourced Music Therapy, Sydney, Australia ...

2026-06-09 · 更新于 2026-06-12 · 3 min · 447 words

BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation

📄 BiEAR: A Human Auditory-Inspired Adaptive Binaural Front-end for Multi-Speaker Localisation and Distance Estimation #声源定位 #多任务学习 #语音增强 8.5/10 | 创新 8/2 | 严谨 7/1.5 | 实验 8/1.5 | 清晰 8/1 | 影响 7/1.5 | 开源 2/1.5 | 复现 8/0.5 | 工程 7/1.5 🔥 8.5/10 | 前25% | #声源定位 | #多任务学习 | #语音增强 | arxiv 👥 作者与机构 作者:Hanyu Meng, Eliathamby Ambikairajah, Vidhyasaharan Sethu, Qiquan Zhang, Haizhou Li 机构:1 The University of New South Wales, Sydney, Australia; 2 Tongyi Speech Lab, Alibaba Group, Hangzhou, China; 3 School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China ...

2026-06-08 · 更新于 2026-06-12 · 4 min · 741 words

SEAM: Shortcut-Aware Real-Time Detection of Scripted vs. Spontaneous Speech for Interview Guardrails

📄 SEAM: Shortcut-Aware Real-Time Detection of Scripted vs. Spontaneous Speech for Interview Guardrails #自监督学习 #语音增强 7.5/10 | 创新 1/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ✅ 7.5/10 | 前25% | #语音增强 | #自监督学习 | arxiv 👥 作者与机构 作者: Vsevolod (V.) Kovalev, Pranay Manocha 机构: 1 Symbal AI, USA; 2 Princeton University 💡 毒舌点评 这篇论文做了一个非常“工程正确”但“学术创新性一般”的工作。它正确地指出了语音分类任务中普遍存在的“捷径学习”问题,并给出了一套相当详尽的、教科书式的解决方案(预处理、采样、数据增强)。其主要价值在于将这些解决方案系统性地打包并应用于一个特定的、有实用价值的场景(面试守卫),并通过消融实验有力地证明了捷径的存在。然而,其“创新”更多体现在“组合”与“应用”上,而非提出一个全新的概念或算法。例如,“来源感知采样”本质上是数据加载时的约束,而非模型或损失函数的创新。此外,核心评估集(外部面试数据集)的未公开,极大地削弱了其结果的可信度和可复现性——这就像宣称自己的药对某种疑难杂症有效,却只提供在自己专属病房里的临床试验数据。论文的结论(鲁棒性比骨干网络更重要)虽然正确,但已不算新颖。总体而言,这是一篇扎实的工程报告,但若以顶级会议(如NeurIPS)的创新性标准衡量,则显得不够“性感”。 📌 核心摘要 本文针对实时面试场景中检测脚本化与自发性语音时容易学习数据集中伪特征(捷径)的问题,提出了SEAM框架。该框架通过统一波形预处理、来源感知采样、非语音噪声库增强等一系列捷径感知的数据设计方法,配合轻量化的DistilHuBERT模型,旨在提升模型在目标领域(面试音频)上的鲁棒性。实验表明,完整SEAM模型在外部未见面试数据集上达到\(0.971 \\pm 0.004\) ROC-AUC。消融实验证实,移除捷径预防组件虽然能提升内部测试集表现,但会严重损害外部泛化能力,证明了模型确实学习了捷径。最终模型经INT4量化后仅41.8 MB,满足实时部署的延迟与内存约束。 ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 436 words

DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Complexity Monaural Speech Enhancement

📄 DBHN-Net: Dual-Branch Hybrid Neural Network For Low-Complexity Monaural Speech Enhancement #语音增强 5.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 📝 5.4/10 | 前25% | #语音增强 | #语音增强 | arxiv 👥 作者与机构 论文通讯作者为Enrui Liu和Xuelong Li。作者及机构如下: Cunhang Fan, Enrui Liu, Jian Zhou, Zhao Lv:安徽大学计算机科学与技术学院(州电信息获取与保护技术国家重点实验室)。 Jing Zhou, Jian Kang, Jie Li:中国电信人工智能科技(北京)有限公司。 Andong Li:中国科学院大学声学研究所。 Xuelong Li:中国电信人工智能研究院(TeleAI)。 💡 毒舌点评 这篇论文的核心思想——用ANN分支的性能来“拯救”SNN分支因脉冲二值化导致的信息损失,同时借助SNN降低功耗——逻辑清晰且实用价值明确。实验对比了众多基线,数据集选择和指标评估都较为全面,工作量扎实。然而,作为一篇目标顶会的论文,其严谨性存在明显短板。最令人诟病的是技术细节描述的粗糙和部分公式的明显错误,例如TF-Cross Attention Fusion模块的最终输出公式(37)存在笔误,将FCA函数重复相加,这不应出现在投稿版本中。论文在阐述设计动机时,对ANN与SNN各自瓶颈的理论剖析深度不足,更像是一种“组合式创新”而非“机理式创新”。实验部分虽然广泛,但缺失了模型参数量这一关键对比指标,使得其“低复杂度”的宣称不完整。总体而言,这是一项有效且具有工程吸引力的应用研究,但若以顶会的理论深度和写作严谨性标准衡量,尚显不足。 ...

2026-06-05 · 更新于 2026-06-12 · 2 min · 372 words

SB-RF: Schrödinger Bridge Rectified Flow for One-Step Robust Speech Enhancement

📄 SB-RF: Schrödinger Bridge Rectified Flow for One-Step Robust Speech Enhancement #语音增强 #生成模型 #鲁棒性 7.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 ✅ 7.6/10 | 前25% | #语音增强 | #生成模型 | #鲁棒性 | arxiv 👥 作者与机构 Caixia Lu, Xueyang Lv, Penglong Hu, Jiaming Xu (Xiaomi Corporation) 💡 毒舌点评 这篇工作技术整合思路清晰,实验设置也比较扎实(特别是低SNR鲁棒性测试)。然而,其“创新”的本质是“组合”而非“发明”,将已有的SB理论与RF目标结合,理论深度有限。所谓“先验知识引入”更像是一种启发式的正则化,而非严格的理论推导或数学证明。作者声称的“one-step”优势在Track B的5步和10步结果中显得有些尴尬——增加步数并未显著提升性能,这究竟是“一步就够”的证明,还是模型对多步采样不友好的暗示?此外,论文完全未提供代码,对于一篇声称“工程/实践价值”的工作,这是严重的减分项。评审意见需要更尖锐地指出这些整合性工作的天花板。 📌 核心摘要 本文提出SB-RF,一个结合薛定谔桥理论和整流流的单步语音增强生成框架。核心思想是将语音增强建模为一个从噪声分布到干净分布的熵正则化最优传输问题。通过在整流流训练中引入由薛定谔桥推导出的、具有数据自适应均值和方差的扰动信号,取代标准整流流的确定性线性插值。该框架利用整流流的速度匹配目标,迫使学习到的轨迹逼近最优传输测地线(即恒定速度的直线),从而在保持单步生成高效率的同时,提升对复杂噪声和多模态后验分布的鲁棒性。实验表明,在VoiceBank-DEMAND基准和自建的低信噪比测试集上,SB-RF以1步推理均取得了生成模型中的最优性能。 🔗 开源详情 代码:论文中未提供代码链接。 模型权重:论文中未提及模型权重链接。 数据集: 标准设置:使用 VoiceBank-DEMAND 数据集(VB-DMD),论文中未提及具体获取链接。 低信噪比鲁棒性设置: 训练数据:WenetSpeech4TTS (Premium subset) 和 DNS-4。论文中未提供具体获取链接。 训练噪声:DNS-4 和 MUSAN。论文中未提供具体获取链接。 评估数据:从 AISHELL-1 和 LibriSpeech 中随机选取的语音,以及来自 WHAM! 的噪声片段。论文中未提供具体获取链接。 Demo:论文中未提及。 复现材料:论文提供了详细的实验设置(包括STFT参数:窗口大小510,跳数128,输入维度 \(F=256, K=256\);幅度变换参数 \(\alpha=0.5, \beta=0.33\);时间边界 \(\epsilon=0.03, T=0.97\))、模型架构(NCSN++, 65.6M参数)、关键超参数(损失权重 \(\lambda_1=33, \lambda_2=3\), 学习率 \(0.0001\), 优化器Adam, 批量大小16/GPU)和训练环境(8 NVIDIA RTX A800 GPUs),这些信息可用于复现。 论文中引用的开源项目: MP-SENet [lu2023mp] SGMSE+ [richter2023speech] BBED [schneider2023reducing] SB-VE [jukic2024schrodinger] CFM [lee2025flowse] LARF [larf2024] COSE [compose2024] NCSN++ [richter2023speech] (注:论文仅引用了这些项目名称和文献标识符,未在文中提供其具体的代码仓库或项目主页链接。) 🏗️ 方法概述和架构 SB-RF的方法架构可以分解为三个层层递进的部分:从标准整流流(RF)的局限出发,引入布朗桥随机性(BB-RF)作为中间步骤,最终整合薛定谔桥(SB)理论(SB-RF)以实现数据自适应的传输路径。 ...

2026-06-05 · 更新于 2026-06-12 · 3 min · 450 words

Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid

📄 Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid #语音增强 #助听器 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #助听器 | arxiv 👥 作者与机构 Feyisayo Olalere, Umut Altin, Kiki van der Heijden, Marcel van Gerven 机构:Radboud University, Donders Institute for Brain, Cognition, and Behaviour, The Netherlands;Columbia University, USA. ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 445 words