📄 Don't Listen to Me: A Lightweight, Low-Latency Model for Own-Voice Cancellation in Far-Field Speech Enhancement
#语音增强 #语音分离
8.4/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5
🔥 8.4/10 | 前50% | #语音增强 | #语音分离 | arxiv
👥 作者与机构
论文作者为来自 WS Audiology (丹麦)、丹麦技术大学 (DTU Compute) 和 Verth (丹麦) 的研究人员。第一作者为 Mads Alexander Neergaard Østergaard。机构信息在摘要下方明确列出,已有分析中未提及具体机构,需补充。
💡 毒舌点评
这篇论文提出了一个定义清晰的实用问题(OVC),并给出了一个工程上令人满意的解决方案。模型效率(RTF=0.82)和2ms的超低延迟确实是其亮点,对于助听器或智能音箱这类实时流式设备很有吸引力。然而,实验部分显得“过于干净”——所有的评估都在精心构造的合成动态数据集上进行,缺乏真实世界混响和噪声的考验。作者声称的“匹配性能”主要基于SDR,而pMOS的提升并不总是伴随SDR的提升(见(c2) vs (c1)),暗示两种指标可能存在不一致,且缺少真实的人类听感评估作为最终验证。模型选择Mamba和MinGRU更多是基于计算效率的趋势,而非针对OVC问题本身的创新性设计。总的来说,这是一篇扎实的工程优化论文,但离证明其在真实、复杂环境下的有效性还有距离。
📌 核心摘要
本文介绍了自身语音消除(Own-Voice Cancellation, OVC)任务,作为解决远场语音增强中因处理延迟导致的自身语音感知伪影的新方法。OVC定义为从含噪多说话人混合信号中,根据目标说话人的注册语音,移除该目标说话人的语音。作者提出了一种名为Mamba-MinGRU的轻量级、低延迟(算法延迟仅2ms)模型,作为传统TD-SpeakerBeam基线的高效替代方案。实验表明,Mamba-MinGRU在计算效率上显著优于基线(主网络计算量仅为基线的约1/15),同时保持了有竞争力的分离性能。此外,使用线性RNN(MinGRU)作为辅助网络(用于说话人嵌入)在性能和效率上均优于基于ConvTasNet的编码器。模型的小型变体在单线程CPU上实现了低于1的实时因子(RTF=0.82),证明了其在实时流式设备上的可行性。
🔗 开源详情
- 代码:论文中未提及代码链接。
- 模型权重:论文中未提及。
- 数据集:论文使用了以下公开数据集:
- LibriSpeech: 用于生成语音信号。可从 LDC (Linguistic Data Consortium) 获取。
- WHAM!: 用于生成噪声。可从官网获取:http://wham.whoi.edu/
- LibriMix: 用于评估多说话人场景。论文中提到了原始项目的 GitHub 仓库链接用于生成混合脚本:https://github.com/JorisCos/LibriMix
- Demo:论文中未提及。
- 复现材料:论文中未提及复现材料的具体链接,但提供了详细的训练配置参数(如采样率、批次大小、学习率、优化器等)和模型超参数,见论文第3.6节。模型导出使用了 ExecuTorch,但未提供代码。
- 论文中引用的开源项目:
- Mamba:线性 RNN 模型。GitHub 仓库:https://github.com/state-spaces/mamba
- MinGRU:最小门控循环单元。论文中未提及具体 GitHub 链接。
- ConvTasNet:时间卷积网络,用作基线。论文中未提及具体代码链接。
- SepMamba:基于 Mamba 的语音分离模型。论文中未提及具体代码链接。
- S4D:结构化状态空间模型层。论文中未提及具体代码链接。
- DistillMOS:用于预测 MOS 的模型。论文中未提及具体代码链接。
- PYIN:概率性基频追踪算法。论文中未提及具体代码链接。
🏗️ 方法概述和架构
论文将OVC任务形式化为从输入混合信号 \(\mathbf{y} = \mathbf{x}^{s} + \sum_{i \neq s} \mathbf{x}^{i} + \mathbf{n}\) 中恢复其他说话人的语音 \(\bar{\mathbf{y}} = \sum_{i \neq s} \mathbf{x}^{i}\)。其中 \(s\) 为目标(自身)说话人,\(i\) 为其他说话人,\(\mathbf{n}\) 为噪声。
基线模型 (TD-SpeakerBeam):作者采用经典的基于时域卷积的说话人提取网络TD-SpeakerBeam作为基线。该模型由两个独立的编码器(主网络编码器和辅助网络编码器)构成。主网络编码器将混合信号编码为高维表示,辅助网络编码器从目标说话人的注册语音中提取说话人嵌入。两者通过元素乘法的适配层结合,随后由掩膜网络预测掩膜,最终由解码器重建目标信号。掩膜网络基于ConvTasNet的时序卷积块构建。
提出的模型 (Mamba-MinGRU):作者提出一种更轻量、更高效的架构,其核心是修改掩膜网络。新模型的编码器和解码器与TD-SpeakerBeam共享相同配置(
\(N=256, L=32\)),以确保公平对比。其关键创新在于:- 掩膜网络 (Mamba-MinGRU Masker):该网络完全由\(N\)个Mamba-MinGRU块组成。每个块是一个预归一化的残差块,内部操作顺序为:(1) LayerNorm,(2) 线性扩展并分裂为\(y\)和\(z\),(3) 因果一维深度卷积 + SiLU激活,(4) MinGRU循环作为时序混合模块,(5) 门控机制:\(y \odot \operatorname{SiLU}(z)\),(6) 线性投影回输入通道。整个结构如图3所示。
- MinGRU核心:MinGRU是一种最小化门控循环单元,其状态更新方程为:\((\sigma(\mathbf{z}_t), \tilde{\mathbf{h}}_t) = \operatorname{split}(y_t)\),\(\mathbf{h}_t = (1 - \mathbf{z}_t) \odot \mathbf{h}_{t-1} + \mathbf{z}_t \odot \tilde{\mathbf{h}}_t\)。该方程可以写成线性递归形式 \(\mathbf{h}_t = \text{gates} \odot \mathbf{h}_{t-1} + \text{tokens}\),从而支持使用并行联想扫描(associative scan)进行高效并行训练,并支持因果、流式推理。这使得模型在保持全局上下文的同时计算复杂度更低。
- 适配层:与基线类似,辅助网络的输出嵌入通过元素乘法适配到主网络的中间表示上。论文实验了两种辅助网络:传统的ConvTasNet编码器和新的双向线性RNN编码器(仅5个块),后者显著降低了辅助网络的计算量(从1.67 GMAC/s降至0.26 GMAC/s)。
损失函数:采用针对静音情况扩展的负阈值信号失真比(SDR)损失。该损失函数区分两种情况:(a) 当目标输出中存在其他说话人(\(\mathbf{x} \neq \mathbf{0}\))时,使用公式(4)的活性损失;(b) 当目标输出应为静音(\(\mathbf{x} = \mathbf{0}\))时,使用公式(5)的惰性损失。两个公式中均引入了软阈值\(\tau\)(分别为\(10^{-3}\)和\(10^{-2}\))以避免对已良好分离的信号过度优化。
该架构设计的核心动机是降低计算复杂度,以满足远场流式设备对低延迟(2ms)和实时运行的严格要求,同时尽可能保持与传统高计算量模型相当的分离性能。


💡 核心创新点
- 新任务定义:首次明确将“自身语音消除”(OVC)定义为一个独立的研究问题,作为解决远场流式去噪中延迟诱导失真的新范式。论文清晰地将其定位为TSE的互补任务(图1)。
- 高效模型架构:提出了基于线性RNN的Mamba-MinGRU架构。该架构将Mamba块与MinGRU时序混合器相结合,在保持2ms算法延迟和全局上下文能力的同时,实现了计算效率的巨大提升(主网络GMAC/s仅为基线的约1/6.5)。
- 高效辅助网络:证明了使用线性RNN作为说话人嵌入的辅助编码器,在显著减少计算量的同时,能提升或维持模型在主要评估条件(F条件)下的性能。
📊 实验结果
实验在基于LibriSpeech和WHAM!噪声动态混合的数据集上进行。评估指标为SDR(信号失真比提升)和pMOS(预测平均意见分)。评估条件包括:F(全混合,自身语音存在)和D(纯去噪,自身语音缺失)。表1列出了所有模型配置的主要结果。
表1:动态OVC测试集上的评估结果(来自论文原文Table 1)
| 方法 | 任务 | 因果 | RTF | SDR (dB) F | SDR (dB) D | pMOS F | pMOS D | 参数量 (M) MACs (G/s) 主网络 | MACs (G/s) 辅助网络 |
|---|---|---|---|---|---|---|---|---|---|
| Mixture | - | - | - | -0.07 | 5.02 | 3.28 | 2.95 | - | - |
| (a1) TD-SpeakerBeam | TSE | 13.66 | 1.14 | 3.15 | 1.55 | 4.94/1.66 | 4.97/1.67 | ||
| (a2) TD-SpeakerBeam | TSE | ✓ | 11.01 | 9.18 | 2.56 | 2.30 | 4.94/1.66 | 4.94/1.67 | |
| (b1) TD-SpeakerBeam | OVC | 13.42 | 14.78 | 3.19 | 3.26 | 4.94/1.66 | 4.97/1.67 | ||
| (b2) TD-SpeakerBeam | OVC | ✓ | 11.13 | 12.09 | 2.66 | 2.64 | 4.94/1.66 | 4.94/1.67 | |
| (c1) Linear RNN | OVC | 13.38 | 14.93 | 3.22 | 3.32 | 4.71/1.65 | 0.33/1.67 | ||
| (c2) + Linear RNN emb. | OVC | 13.57 | 9.67 | 3.20 | 2.71 | 4.71/1.61 | 0.33/0.26 | ||
| (c3) Linear RNN | OVC | ✓ | 1.69 | 11.50 | 12.46 | 2.76 | 2.71 | 4.72/1.65 | 0.33/1.67 |
| (c4) + Linear RNN emb. | OVC | ✓ | 1.69 | 11.98 | 11.35 | 2.80 | 2.65 | 4.72/1.61 | 0.33/0.26 |
| (d1) Linear RNN (small) | OVC | ✓ | 0.82 | 11.21 | 12.33 | 2.66 | 2.63 | 2.17/1.65 | 0.18/1.66 |
| (d2) + Linear RNN emb. | OVC | ✓ | 0.82 | 11.47 | 11.25 | 2.71 | 2.55 | 2.17/1.63 | 0.18/0.26 |
主要结论:
- OVC vs. TSE:在非因果设置下,OVC (b1) 和 TSE (a1) 任务难度相当,F条件下SDR均在13.4-13.7 dB左右。
- Mamba-MinGRU vs. TD-SpeakerBeam:提出的线性RNN模型 (c1) 在非因果设置下达到了与基线 (b1) 相当的SDR (13.38 vs. 13.42 dB),但主网络计算量从4.97降至0.33 GMAC/s,仅为基线的约1/15。在因果设置下,(c3) 与 (b2) 性能匹配 (11.50 vs. 11.13 dB SDR),且计算量同样大幅降低。
- 辅助网络效果:将辅助编码器从ConvTasNet更换为线性RNN (c2 vs c1, c4 vs c3) 能进一步将辅助网络计算量从1.67降至0.26 GMAC/s。此改进在所有设置下提升了F条件下的SDR,但往往会降低D条件下的性能。
- 实时可行性:小型模型 (d1/d2) 在单线程CPU (Intel Core i7-13700) 上达到了0.82的RTF,证明了模型在低延迟(2ms)流式设备上的实时部署潜力。
- 说话人基频影响:分析表明(表2),当两个说话人基频(F0)相近时,分离更困难。移除低基频说话人的语音似乎略微容易一些。
- 多说话人扩展性:图4显示,随着混合说话人数量增加(3、4、5人),所有模型的SDR提升显著下降(约2 dB),表明问题复杂度急剧增加。


⚖️ 评分理由
- 创新性 (1.5/2):明确定义OVC任务具有新意,为解决远场流式去噪的特定问题提供了新视角。模型上,Mamba-MinGRU是现有高效组件(Mamba, MinGRU)的合理组合,并非架构层面的原始创新。辅助线性RNN编码器的应用是有效的工程改进。整体创新在于任务定义和系统级的效率优化。
- 技术严谨性 (1.4/1.5):方法描述清晰,公式推导完整(特别是MinGRU的线性递归形式)。实验对比设计合理,包含了多种配置(因果/非因果、不同辅助网络)的消融研究。但部分设计选择(如为何选择MinGRU而非其他线性RNN)的讨论不够深入。
- 实验充分性 (1.0/1.5):实验在控制良好的合成动态数据集上进行,对比了基线和多种变体。然而,存在显著不足:1)缺少真实世界数据评估:所有实验均基于LibriSpeech+WHAM!合成数据,未在真实远场、混响环境中验证;2)缺少主观听感测试:依赖pMOS而非真实的人类MOS评估;3)多说话人评估仅为初步分析,且性能下降明显;4)未探讨输入时长(注册/混合语音长度)的敏感性。
- 清晰度 (1.3/1.5):论文结构清晰,逻辑连贯。对OVC任务动机(解决延迟伪影)的阐述令人信服。架构图(图2、图3)和任务示意图(图1)有效辅助理解。然而,部分细节可以更明确,例如MinGRU中“tokens”的物理意义,以及不同损失函数中软阈值\(\tau\)选取的依据。
- 影响力 (1.2/1.5):OVC问题的提出和低延迟解决方案对助听器、智能音箱等实时语音处理领域有直接的工程价值。所展示的计算效率提升(尤其是RTF<1)具有实际部署意义。但影响范围限于特定的实时流式语音增强场景,且其有效性受限于合成数据的结论。
- 开源 (0.4/1.5):论文未提供模型代码或预训练权重。仅提供了用于生成混合的脚本链接(基于开源的LibriMix)和所使用的公开数据集(LibriSpeech, WHAM!)信息。这严重限制了研究的可复现性和社区的跟进验证。
- 可复现性 (0.8/1.5):论文提供了相对详细的实验设置(采样率、批次大小、学习率、优化器、模型超参数等),并使用了公开数据集,理论上具备可复现性。但由于未开源关键的训练代码、数据混合脚本的完整版本以及模型导出(ExecuTorch)的具体实现,实际复现的难度和成本较高。
- 工程/实践价值 (1.4/1.5):这是论文的突出优点。模型设计高度关注部署可行性:2ms的超低算法延迟、在单线程CPU上实现的RTF<1(小型模型)、以及显著降低的GMAC/s,使其非常适合资源受限的边缘计算设备。参数量(小型模型仅2.17M)也极具竞争力。
🚨 局限与问题
- 数据局限性:评估完全在合成数据集(LibriSpeech + WHAM!噪声)上进行,这是最大的局限。论文未在真实远场声学环境、存在房间混响、或使用非平稳复杂噪声(如Babble noise)的条件下进行验证。合成动态混合的噪声和说话人交互可能无法完全反映真实世界的复杂性。
- 评估指标与主观感知:性能评估严重依赖客观指标(SDR)和预测MOS(pMOS)。论文未进行真实的人类主观听感测试(MOS测试)。pMOS模型(DistillMOS)的预测准确性在OVC这一特定任务上未经验证,其结果能否代表真实的人耳感知存疑。SDR的提升并不总是与pMOS提升一致(如(c2) vs (c1)),暗示评估可能存在盲点。
- 场景覆盖不足:实验仅限于最多两个说话人的场景。尽管提供了3-5说话人的初步评估(图4),但性能下降显著,且未讨论或解决多说话人场景下的扩展方案(如说话人计数估计、动态选择)。
- 方法对比与讨论不充分:虽然对比了TD-SpeakerBeam,但未与其他可能相关的低延迟或SOTA模型进行对比(如最新的基于线性RNN的语音分离模型)。对于为何选择MinGRU而非其他线性RNN(如S4, H3)的讨论不足。
- 工程细节未充分探索:RTF测量仅在一种特定CPU(Intel Core i7-13700)上进行,未讨论在移动平台ARM CPU、GPU或专用神经网络加速器(NPU)上的性能。模型对输入信号时长(2秒注册,3秒混合)的敏感性未被探讨。
- 结论的泛化性:基于有限场景(��成数据、双人)得出的“匹配性能”或“优于基线”的结论,其泛化能力有待验证。模型在真实、更复杂条件下的鲁棒性未知。