ICASSP 2026 - 目标说话人提取

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Adaptive Deterministic Flow Matching for Target Speaker Extr8.0分前25%

📋 论文详情

🥇 Adaptive Deterministic Flow Matching for Target Speaker Extraction

🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型

👥 作者与机构

  • 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)
  • 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)
  • 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)

💡 毒舌点评

亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。

📌 核心摘要

  1. 问题:现有基于扩散或流匹配的生成式目标说话人提取方法,通常采用固定数量的反向步骤和固定步长进行推理,这未能根据输入混合信号的质量(即目标语音与背景的混合比例)自适应地分配计算资源,导致效率低下。
  2. 方法:提出AD-FlowTSE,一种自适应确定性流匹配TSE方法。其核心是将流匹配中的时间变量重新定义为背景信号b与目标语音s₁之间的混合比例τ。模型学习的是从背景分布到目标语音分布的传输向量场。在推理时,首先通过一个MR预测器估计输入的混合比例τ̂,然后将该估计值作为起点,仅在[τ̂, 1]的残差区间上进行自适应步长的反向积分,从而生成目标语音。
  3. 与已有方法的新颖之处:区别于先前方法在混合信号(或高斯噪声)与干净语音之间定义流动路径,本文在背景与目标之间定义流动路径,并将路径位置与物理混合比例直接绑定。这使得模型能够根据输入质量动态调整推理步数或步长,实现了“MR感知”的初始化和高效推理。
  4. 主要实验结果:在Libri2Mix数据集(Noisy和Clean子集)上,AD-FlowTSE在PESQ、ESTOI、SI-SDR等侵入式指标上优于所有对比的生成式基线。尤其显著的是,说话人相似度(SIM)指标在Noisy集上达到0.87(使用估计τ),远高于FlowTSE的0.83和SoloSpeech的0.85。消融实验表明,使用估计的τ̂性能接近使用真实τ的上界,而固定τ=1或τ=0则性能显著下降。图2显示,仅需1-5个推理步数(NFE)即可达到峰值性能,更多步数反而因过校正导致性能下降。
  5. 实际意义:该方法为高效、高质量的TSE提供了一条新途径,尤其适用于对延迟和计算资源敏感的应用场景(如助听器、实时通信)。它展示了将生成模型的理论框架与任务的物理先验深度结合的重要性。
  6. 主要局限性:该方法的有效性建立在语音混合是线性叠加的假设上,对存在混响、滤波等非线性效应的场景可能需要更复杂的建模。MR预测器的精度是系统性能的瓶颈,其在极端噪声或未见说话人场景下的鲁棒性有待检验。实验仅在Libri2Mix这一特定数据集上进行,缺乏在真实世界复杂场景中的验证。