Adaptive Deterministic Flow Matching for Target Speaker Extraction

📄 Adaptive Deterministic Flow Matching for Target Speaker Extraction #目标说话人提取 #流匹配 #语音增强 #生成模型 #自适应推理 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情 代码:提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。 模型权重:未提及。 数据集:使用公开数据集Libri2Mix,论文未提供直接下载链接,但该数据集可公开获取。 Demo:提供在线演示,网址包含在上述链接中。 复现材料:提供了详细的训练配置(批大小、学习率、优化器、调度策略、硬件等)和模型架构描述。代码仓库可能包含更详细的配置。 论文中引用的开源项目:ECAPA-TDNN(用于MR预测器骨干网络)、UDiT(向量场估计器架构)。 论文中未提及开源计划,但根据链接,代码已开源。 📌 核心摘要 问题:现有基于扩散或流匹配的生成式目标说话人提取方法,通常采用固定数量的反向步骤和固定步长进行推理,这未能根据输入混合信号的质量(即目标语音与背景的混合比例)自适应地分配计算资源,导致效率低下。 方法:提出AD-FlowTSE,一种自适应确定性流匹配TSE方法。其核心是将流匹配中的时间变量重新定义为背景信号b与目标语音s₁之间的混合比例τ。模型学习的是从背景分布到目标语音分布的传输向量场。在推理时,首先通过一个MR预测器估计输入的混合比例τ̂,然后将该估计值作为起点,仅在[τ̂, 1]的残差区间上进行自适应步长的反向积分,从而生成目标语音。 与已有方法的新颖之处:区别于先前方法在混合信号(或高斯噪声)与干净语音之间定义流动路径,本文在背景与目标之间定义流动路径,并将路径位置与物理混合比例直接绑定。这使得模型能够根据输入质量动态调整推理步数或步长,实现了“MR感知”的初始化和高效推理。 主要实验结果:在Libri2Mix数据集(Noisy和Clean子集)上,AD-FlowTSE在PESQ、ESTOI、SI-SDR等侵入式指标上优于所有对比的生成式基线。尤其显著的是,说话人相似度(SIM)指标在Noisy集上达到0.87(使用估计τ),远高于FlowTSE的0.83和SoloSpeech的0.85。消融实验表明,使用估计的τ̂性能接近使用真实τ的上界,而固定τ=1或τ=0则性能显著下降。图2显示,仅需1-5个推理步数(NFE)即可达到峰值性能,更多步数反而因过校正导致性能下降。 实际意义:该方法为高效、高质量的TSE提供了一条新途径,尤其适用于对延迟和计算资源敏感的应用场景(如助听器、实时通信)。它展示了将生成模型的理论框架与任务的物理先验深度结合的重要性。 主要局限性:该方法的有效性建立在语音混合是线性叠加的假设上,对存在混响、滤波等非线性效应的场景可能需要更复杂的建模。MR预测器的精度是系统性能的瓶颈,其在极端噪声或未见说话人场景下的鲁棒性有待检验。实验仅在Libri2Mix这一特定数据集上进行,缺乏在真实世界复杂场景中的验证。 🏗️ 模型架构 AD-FlowTSE由两个独立训练的模块组成:MR-Informed向量场估计器 (vθ) 和 MR预测器 (gϕ)。整体流程如图1所示。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 383 words

Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification

📄 Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification #零样本 #音频分类 #大语言模型 #自适应推理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Tsai-Ning Wang(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 通讯作者:Aaqib Saeed(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 其他作者: Herman Teun den Dekker(伊拉斯姆斯医学中心) Lin-Lin Chen(埃因霍温理工大学) Neil Zeghidour(Kyutai,法国) 💡 毒舌点评 亮点在于将“测试时计算缩放”这个前沿理念巧妙地引入医疗音频零样本分类,设计了一个优雅的三层“升级打怪”推理流程,让模型能“偷懒”也能“拼命”,在效率和效果间取得了很好的平衡。槽点则是核心框架严重依赖外部预训练模型(AcuLa编码器和Gemini LLM),自身创新集中在推理策略上,有点“站在巨人肩膀上做调度”的感觉,且临床属性系统和规则表的构建需要领域专家参与,通用性存疑。 🔗 开源详情 代码:论文声明“源代码在评审期间作为匿名补充材料提供,并将在论文被接收后在GitHub上公开”。目前未公开。 模型权重:未自行发布模型。完全依赖于公开的预训练模型: 音频-文本编码器:AcuLa(来自论文 wang2025languagemodelssemanticteachers)。 Tier-H LLM:Gemini 3 Pro(Google),以及消融实验中使用的gpt-oss、Mistral-Small、Kimi-K2。 数据集:使用的所有呼吸音频数据集均为公开数据集,并在实验部分和附录C中详细引用(如UK COVID-19, CoughVID, ICBHI, Coswara, KAUH, Resp.@TR)。 预训练权重:不适用。 在线Demo:论文中未提及。 依赖的开源工具:FAISS(用于高效近邻检索)。 📌 核心摘要 本文旨在解决零样本呼吸音频分类中“一刀切”的推理计算浪费问题。为此,提出了TRIAGE框架,这是一个三层自适应推理管道:第一层(Tier-L)进行快速的标签-文本相似度匹配;若置信度不足则升级至第二层(Tier-M),通过匹配预定义的临床描述符(如声音特征、位置)并基于规则投票决策;若仍不确定则进入第三层(Tier-H),检索相似病例报告并利用大语言模型进行推理。该框架通过置信度门控动态分配计算资源,使简单样本提前退出,复杂样本获得更多计算。在九个公开数据集上的零样本实验表明,TRIAGE平均AUROC达到0.744,显著优于先前的零样本方法,并在多个任务上匹配甚至超越了监督学习基线。分析显示,性能提升主要集中在难以判断的样本上(相对提升最高达19%),证明了自适应计算在医学音频分析中的有效性。 🏗️ 模型架构 TRIAGE是一个三层级联、基于置信度门控的自适应推理框架,其核心是冻结一个预训练的音频-文本嵌入模型(如AcuLa),仅通过改变测试时的推理策略来提升性能。 整体流程(输入到输出): ...

2026-04-19 · 更新于 2026-05-19 · 2 min · 423 words