Adaptive Deterministic Flow Matching for Target Speaker Extraction

📄 Adaptive Deterministic Flow Matching for Target Speaker Extraction #目标说话人提取 #流匹配 #语音增强 #生成模型 #自适应推理 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 📌 核心摘要 问题:现有基于扩散或流匹配的生成式目标说话人提取方法,通常采用固定数量的反向步骤和固定步长进行推理,这未能根据输入混合信号的质量(即目标语音与背景的混合比例)自适应地分配计算资源,导致效率低下。 方法:提出AD-FlowTSE,一种自适应确定性流匹配TSE方法。其核心是将流匹配中的时间变量重新定义为背景信号b与目标语音s₁之间的混合比例τ。模型学习的是从背景分布到目标语音分布的传输向量场。在推理时,首先通过一个MR预测器估计输入的混合比例τ̂,然后将该估计值作为起点,仅在[τ̂, 1]的残差区间上进行自适应步长的反向积分,从而生成目标语音。 与已有方法的新颖之处:区别于先前方法在混合信号(或高斯噪声)与干净语音之间定义流动路径,本文在背景与目标之间定义流动路径,并将路径位置与物理混合比例直接绑定。这使得模型能够根据输入质量动态调整推理步数或步长,实现了“MR感知”的初始化和高效推理。 主要实验结果:在Libri2Mix数据集(Noisy和Clean子集)上,AD-FlowTSE在PESQ、ESTOI、SI-SDR等侵入式指标上优于所有对比的生成式基线。尤其显著的是,说话人相似度(SIM)指标在Noisy集上达到0.87(使用估计τ),远高于FlowTSE的0.83和SoloSpeech的0.85。消融实验表明,使用估计的τ̂性能接近使用真实τ的上界,而固定τ=1或τ=0则性能显著下降。图2显示,仅需1-5个推理步数(NFE)即可达到峰值性能,更多步数反而因过校正导致性能下降。 实际意义:该方法为高效、高质量的TSE提供了一条新途径,尤其适用于对延迟和计算资源敏感的应用场景(如助听器、实时通信)。它展示了将生成模型的理论框架与任务的物理先验深度结合的重要性。 主要局限性:该方法的有效性建立在语音混合是线性叠加的假设上,对存在混响、滤波等非线性效应的场景可能需要更复杂的建模。MR预测器的精度是系统性能的瓶颈,其在极端噪声或未见说话人场景下的鲁棒性有待检验。实验仅在Libri2Mix这一特定数据集上进行,缺乏在真实世界复杂场景中的验证。 🏗️ 模型架构 AD-FlowTSE由两个独立训练的模块组成:MR-Informed向量场估计器 (vθ) 和 MR预测器 (gϕ)。整体流程如图1所示。 ...

2026-04-29

Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification

📄 Adaptive Test-Time Scaling for Zero-Shot Respiratory Audio Classification #零样本 #音频分类 #大语言模型 #自适应推理 ✅ 评分:7.8/10 | arxiv 👥 作者与机构 第一作者:Tsai-Ning Wang(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 通讯作者:Aaqib Saeed(埃因霍温理工大学,Eindhoven Artificial Intelligence Systems Institute) 其他作者: Herman Teun den Dekker(伊拉斯姆斯医学中心) Lin-Lin Chen(埃因霍温理工大学) Neil Zeghidour(Kyutai,法国) 💡 毒舌点评 亮点在于将“测试时计算缩放”这个前沿理念巧妙地引入医疗音频零样本分类,设计了一个优雅的三层“升级打怪”推理流程,让模型能“偷懒”也能“拼命”,在效率和效果间取得了很好的平衡。槽点则是核心框架严重依赖外部预训练模型(AcuLa编码器和Gemini LLM),自身创新集中在推理策略上,有点“站在巨人肩膀上做调度”的感觉,且临床属性系统和规则表的构建需要领域专家参与,通用性存疑。 📌 核心摘要 本文旨在解决零样本呼吸音频分类中“一刀切”的推理计算浪费问题。为此,提出了TRIAGE框架,这是一个三层自适应推理管道:第一层(Tier-L)进行快速的标签-文本相似度匹配;若置信度不足则升级至第二层(Tier-M),通过匹配预定义的临床描述符(如声音特征、位置)并基于规则投票决策;若仍不确定则进入第三层(Tier-H),检索相似病例报告并利用大语言模型进行推理。该框架通过置信度门控动态分配计算资源,使简单样本提前退出,复杂样本获得更多计算。在九个公开数据集上的零样本实验表明,TRIAGE平均AUROC达到0.744,显著优于先前的零样本方法,并在多个任务上匹配甚至超越了监督学习基线。分析显示,性能提升主要集中在难以判断的样本上(相对提升最高达19%),证明了自适应计算在医学音频分析中的有效性。 🏗️ 模型架构 TRIAGE是一个三层级联、基于置信度门控的自适应推理框架,其核心是冻结一个预训练的音频-文本嵌入模型(如AcuLa),仅通过改变测试时的推理策略来提升性能。 整体流程(输入到输出): 输入:一段原始的呼吸音频(如咳嗽、肺音)。 特征提取:音频通过冻结的音频编码器 f_audio 被映射为一个归一化的嵌入向量 a。 三层推理与路由: Tier-L(快速标签匹配): 功能:计算音频嵌入 a 与当前任务所有类别名称文本嵌入的余弦相似度。 输出:预测类别 y^(L) 和置信度 c_L(Top-1与Top-2相似度的差值)。 路由:若 c_L >= τ_L(阈值),则输出最终预测,流程结束;否则,样本升级至Tier-M。 Tier-M(临床属性匹配): 功能:使用音频嵌入 a 去匹配一组临床医生定义的、结构化的描述符模板(如“呼吸音特征”、“哮鸣音存在性”等组,每组包含多个选项文本)。为每个描述符组选择相似度最高的选项,形成一个属性剖面 z(x)。 规则映射:通过一个任务特定的、无参数的规则表 Φ_j,将属性剖面 z(x) 映射为各类别的得分 r_y。 输出:预测类别 y^(M) 和置信度 c_M(规则得分Top-1与Top-2的差值)。 路由:若 c_M >= τ_M,则输出最终预测;否则,样本升级至Tier-H。 Tier-H(检索增强推理): 功能: 检索:在外部音频-报告对语料库 R 中,检索与当前音频嵌入 a 最相似的 k 个邻居样本的报告文本。 推理:构建一个提示词,包含检索到的报告上下文、Tier-M的属性剖面 z(x) 和Tier-L的相似度分数,提交给一个大语言模型(如Gemini 3 Pro)。 输出:LLM解析后输出最终预测 y^(H)。 最终输出:预测类别,以及可解释的“证据链”(如相似度分数、属性剖面、检索到的报告片段)。 关键设计选择理由: ...

2026-04-19