ICASSP 2026 - 目标说话人提取 论文列表
ICASSP 2026 - 目标说话人提取 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extr 8.0分 前25% 📋 论文详情 🥇 Adaptive Deterministic Flow Matching for Target Speaker Extraction 🔥 8.0/10 | 前25% | #目标说话人提取 | #流匹配 | #语音增强 #生成模型 👥 作者与机构 第一作者:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 通讯作者:Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 作者列表:Tsun-An Hsieh(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院)、Minje Kim(伊利诺伊大学厄巴纳-香槟分校,西贝尔计算机与数据科学学院) 💡 毒舌点评 亮点:将流匹配的“时间”轴与语音混合的物理过程(混合比例τ)直接对齐,并在此基础上实现“按需分配”计算资源的自适应推理,这种思路比简单地追求固定步数的流匹配要精巧得多,实验中仅一步就能追平甚至超越需要多步的强基线,效率提升令人印象深刻。 短板:方法高度依赖于混合信号的线性叠加模型(x=τs₁+(1-τ)b),对混响、非线性失真等更复杂的声学场景(论文中也提到需要更多步)的鲁棒性未充分验证,这限制了其作为通用TSE解决方案的广度。此外,MR预测模块的精度直接影响最终性能,但在实际未知场景中预测一个干净的τ本身就颇具挑战。 🔗 开源详情 代码:提供。论文明确指出代码仓库位于 https://minjekim.com/research-projects/AD-FlowTSE#icassp2026。 模型权重:未提及。 数据集:使用公开数据集Libri2Mix,论文未提供直接下载链接,但该数据集可公开获取。 Demo:提供在线演示,网址包含在上述链接中。 复现材料:提供了详细的训练配置(批大小、学习率、优化器、调度策略、硬件等)和模型架构描述。代码仓库可能包含更详细的配置。 论文中引用的开源项目:ECAPA-TDNN(用于MR预测器骨干网络)、UDiT(向量场估计器架构)。 论文中未提及开源计划,但根据链接,代码已开源。 📌 核心摘要 ...