BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection
📄 BEST-STD 2.0: Balanced and Efficient Speech Tokenizer for Spoken Term Detection #音频检索 #自监督学习 #对比学习 #最优传输 #语音分词 ✅ 7.5/10 | 前25% | #音频检索 | #自监督学习 | #对比学习 #最优传输 学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium) 通讯作者:Vipul Arora(ESAT-PSI, KU Leuven, Belgium;标注有⋆表示equal advising) 作者列表:Anup Singh(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium)、Vipul Arora(ESAT-PSI, KU Leuven, Belgium)、Kris Demuynck(IDLab, Department of Electronics and Information Systems, Ghent University, Belgium) 💡 毒舌点评 亮点在于将最优传输(OT)优雅地用于解决语音分词码本坍缩这一老大难问题,使得大码本训练稳定且高效,且在抗噪抗混响的鲁棒性上做到了超越同类基线(包括大模型WavLM的分词)的扎实水平。短板是研究的问题域(查询式语音术语检索)略显小众,且其核心的“稳健性”提升高度依赖于特定的任务和评价指标(Jaccard相似度、MTWV),对于通用语音理解或生成任务的直接启示有限。 ...