ICASSP 2026 - 关键词检测 论文列表

ICASSP 2026 - 关键词检测 共 2 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 SynaSpot: A Lightweight, Streaming Multi-modal Framework for 7.5分 前25% 🥈 MT-HuBERT: Self-Supervised Mix-Training for Few-Shot Keyword 7.0分 前25% 📋 论文详情 🥇 SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy ✅ 7.5/10 | 前25% | #关键词检测 | #多模态模型 | #流式处理 #对比学习 👥 作者与机构 第一作者:Kewei Li (†等贡献) (阿里巴巴集团,智能互联) 通讯作者:Xiaotao Liang (∗) (阿里巴巴集团,智能互联) 作者列表:Kewei Li†, Yinan Zhong†, Xiaotao Liang∗, Tianchi Dai, Shaofei Xue(所有作者均隶属于:Intelligent Connectivity, Alibaba Group, Hangzhou, China) 💡 毒舌点评 ...

2026-04-29

MT-HuBERT: Self-Supervised Mix-Training for Few-Shot Keyword Spotting in Mixed Speech

📄 MT-HuBERT: Self-Supervised Mix-Training for Few-Shot Keyword Spotting in Mixed Speech #关键词检测 #自监督学习 #混合语音处理 #少样本学习 ✅ 7.0/10 | 前25% | #关键词检测 | #自监督学习 | #混合语音处理 #少样本学习 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Junming Yuan (新疆大学计算机科学与技术学院 & 清华大学语音与语言技术中心,BNRist) 通讯作者:Dong Wang (清华大学语音与语言技术中心,BNRist)、Lantian Li (北京邮电大学人工智能学院)、Askar Hamdulla (新疆大学计算机科学与技术学院) 作者列表:Junming Yuan (新疆大学 & 清华大学)、Ying Shi (哈尔滨工业大学计算机科学与技术学院 & 清华大学)、Dong Wang (清华大学)、Lantian Li (北京邮电大学)、Askar Hamdulla (新疆大学) 💡 毒舌点评 亮点在于提出了一个思路清晰、动机合理的SSL预训练框架(MT-HuBERT),通过让模型预测混合语音中每个源信号的干净声学单元组合,优雅地解决了混合语音表示学习问题,并在多个基线和条件下取得了稳健的性能提升。短板是论文的实验仅基于Google Speech Commands这一相对简单的关键词集合,对于更复杂的混合场景(如不同语言、更长的短语、严重噪声)以及模型的计算效率缺乏深入探讨,其“State-of-the-Art”的宣称在当前比较范围内成立,但泛化能力有待更大规模的验证。 ...

2026-04-29

SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy

📄 SynaSpot: A Lightweight, Streaming Multi-modal Framework for Keyword Spotting with Audio-Text Synergy #关键词检测 #多模态模型 #流式处理 #对比学习 ✅ 7.5/10 | 前25% | #关键词检测 | #多模态模型 | #流式处理 #对比学习 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Kewei Li (†等贡献) (阿里巴巴集团,智能互联) 通讯作者:Xiaotao Liang (∗) (阿里巴巴集团,智能互联) 作者列表:Kewei Li†, Yinan Zhong†, Xiaotao Liang∗, Tianchi Dai, Shaofei Xue(所有作者均隶属于:Intelligent Connectivity, Alibaba Group, Hangzhou, China) 💡 毒舌点评 亮点在于将“多模态注册”和“流式数学解码”结合得非常优雅,通过一个轻量的音频编码器实现了灵活的多种注册模式,工程实用性强。短板是模型架构本身(DFSMN)缺乏新颖性,流式解码部分的泛化性论证和与更多现代流式模型的深度对比有待加强,且训练策略的细节(如域适应的具体设置)可以更透明。 📌 核心摘要 本文针对开放词汇关键词检测(KWS)在流式场景中面临的多模态模型参数开销大、端到端解码灵活性差的问题,提出了一种名为SYNASPOT的轻量级流式多模态框架。其核心方法包括:1) 设计一种轻量的音频编码器,并通过对抗训练剥离说话人信息,得到与说话人无关的音频表征;2) 引入文本和音频-文本混合模态,并通过对比学习将三者对齐到同一嵌入空间;3) 提出一种流式解码方案,在线推理时仅运行音频编码器,并利用缓存的模态嵌入通过数学计算(滑动窗口平滑与相似度聚合)直接生成帧级分数。主要实验表明,在英文LibriPhrase和中文WenetiPhrase数据集上,SYNASPOT(仅0.9M参数)在多种注册模式下均优于或媲美基线方法,在难度较大的测试集(LPH/WPH)上取得了更低的错误率(如LPH上EER为27.29%)和更高的AUC(79.15%)。该工作的实际意义在于为资源受限的端侧设备提供了一种高效、灵活的流式KWS解决方案。其主要局限性在于未与更多最新的端到端流式模型进行全面比较,且流式解码的性能对滑动窗口超参数的敏感性未充分讨论。 ...

2026-04-29