Contextual Biasing for Streaming ASR via CTC-based Word Spotting

📄 Contextual Biasing for Streaming ASR via CTC-based Word Spotting #语音识别 #关键词检测 #流式处理 #CTC #上下文偏置 ✅ 7.2/10 | 前50% | #语音识别 | #关键词检测 | #流式处理 #CTC | arxiv 学术质量 6.1/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度 中 👥 作者与机构 第一作者:Kai-Chen Tsai (Department of Computer Science and Information Engineering, National Taiwan Normal University) 通讯作者:柏林(Berlin Chen),未明确标注,但作为资深作者通常默认为通讯作者(原文仅列出机构邮箱)。 作者列表:Kai-Chen Tsai, Tien-Hong Lo, Yun-Ting Sun, Berlin Chen (均来自台湾师范大学资讯工程学系) 💡 毒舌点评 本文针对一个明确的工程需求(流式ASR的上下文偏置)提出了一个即插即用的后处理解决方案,其工程价值在于将离线CTC-WS无缝扩展到流式场景,且无需模型重训。然而,其核心创新(状态维护与增量提交)是解决流式状态管理问题的直接工程设计,缺乏算法层面的深度。实验仅在两个规模较小、领域特定的英文数据集上验证,且与相对较弱的基线(贪婪解码模式的GPU-PB)对比,其宣称的普适性和优越性说服力不足。 📌 核心摘要 本文针对流式语音识别(Streaming ASR)中对特定领域或罕见词汇识别率低的问题,提出了一种基于CTC的流式关键词检测(Streaming CTC-WS)方法。该方法是对离线CTC-WS的流式扩展,其核心在于设计了一个状态化的词检测器,使其能够跨音频块(chunk)保持活跃的关键词匹配路径(记录图节点、累积分数、起始帧),从而检测被块边界分割的关键词。同时,引入了一个增量提交机制(Incremental Commitment Mechanism),通过维护由所有活跃token最小起始帧定义的“提交前沿”(commit frontier),仅输出不受未来音频影响的稳定识别结果,而保持不确定区域待处理,以平衡延迟与准确性。与深度融合或浅融合方法不同,Streaming CTC-WS可以直接应用于已有的流式ASR系统(如CTC或RNN-T解码器),无需修改模型架构或进行额外训练。实验在STOP1(人名)和STOP2(地名)数据集上进行,结果显示,在CTC和RNN-T解码器下,该方法相比无偏置基线和GPU-PB方法,均显著降低了整体词错误率(WER)并提升了关键词F-score。例如,在STOP1上,使用CTC解码时,WER从18.36%降至12.83%,F-score从66.84%提升至89.61%。该方法在增加少量计算开销(平均额外处理占比小于4.1% chunk时长)的情况下,有效提升了流式ASR对关键短语的识别能力。主要局限性在于其性能依赖于CTC概率质量,且在实验规模、对比基线和消融研究上存在不足。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 371 words

语音/音频论文速递 2026-05-19

语音/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分 前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分 前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分 前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分 前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分 前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分 前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分 前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分 前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分 前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分 前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分 前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分 前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分 前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分 前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分 前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分 前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分 前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分 前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分 前50% #语音合成 20. Stable Audio 3 6.8分 前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分 前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分 前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分 前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分 前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分 中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分 前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分 前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分 前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分 前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分 前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分 前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分 前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分 前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分 后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

2026-05-19 · 更新于 2026-05-19 · 23 min · 4805 words