上下文偏置

📄 Contextual Biasing for Streaming ASR via CTC-based Word Spotting #语音识别 #关键词检测 #流式处理 #CTC #上下文偏置 ✅ 7.2/10 | 前50% | #语音识别 | #关键词检测 | #流式处理 #CTC | arxiv 学术质量 6.1/8 | 影响力 0.6/1 | 可复现性 0.5/1 | 置信度中 👥 作者与机构第一作者：Kai-Chen Tsai (Department of Computer Science and Information Engineering, National Taiwan Normal University) 通讯作者：柏林（Berlin Chen），未明确标注，但作为资深作者通常默认为通讯作者（原文仅列出机构邮箱）。作者列表：Kai-Chen Tsai, Tien-Hong Lo, Yun-Ting Sun, Berlin Chen (均来自台湾师范大学资讯工程学系) 💡 毒舌点评本文针对一个明确的工程需求（流式ASR的上下文偏置）提出了一个即插即用的后处理解决方案，其工程价值在于将离线CTC-WS无缝扩展到流式场景，且无需模型重训。然而，其核心创新（状态维护与增量提交）是解决流式状态管理问题的直接工程设计，缺乏算法层面的深度。实验仅在两个规模较小、领域特定的英文数据集上验证，且与相对较弱的基线（贪婪解码模式的GPU-PB）对比，其宣称的普适性和优越性说服力不足。 📌 核心摘要本文针对流式语音识别（Streaming ASR）中对特定领域或罕见词汇识别率低的问题，提出了一种基于CTC的流式关键词检测（Streaming CTC-WS）方法。该方法是对离线CTC-WS的流式扩展，其核心在于设计了一个状态化的词检测器，使其能够跨音频块（chunk）保持活跃的关键词匹配路径（记录图节点、累积分数、起始帧），从而检测被块边界分割的关键词。同时，引入了一个增量提交机制（Incremental Commitment Mechanism），通过维护由所有活跃token最小起始帧定义的“提交前沿”（commit frontier），仅输出不受未来音频影响的稳定识别结果，而保持不确定区域待处理，以平衡延迟与准确性。与深度融合或浅融合方法不同，Streaming CTC-WS可以直接应用于已有的流式ASR系统（如CTC或RNN-T解码器），无需修改模型架构或进行额外训练。实验在STOP1（人名）和STOP2（地名）数据集上进行，结果显示，在CTC和RNN-T解码器下，该方法相比无偏置基线和GPU-PB方法，均显著降低了整体词错误率（WER）并提升了关键词F-score。例如，在STOP1上，使用CTC解码时，WER从18.36%降至12.83%，F-score从66.84%提升至89.61%。该方法在增加少量计算开销（平均额外处理占比小于4.1% chunk时长）的情况下，有效提升了流式ASR对关键短语的识别能力。主要局限性在于其性能依赖于CTC概率质量，且在实验规模、对比基线和消融研究上存在不足。 ...

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分分档主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分前50% #语音合成 20. Stable Audio 3 6.8分前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...