Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio
📄 Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio #语音识别 #说话人分离 #语音大模型 #端到端 #流式处理 🔥 9.0/10 | 前10% | #说话人分离 | #语音大模型 | #语音识别 #端到端 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Mohan Shi(UCLA, Microsoft CoreAI) 通讯作者:未说明 作者列表:Mohan Shi(UCLA, Microsoft CoreAI)、Xiong Xiao(Microsoft CoreAI)、Ruchao Fan(Microsoft CoreAI)、Shaoshi Ling(Microsoft CoreAI)、Jinyu Li(Microsoft CoreAI) 💡 毒舌点评 亮点在于“Train Short, Infer Long”的思路极其巧妙,通过设计说话人提示缓存(SPC)机制,成功将短音频训练的模型能力零样本迁移到长音频的流式推理场景,解决了长音频联合任务中棘手的说话人标签排列问题。短板在于,虽然实验全面,但论文未对SPC在极端动态说话人场景(如人数快速增减)下的鲁棒性进行深入探讨和测试。 📌 核心摘要 问题:联合自动语音识别(ASR)与说话人分离(“谁在什么时间说了什么”)在长音频上的流式处理是一个重大挑战,现有端到端模型通常局限于短音频,而处理长音频的级联系统存在错误传播问题。 方法核心:提出一个名为JEDIS-LLM的端到端语音大模型。该模型仅在短音频(≤20秒)上训练,但通过引入“说话人提示缓存(Speaker Prompt Cache, SPC)”及其在线更新机制,实现了在任意长音频上的分块流式推理,无需额外训练。 与已有方法的对比创新:a) 首次实现了仅用短音频训练即可在长音频上进行零样本流式联合ASR与分离;b) 设计了SPC机制,通过缓存和拼接历史说话人音频与文本作为LLM的提示,自然地维持了跨音频块的说话人一致性,无需后处理的全局聚类;c) 在训练时为语音编码器引入了“词级说话人监督”任务,增强了其说话人区分能力。 主要实验结果: 短音频(本地设置):在AMI和CH109测试集上,JEDIS-LLM在cpWER上显著超越了强基线Sortformer和Meta-Cat。 系统 AMI Test cpWER CH109 Full cpWER Internal Test cpWER Sortformer 26.71 21.45 - Meta-Cat 26.02 26.17 - JEDIS-LLM (Final) 23.13 19.46 18.14 长音频(全局设置):在CH109和Fisher长音频测试集上,流式JEDIS-LLM(使用SPC更新)全面超越了级联离线系统DiarizationLM。 系统 CH109 Test WDER/cpWER Fisher Test WDER/cpWER DiarizationLM (PaLM 2) 4.25 / 20.22 2.37 / 16.93 JEDIS-LLM (Offline+Clustering) 2.48 / 19.03 2.06 / 15.03 JEDIS-LLM (Streaming, SPC Update) 1.73 / 18.20 2.05 / 15.88 实际意义:该方法为会议记录、对话分析等实际应用提供了一个完全端到端、可流式处理长音频且性能更优的解决方案,避免了传统级联系统的复杂性和错误累积。 主要局限性:SPC的更新机制依赖于说话人向量相似度计算和启发式规则(如句子完整度),可能在说话人特征变化大或语音片段短时不够鲁棒;模型的长音频处理能力受限于固定的缓存大小和更新策略。 🏗️ 模型架构 JEDIS-LLM的整体架构基于Speech-LLM范式,并针对说话人分离任务进行了增强。其完整流程如下: ...