Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems
📄 Proactive for Uncertainty: Cause-Aware Error Diagnosis and Interactive Clarification for Spoken Dialogue Systems #语音识别 #音频事件检测 #多任务学习 ✅ 6.8/10 | 前50% | #语音识别 | #多任务学习 | #音频事件检测 | arxiv 学术质量 4.9/7 | 影响力 1.5/2 | 可复现性 0.4/2 | 置信度 中 👥 作者与机构 作者:Yizhou Peng(平等贡献),Ziyang Ma(平等贡献),Changsong Liu,Yi-Wen Chao,Xie Chen,Eng Siong Chng 机构:南洋理工大学,新加坡;上海交通大学,中国 💡 毒舌点评 这篇论文的想法“原因感知”听起来很高大上,本质上就是给ASR错误打上更细的标签(失真、理解、删除),然后让LLM根据标签生成不同的“请再说一遍”。这种“小模块+LLM”的组合拳在最近的顶会很常见,创新性有,但不算特别突破。实验设计有巧思(模拟用户闭环评估),但也暴露了短板(只用模拟用户,没有真人评估)。最大的问题在于,它声称的“主动”澄清能力,完全受限于一个能力平平的错误检测器和僵化的优先级规则。把“错误原因分析”和“澄清策略生成”解耦得过于彻底,使得系统缺乏端到端的优化,像是在用人工规则硬拧。论文的工程价值大于学术价值,更适合出现在ICASSP而不是NeurIPS/ICML/ICLR。 📌 核心摘要 本文针对级联ASR-LLM口语对话系统中的错误传播问题,提出了一种原因感知的错误诊断与交互式澄清框架。核心思想是利用冻结ASR模型的内部表征,训练一组轻量级检测器,在token级别区分并诊断三类错误:感知错误(声学失真)、理解错误(语言不匹配)和删除错误(内容缺失)。同时,独立训练了一个声学事件检测器来识别环境类别。这些诊断信息通过一个结构化的错误摘要输入给LLM对话管理器。LLM根据预设的优先级规则(理解 > 感知 > 删除),生成针对性的澄清策略(如请求重复、询问环境、请求拼写等),通过最多K轮交互来修正转录文本。实验在多个数据集和失真条件下验证了该方法,声称在域偏移错误上的召回率比熵基线提高了一倍以上,并在词错率和下游任务性能上取得了显著提升。 🔗 开源详情 代码:承诺在论文提交后发布,提供匿名仓库链接:https://anonymous.4open.science/r/Cause-Aware-Error-Detection-and-Correction-7E4D。 模型权重: ASR骨干:Parakeet-tdt-0.6b-v2 (NVIDIA),链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2。 四个错误检测器:承诺包含在上述代码仓库中。 数据集:实验使用的所有数据集均为公开数据集(LibriSpeech, SPGISpeech2, AESRC2020, Gigaspeech, WSJ, OpenHermes, Alpaca)。论文未提供统一获取链接,但详细信息见附录A.2。 复现材料:承诺发布包含数据预处理、失真模拟、模型训练、推理脚本及交互式LLM澄清模块的完整代码库。训练超参数见附录A.4。 引用的开源项目: AudioBench: https://github.com/AudioLLMs/AudioBench CosyVoice、HyPoradise等模型/项目:仅被引用,未提供代码链接。 MUSAN语料库:用于生成噪声和RIR,被提及但未提供链接。 🏗️ 方法概述和架构 该系统是一个多阶段、模块化的交互式错误恢复管道(见图1和图2)。 ...