DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling

📄 DOMA: Leveraging Diffusion Language Models with Adaptive Prior for Intent Classification and Slot Filling #语音对话系统 #意图识别 #槽填充 #扩散模型 #鲁棒性 🔥 8.5/10 | 前25% | #语音对话系统 | #扩散模型 | #意图识别 #槽填充 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Siqi Yang(电子科技大学) 通讯作者:Fan Zhou(电子科技大学;智能数字媒体技术四川省重点实验室;喀什电子与信息产业研究院) 作者列表:Siqi Yang(电子科技大学),Yue Lei(电子科技大学),Wenxin Tai(电子科技大学),Jin Wu(电子科技大学),Jia Chen(电子科技大学),Ting Zhong(电子科技大学),Fan Zhou*(电子科技大学;智能数字媒体技术四川省重点实验室;喀什电子与信息产业研究院) 💡 毒舌点评 这篇论文巧妙地将扩散语言模型(DLM)的并行生成能力用于纠正ASR转录错误,并通过一个轻量级的自适应先验模块来解决DLM可能“改对为错”的痛点,想法很实用。不过,整个框架的性能瓶颈和复杂度高度依赖于所使用的DLM(如LLaDA),自适应先验模块本身也可能引入新的错误(例如错误地掩码了本应保留的token),论文对此的边界讨论不足。 📌 核心摘要 本文针对自动语音识别(ASR)错误会传播并损害下游口语理解(SLU)任务(如意图分类和槽填充)性能的问题,提出了一个模型无关的框架DOMA。DOMA的核心是使用扩散语言模型(DLM)对ASR转录文本进行细化,并引入了一个自适应先验(AP)机制来引导DLM的生成过程。具体来说,DOMA首先使用DLM生成多个候选细化假设,然后利用一个轻量级的、可训练的AP模块(包含自注意力和门控机制)来识别并保留原始ASR转录中可能正确的token,从而构建一个部分掩码的初始序列,而非从完全掩码开始生成。这有助于减少DLM的过度纠正,同时减少所需的扩散步数,提升推理效率。在SLURP、ATIS和SNIPS三个基准数据集上的实验表明,DOMA在多种基线模型(如RoBERTa, SpokenCSE)上一致提升了ICSF性能,相对提升最高达3.2%(例如,DOMA+SpokenCSE在SLURP上的IC准确率从85.51%提升至88.26%)。同时,与自回归LLM细化方法相比,DOMA将推理延迟降低了34.8%(RTF从0.66降至0.43)。该框架的意义在于为提升SLU系统对ASR错误的鲁棒性提供了一种高效、通用的后处理方案。主要局限性在于其效果依赖于强大的预训练DLM(如LLaDA-8B),且AP模块的训练需要额外数据和计算资源。 关键实验结果表: 模型 训练集 数据集 SLURP (WER=17.12%) ATIS (WER=10.31%) SNIPS (WER=7.69%) Accuracy (↑) / SLU-F1 (↑) Accuracy (↑) / SLU-F1 (↑) Accuracy (↑) / SLU-F1 (↑) RoBERTa [20] Oracle 82.78 / 72.19 95.87 / 87.18 96.99 / 95.31 DOMA+RoBERTa [20] Oracle 84.77 / 74.23 97.40 / 88.56 97.72 / 97.19 SpokenCSE [6] Oracle+ASR 85.51 / 74.39 97.58 / 90.02 98.17 / 97.80 DOMA+SpokenCSE [6] Oracle+ASR 88.26 / 76.82 98.15 / 90.65 98.61 / 98.11 图1展示了DOMA嵌入整个ICSF工作流的示意图。DOMA位于ASR输出和ICSF模型之间,负责文本精细化。 ...

2026-04-29

ICASSP 2026 - 槽填充 论文列表

ICASSP 2026 - 槽填充 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Slot Filling as a Reasoning Task for Speechllms 6.5分 前25% 📋 论文详情 🥇 Slot Filling as a Reasoning Task for Speechllms ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型 👥 作者与机构 第一作者:Kadri Hacioglu(Uniphore) 通讯作者:未说明 作者列表:Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评 论文亮点在于清晰地指出了推理优化型LLM(如DeepSeek R1蒸馏版)在直接应用于语音槽填充时“水土不服”的现象,并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而,其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集,未能充分验证该方法在更多样化语音场景(如自然对话、噪声环境)下的普适性,且完全缺失代码和数据开源,削弱了结论的说服力和影响力。 📌 核心摘要 问题:传统语音槽填充任务通常被建模为单步预测,缺乏显式的推理过程,而新兴的推理型大语言模型(LLM)在此类任务上的适用性尚不明确。 方法核心:提出将槽填充重构为多步推理任务,模仿人类标注流程(听写-识别-分配)。利用思维链(CoT)框架构建包含转录、提及识别和理由说明的推理数据集,并通过监督微调(SFT) 训练语音大模型(SpeechLLM)。模型架构包含语音编码器(Whisper-base)、适配器和文本LLM,支持在“常规”(直接输出)和“推理”(先输出思考过程再输出答案)模式间切换。 新意:与此前端到端直接生成槽填充结果的方法不同,本文首次系统性地探索了将显式CoT推理引入语音大模型用于槽填充的可行性,并对比了不同类型(基础、指令、推理、混合)和规模的基础LLM,还创新性地提出了同时保留两种操作模式的混合训练策略。 主要实验结果:在约31K通客服电话数据集上,中等规模(8B参数)的基础或指令微调LLM 作为语音大模型骨干时,引入推理监督能提升性能(如Llama 3.1 8B Base的F1从0.6923提升至0.7736)。然而,专门为数学/代码等推理任务优化的模型(如DeepSeek R1蒸馏版)作为骨干时,尽管在推理模式下提升幅度最大(+22.72%),但绝对性能仍低于同规模其他模型。小规模(≤4B)的混合或推理LLM 在引入显式推理后,性能反而下降。最终,基于混合LLM(Qwen3 4B)并采用混合监督训练的语音大模型取得了最佳性能(F1达0.7988)。具体数据见表1和表2。 实际意义:为提升语音理解任务的可解释性和性能提供了新思路,指出构建兼顾指令遵循与推理能力的“混合”基础模型对于下游语音任务可能更有效,对工业界构建实用型语音大模型有指导价值。 主要局限性:实验数据来自单一来源(DefinedAI客服脚本),可能缺乏泛化性;对比的LLM型号和数量有限;未提供代码和数据集,复现困难;推理模式显著增加计算成本(4-5倍)和延迟。

2026-04-29

Slot Filling as a Reasoning Task for Speechllms

📄 Slot Filling as a Reasoning Task for Speechllms #语音理解 #槽填充 #语音大模型 #思维链 #监督微调 ✅ 6.5/10 | 前25% | #槽填充 | #思维链 | #语音理解 #语音大模型 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Kadri Hacioglu(Uniphore) 通讯作者:未说明 作者列表:Kadri Hacioglu (Uniphore), Manjunath K. E. (Uniphore), Andreas Stolcke (Uniphore) 💡 毒舌点评 论文亮点在于清晰地指出了推理优化型LLM(如DeepSeek R1蒸馏版)在直接应用于语音槽填充时“水土不服”的现象,并提出了通过混合训练来兼顾直接与推理模式的务实解决方案。然而,其主要短板在于实验局限于有限的几个开源模型和单一的脚本对话数据集,未能充分验证该方法在更多样化语音场景(如自然对话、噪声环境)下的普适性,且完全缺失代码和数据开源,削弱了结论的说服力和影响力。 📌 核心摘要 问题:传统语音槽填充任务通常被建模为单步预测,缺乏显式的推理过程,而新兴的推理型大语言模型(LLM)在此类任务上的适用性尚不明确。 方法核心:提出将槽填充重构为多步推理任务,模仿人类标注流程(听写-识别-分配)。利用思维链(CoT)框架构建包含转录、提及识别和理由说明的推理数据集,并通过监督微调(SFT) 训练语音大模型(SpeechLLM)。模型架构包含语音编码器(Whisper-base)、适配器和文本LLM,支持在“常规”(直接输出)和“推理”(先输出思考过程再输出答案)模式间切换。 新意:与此前端到端直接生成槽填充结果的方法不同,本文首次系统性地探索了将显式CoT推理引入语音大模型用于槽填充的可行性,并对比了不同类型(基础、指令、推理、混合)和规模的基础LLM,还创新性地提出了同时保留两种操作模式的混合训练策略。 主要实验结果:在约31K通客服电话数据集上,中等规模(8B参数)的基础或指令微调LLM 作为语音大模型骨干时,引入推理监督能提升性能(如Llama 3.1 8B Base的F1从0.6923提升至0.7736)。然而,专门为数学/代码等推理任务优化的模型(如DeepSeek R1蒸馏版)作为骨干时,尽管在推理模式下提升幅度最大(+22.72%),但绝对性能仍低于同规模其他模型。小规模(≤4B)的混合或推理LLM 在引入显式推理后,性能反而下降。最终,基于混合LLM(Qwen3 4B)并采用混合监督训练的语音大模型取得了最佳性能(F1达0.7988)。具体数据见表1和表2。 实际意义:为提升语音理解任务的可解释性和性能提供了新思路,指出构建兼顾指令遵循与推理能力的“混合”基础模型对于下游语音任务可能更有效,对工业界构建实用型语音大模型有指导价值。 主要局限性:实验数据来自单一来源(DefinedAI客服脚本),可能缺乏泛化性;对比的LLM型号和数量有限;未提供代码和数据集,复现困难;推理模式显著增加计算成本(4-5倍)和延迟。 🏗️ 模型架构 论文提出的语音大模型(SpeechLLM)架构如图1 (pdf-image-page1-idx0) 所示,主要包含三个组件: ...

2026-04-29