IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems
📄 IRAF: Interference-Resilient Adaptive Fusion for Noise-Robust End-to-End Full-Duplex Spoken Dialogue Systems #流式处理 6.5/10 ✅ 6.5/10 | 前50% | #语音对话系统 | #流式处理 | arxiv 👥 作者与机构 Zhong Tao, Jiajun Deng, Nikita Kuzmin, Yinke Zhu, Tianxiang Cao, Tristan Tsoi, Zhili Tan, Simon Lui, Xunying Liu 1 The Chinese University of Hong Kong, China 2 AudioLab Hong Kong, Huawei Leibniz Research Center, China 3 Nanyang Technological University, Singapore 💡 毒舌点评 这篇文章抓��了全双工对话系统在真实噪声环境中的一个切实痛点——干扰语音污染条件输入。IRAF的思路直观,即“不确定的就不信”,用一个轻量门控去缩放可能被污染的音频特征,这听起来简单直接,甚至有些“土办法”的味道。论文声称这是“首次”尝试解决E2E全双工系统的这类问题,但方法本身(用一个Speaker Embedding做引导的注意力门控)在语音分离、说话人日志等领域已有大量影子,创新深度有限。实验在两个数据集上做了,也加了消融,看起来扎实,但缺少与更多近期SOTA的直接对比,说服力打了折扣。最让人皱眉的是,整个门控的监督信号(目标说话人活跃帧)在训练时依赖完美的说话人活动分割,这在真实在线场景中如何获取?论文对此避而不谈。一个严重依赖“干净”训练信号来应对“嘈杂”现实的方法,其泛化能力要打个大大的问号。总的来说,这是一篇工程上合理、实验上尚可、但理论新意和实际部署可行性存疑的工作。 📌 核心摘要 本文针对端到端双通道全双工语音对话系统在存在干扰说话人的现实环境中性能下降的问题,提出了IRAF(干扰鲁棒自适应融合)模块。该问题源于干扰语音被错误编码为用户查询,污染了大语言模型(LLM)的条件输入,导致轮次管理错误和响应质量降低。IRAF是一个轻量级、流式兼容的模块,它在每一帧接收用户音频嵌入和目标说话人嵌入,通过一个小型Transformer网络预测一个可靠性门控值\(g_t \in [0,2]\)。\(g_t\)用于缩放用户音频表示,然后与代理文本嵌入融合后送入LLM。IRAF与整个模型联合端到端训练,并引入一个辅助二分类损失(权重0.1)来引导门控学习区分目标说话人活跃帧与干扰帧。在MS-MARCO和InstructS2S-200K数据集上的实验表明,与仅用噪声增强训练的基线(NoisyAug)相比,IRAF在多种干扰条件下均显著提升了响应质量(BLEU, sBERT)和交互性能(RSR, SSR),并降低了响应延迟。消融实验和SNR分析进一步证实了该方法的有效性和泛化性。 ...