DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech
📄 DUET: Unified Dual-Space Emotion Control for Diffusion and Flow-Matching Driven Text-to-Speech #语音合成 #扩散模型 #流匹配 7.1/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 7.1/10 | 前25% | #语音合成 | #扩散模型 | #流匹配 | arxiv 👥 作者与机构 Xu Zhang, Longbing Cao, Zhangkai Wu。三人均来自麦考瑞大学前沿人工智能研究中心(Frontier AI Research Centre, Macquarie University)。 💡 毒舌点评 这篇工作想法巧妙,将表示工程(representation engineering)的概念移植到了语音合成领域,且实验范围很广。但几个问题不容忽视:1)梅尔空间引导部分的核心公式(Eq.5)中梯度计算细节模糊,例如如何通过可微分声码器计算\(\nabla_{\widehat{\mathbf{x}}_{0}}\,\mathcal{L}_{\mathrm{emo}}\),是端到端微分还是代理梯度?这严重影响方法的可复现性和严谨性。2)主观评估的样本量(36样本×20人)对于支撑“最高情感适度性”的结论略显单薄。3)尽管实验了五个骨干,但StableTTS上的性能(平均48.8%)与其它骨干差距明显,且该骨干架构相对简单,是否暗示DUET对模型容量或架构复杂度有隐含依赖?论文对此讨论不足。4)开源仅提供了引用项目的链接,DUET本身无任何开源材料,这在声称“plug-and-play”和“复现性”的今天是重大减分项。 📌 核心摘要 本文发现,在未经情感监督预训练的扩散与流匹配TTS模型中,情感信息在隐藏状态里表现为一个可线性解码的方向,且该方向与编码说话人身份的方向近似正交。基于此发现,本文提出了DUET框架,这是一个即插即用的方法,通过在去噪的每一步统一执行双空间控制来实现情感生成:1) 在隐藏空间,沿探测得到的情感方向对特定层的隐藏状态进行范数自适应的引导;2) 在梅尔空间,通过将外部情感识别器的损失梯度经由可微分声码器反向传播,对清洁梅尔频谱估计进行引导。实验表明,在五个不同的预训练TTS骨干上,DUET在三个数据集上的平均情感识别准确率超过了10个监督学习基线模型,并在主观评价中获得了最高的情感适度性评分。此外,DUET在Ameca人形机器人上的部署展示了其在具身情感交互中的应用潜力。 ...