风格迁移 | 语音/音乐/音频论文速递

📄 VoiceTTA: Enhancing Zero-Shot Text-to-Speech via Reinforcement Learning-Based Test-Time Adaptation #语音合成 #强化学习 #风格迁移 7.6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.6/10 | 前50% | #语音合成 | #强化学习 | #风格迁移 | arxiv 👥 作者与机构 Tianxin Chenxing， Xie， Li， Yu， Liu (顺序未明确说明)。作者单位为香港科技大学（广州）和腾讯。通讯作者为 avrillliu@hkust-gz.edu.cn。 💡 毒舌点评这篇论文瞄准了一个真实且有价值的痛点：现有零样本TTS模型在处理不常见说话风格（如方言、口音）时的乏力。作者提出的VoiceTTA框架，将强化学习引入测试时自适应，思路新颖且针对性强。实验设计基本合理，覆盖了多种罕见风格场景，并与多个SOTA基线进行了比较。然而，论文在方法描述上存在一些模糊和可改进之处。例如，奖励权重的具体选择缺乏充分的理论或消融依据，仅提到由消融研究“演示”，但未在消融表中明确展示权重调整的影响。此外，尽管声称方法“轻量”，但未提供具体的推理时间开销与纯基线模型的对比数据，使得“高效”的声明略显单薄。论文最大的软肋在于开源和复现性几乎为零，所有数据集均为私有，代码和模型权重均未提供，仅有一个演示页面，这极大地限制了其可验证性和社区影响力。总体而言，这是一篇在特定问题上思路不错的技术探索，但因其封闭性而难以被广泛验证和采纳。 📌 核心摘要本文提出了VoiceTTA，一种基于强化学习的测试时自适应方法，旨在增强预训练零样本TTS模型在面对不常见语音提示（如方言、口音、含糊不清的语音）时的声音模仿能力。该方法的核心是在推理时通过组相对策略优化算法，优化预先添加到TTS模型输入层的轻量级可学习前缀。优化过程由多重奖励引导，包括衡量生成语音与参考语音在音高动态（F0变异系数差）和能量动态（能量变异系数差）上相似性的风格奖励、说话人相似度奖励以及基于词错误率的可懂度奖励。在五个不常见语音场景（含口音、儿童声、含糊不清、中文小品、中文方言）上的实验表明，VoiceTTA在保持自然度与可懂度的同时，显著提升了说话人相似度，性能优于F5-TTS、CosyVoice、MaskGCT和Vevo等先进基线。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：内部数据集：论文中提到“我们收集了一个内部数据集，包含200个具有罕见说话风格的语音样本（90个带口音的，40个儿童的，30个含糊不清的，40个中文小品的）”，但未提供公开下载链接。 KeSpeech 数据集：论文中引用了[tang2021kespeech]用于评估方言适应性，但未提供直接下载链接或表明已公开共享其使用的子集。 Demo：https://voicetta.pages.dev/ 复现材料：论文中未提及训练配置、检查点、超参数文件或附录等具体的复现材料。论文中引用的开源项目：F5-TTS, CosyVoice, MaskGCT, Vevo, Flow matching 模型, Vocos 声码器, Whisper 模型, 说话人嵌入模型, GRPO 算法。论文均未提供这些项目的具体链接。 🏗️ 方法概述和架构 VoiceTTA的核心思想是在预训练的基于流匹配的零样本TTS模型（如F5-TTS）推理阶段，引入轻量级参数自适应，以更好地模仿不常见语音提示的风格。其整体流程如下： ...