S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion
📄 S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion #歌唱语音转换 #语音转换 #流匹配 #自回归模型 #数据集 ✅ 7.0/10 | 前25% | #歌唱语音转换 | #流匹配 | #语音转换 #自回归模型 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 作者列表:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组),Xianjun Xia(字节跳动),Chuanzeng Huang(字节跳动),Lei Xie(西北工业大学软件学院音频、语音与语言处理组) 💡 毒舌点评 亮点: 论文在SVCC 2025的两个赛道均取得冠军,系统性地将FiLM条件注入、全局说话人嵌入、大规模数据管线和SFT+DPO训练策略结合起来,在风格相似性和说话人相似性上取得了显著提升,实验设计完整,消融研究充分。 短板: 核心创新(FiLM调制、交叉注意力)多为现有技术的迁移应用,原创性有限;论文未提供开源代码或模型权重,且数据管线依赖的外部模型(如Whisper, Qwen3)版本和具体实现细节模糊,限制了可复现性。 🔗 开源详情 代码: 论文未提及公开代码仓库链接。仅提供了论文作者维护的演示网页链接。 模型权重: 未提及公开S2Voice的模型权重。 数据集: 自建的大规模歌唱语料库未公开。SVCC 2025挑战赛提供了约70小时的训练集和评估协议。 Demo: 提供了在线演示链接:https://honee-w.github.io/SVC-Challenge-Demo/ 复现材料: 论文给出了SFT和DPO阶段的学习率。但未提供模型配置文件、检查点、详细超参数(如隐藏维度、层数、码本大小)、硬件信息和训练时长。 论文中引用的开源项目: 论文明确使用了或依赖于以下开源工具/模型:ECAPA-TDNN [25](用于说话人嵌入/风格编码)、HuBERT [13]/Wav2Vec 2.0 [14](用于内容特征提取)、Whisper [27]/Paraformer [29](用于自动转录)、音乐人声分离模型 [28]、Qwen3 [30](用于转录精炼)、DNSMOS [31](用于质量评估)。基线系统Vevo [8]也是开源的。 📌 核心摘要 解决的问题: 歌唱风格转换(SSC)需要在改变演唱风格的同时保持歌词内容和歌手音色,现有方法存在风格与音色纠缠不完全、自回归模型捕捉细粒度风格能力有限、缺乏高质量训练数据和稳定训练策略等问题。 方法核心: 提出S2Voice,一个基于Vevo的两阶段框架。第一阶段(AR LLM)通过FiLM风格的层归一化调制和风格感知交叉注意力将风格嵌入整合到自回归大语言模型中,实现精细的风格控制。第二阶段(声学模型)在流匹配变换器中引入全局说话人嵌入,以增强音色相似性。此外,构建了大规模高质量歌唱数据语料库,并采用SFT + DPO的多阶段训练策略。 与已有方法相比新在哪里: (1)在AR LLM中引入了更精细的风格条件机制(FiLM+交叉注意力),相比直接拼接或简单注意力融合更有效;(2)在声学解码阶段明确使用预训练说话人���证网络提取的全局嵌入来指导音色,减少从音色参考中泄露风格;(3)构建了大规模、自动化的歌唱数据收集与清洗管线;(4)结合了DPO进行偏好优化,以解决推理中的失败模式,提升稳定性。 主要实验结果: 在SVCC 2025的Task 1(领域内)和Task 2(零样本)上均排名第一。具体指标如下表所示: 系统 任务 自然度 (MOS) 风格相似度 (%) 歌手相似度 (%) GT (真值) 1 3.90 ± 0.15 79 ± 3 63 ± 4 Vevo (基线) 1 3.10 ± 0.12 30 ± 5 42 ± 5 S2Voice 1 3.30 ± 0.10 59 ± 4 57 ± 4 GT (真值) 2 4.10 ± 0.15 78 ± 3 60 ± 4 Vevo (基线) 2 3.20 ± 0.12 32 ± 5 52 ± 5 S2Voice 2 3.75 ± 0.11 70 ± 3 59 ± 4 消融实验表明,各组件(数据、FiLM、交叉注意力、全局说话人嵌入、DPO)对最终性能均有贡献。 实际意义: 该系统为可控的歌唱内容创作(如风格模仿、歌曲翻唱)提供了强大的技术支撑,并在零样本场景下表现出良好的泛化能力,推动了歌唱转换领域的实用化进展。 主要局限性: (1)模型严重依赖大规模高质量数据,构建管线成本高;(2)DPO阶段虽然提升了稳定性,但略微降低了平均指标,表明“偏好”优化与“峰值性能”之间可能存在权衡;(3)论文未公开代码、模型和详细训练细节,阻碍了社区验证和应用。 🏗️ 模型架构 S2Voice是一个两阶段框架,构建在Vevo架构之上。 ...