Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

📄 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling #歌唱语音转换 #流匹配 #音乐源分离 #零样本 #信号处理 #复音建模 📝 5.5/10 | 前50% | #歌唱语音转换 | #流匹配 | #音乐源分离 #零样本 | arxiv 学术质量 5.5 (综合学术质量:创新性+技术严谨性+实验充分性+清晰度的加权得分,范围0-8)/8 | 影响力 1.0 (影响力与重要性:领域推动价值、后续工作潜力、与读者相关性,范围0-2)/2 | 可复现性 0.3 (可复现性:开源完整度、训练细节、超参数充分度,范围0-1)/1 | 置信度 中 👥 作者与机构 第一作者:未说明(论文未明确指定第一作者) 通讯作者:未说明 作者列表:Chen Geng, Meng Chen(论文正文致谢或作者列表中提及,但未说明其具体单位或角色) 比舌点评 论文直面歌声转换在真实世界应用中的一个痛点:从混音中分离的人声常残余和声,导致传统F0提取器失效。提出的Poly-SVC系统采用CQT频谱图处理复音,并用一个基于MIDI监督的“随机采样器”来精炼音高表征,思路清晰且具有实用动机。然而,论文的核心贡献——“随机采样器”的具体实现(如“随机”裁剪的策略、概率、监督细节)以及关键编码器(CQT/MIDI)的网络结构描述严重模糊,更像一个针对特定数据集的“黑箱”工程适配,而非一个方法论上足够严谨的创新。实验仅依赖主观评估,缺乏客观指标,且声称的“state-of-the-art”性能提升主要体现在主观MOS上,缺乏更全面的证据支撑,说服力有限。 核心摘要 要解决什么问题:现有歌声转换(SVC)方法依赖干净单旋律人声和F0提取器,但真实场景中通过工具(如UVR)分离的人声常残余和声(harmony),导致传统F0提取失效,引发音高预测错误和音质下降。本文旨在解决这一理想化训练数据与复杂现实输入之间的差距。 方法核心是什么:提出Poly-SVC系统。核心是采用基于恒定Q变换(CQT)的音高提取器,其频谱图特性可同时表示主旋律与残余和声。为抑制CQT中混入的音色等非音高信息,设计了一个“随机采样器”,利用少量MIDI标注数据进行监督学习。最终,通过基于条件流匹配(CFM)的扩散解码器,将提取的内容、音高、音色特征融合,生成保留和声结构的高质量目标歌声。 与已有方法相比新在哪里:不同于以往SVC工作假设输入为干净单旋律歌声,本文首次系统性地建模并处理“残余和声”这一真实世界问题。方法上,摒弃了传统的F0基频估计,转向直接建模整个CQT频谱图以捕捉复音结构,并引入了用少量MIDI数据指导的随机采样器来增强音高表征。 主要实验结果如何:在模拟的和声(Harmony)条件下,Poly-SVC的MOS(自然度)和SIM-MOS(音色相似度)均显著优于基线so-vits-svc、DDSP-SVC和SeedVC。例如,在和声条件下,Poly-SVC的MOS达到3.75±0.10,而最强基线SeedVC仅为3.35±0.12。消融实验表明,移除随机采样器(RS)或音色转换器(TS)均会导致性能下降。频谱图(Fig. 3)直观显示SeedVC丢失了和声结构并出现音高预测错误,而Poly-SVC更好地重建了主旋律与和声。 Approach Single-Melody MOS Single-Melody SIM-MOS Harmony MOS Harmony SIM-MOS Ground Truth 4.12 ± 0.11 - 3.92 ± 0.11 - so-vits-svc 3.57 ± 0.14 3.15 ± 0.13 1.64 ± 0.10 2.08 ± 0.09 DDSP-SVC 3.83 ± 0.13 3.33 ± 0.11 2.98 ± 0.11 2.82 ± 0.10 SeedVC 3.85 ± 0.13 3.74 ± 0.10 3.35 ± 0.12 3.40 ± 0.08 Poly-SVC (w/o TS) 3.96 ± 0.13 3.66 ± 0.11 3.71 ± 0.10 3.32 ± 0.08 Poly-SVC (w/o RS) 3.92 ± 0.13 3.71 ± 0.12 3.62 ± 0.13 3.36 ± 0.09 Poly-SVC 3.98 ± 0.12 3.78 ± 0.11 3.75 ± 0.10 3.42 ± 0.09 实际意义是什么:该工作提升了歌声转换技术在真实世界复杂音频输入(即无法获得完美分离的干净人声)下的鲁棒性和实用性,对音乐制作、虚拟歌手、翻唱等应用具有直接价值。 主要局限性是什么:论文完全依赖主观评估(MOS/SIM-MOS),缺乏客观声学指标;“随机采样器”的核心机制(随机裁剪策略)和网络架构(Transformer细节)描述不清,可复现性存疑;方法使用UVR分离伴奏来模拟“残余和声”数据集,其与真实复杂混音场景的差距未被充分讨论;论文声称“state-of-the-art”,但其提升主要体现在主观评分上,且提升幅度(如MOS +0.4)需要更多上下文来评估其显著性。 方法概述和架构 ...

2026-05-13 · 更新于 2026-05-19 · 4 min · 674 words

ICASSP 2026 - 歌唱语音转换 论文列表

ICASSP 2026 - 歌唱语音转换 共 3 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 The Singing Voice Conversion Challenge 2025: From Singer Ide 7.0分 前50% 🥈 S2Voice: Style-Aware Autoregressive Modeling with Enhanced C 7.0分 前25% 🥉 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harm 6.5分 前50% 📋 论文详情 🥇 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 403 words

Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling

📄 Poly-SVC: Polyphony-Aware Singing Voice Conversion with Harmonic Modeling #歌唱语音转换 #流匹配 #和声建模 #零样本 #时频分析 ✅ 6.5/10 | 前50% | #歌唱语音转换 | #流匹配 | #和声建模 #零样本 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Chen Geng(北京建筑大学智能科学与技术学院;未说明具体实验室) 通讯作者:Ruohua Zhou(北京建筑大学智能科学与技术学院) 作者列表:Chen Geng(北京建筑大学智能科学与技术学院), Meng Chen(腾讯音乐娱乐Lyra Lab), Ruohua Zhou(北京建筑大学智能科学与技术学院), Ruolan Liu(未说明), Weifeng Zhao(腾讯音乐娱乐Lyra Lab) 💡 毒舌点评 亮点在于它跳出了SVC研究中“追求干净人声输入”的理想化假设,转而直接解决“脏”数据带来的音高提取难题,这种务实的问题导向值得肯定。但短板也明显:其核心“复音感知”能力主要归功于选用了CQT这一成熟工具,而非模型本身的革命性设计,且所有评估依赖主观听感,缺少客观的音高预测或和声保真度量化指标,使得“超越SOTA”的结论说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及是否公开模型权重。 数据集:作者模拟构建的“和声数据集”未说明是否公开及获取方式。 Demo:未提及提供在线演示。 复现材料:给出了部分超参数(如CQT设置、优化器),但缺失训练步数、batch size、硬件信息、数据预处理流程等关键细节。 论文中引用的开源项目:Whisper, CampPlus, OpenVoice, Firefly-GAN, SeedVC, UVR等。 📌 核心摘要 要解决什么问题:现有歌唱语音转换(SVC)系统严重依赖从干净人声中提取的F0(基频)来捕获旋律,但在真实场景中,人声分离工具(如Demucs)处理后的音频往往残留和声,这会干扰传统F0提取器,导致转换后歌声出现跑调或音质下降。 方法核心是什么:论文提出了Poly-SVC框架,其核心是三个组件:(1) 基于CQT的音高提取器:利用常数Q变换(CQT)的时频表示,同时保留主旋律和残留和声的多音高信息;(2) 随机采样器:在训练时利用少量MIDI标注数据作为监督,从CQT特征中筛选出与音高相关的成分,抑制音色等无关信息;(3) 基于条件流匹配(CFM)的扩散解码器:将内容、音高和音色特征融合,生成高质量、保留下和声结构的歌唱语音。 与已有方法相比新在哪里:主要新意在于:明确将“处理残留和声”作为系统设计目标,而非假定输入为干净人声;创新性地将CQT引入SVC的音高建模环节,以处理复音场景;并设计了一个简单的随机采样器来优化CQT特征的学习。 主要实验结果如何:论文构建了一个包含70小时的多语种和声歌唱数据集进行测试。与基线模型(so-vits-svc, DDSP-SVC, SeedVC)相比,Poly-SVC在和声条件下的MOS(自然度)和SIM-MOS(音色相似度)得分显著更高(MOS: 3.75 vs. 最高基线3.35; SIM-MOS: 3.42 vs. 最高基线3.40)。消融实验显示,移除随机采样器(RS)或音色移位器(TS)均会导致性能下降。 实际意义是什么:该工作提升了SVC系统在真实世界不完美输入条件下的鲁棒性和可用性,使其能更好地处理从完整混音歌曲中直接分离的人声,对于音乐制作、翻唱等应用有直接价值。 主要局限性是什么:(1) 所用的“和声数据”是通过人声分离工具模拟生成的,并非真实录制的“原始带和声人声”,可能无法完全代表所有现实情况;(2) 评估完全依赖主观听感测试,缺乏客观的音高准确性或谐波失真量化评估;(3) 随机采样器的具体设计和作用机制描述不够详尽;(4) 未公开代码和模型,复现性存疑。 🏗️ 模型架构 Poly-SVC是一个端到端的歌唱语音转换框架,其整体架构如图1所示,包含训练和推理两个阶段。其核心思想是特征解耦与融合:从源语音和参考语音中分别提取内容、音高和音色特征,然后将它们融合并馈送给扩散模型以生成目标音色的歌唱语音。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 316 words

S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion

📄 S2Voice: Style-Aware Autoregressive Modeling with Enhanced Conditioning for Singing Style Conversion #歌唱语音转换 #语音转换 #流匹配 #自回归模型 #数据集 ✅ 7.0/10 | 前25% | #歌唱语音转换 | #流匹配 | #语音转换 #自回归模型 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 通讯作者:Lei Xie(西北工业大学软件学院音频、语音与语言处理组 (ASLP@NPU)) 作者列表:Ziqian Wang(西北工业大学软件学院音频、语音与语言处理组),Xianjun Xia(字节跳动),Chuanzeng Huang(字节跳动),Lei Xie(西北工业大学软件学院音频、语音与语言处理组) 💡 毒舌点评 亮点: 论文在SVCC 2025的两个赛道均取得冠军,系统性地将FiLM条件注入、全局说话人嵌入、大规模数据管线和SFT+DPO训练策略结合起来,在风格相似性和说话人相似性上取得了显著提升,实验设计完整,消融研究充分。 短板: 核心创新(FiLM调制、交叉注意力)多为现有技术的迁移应用,原创性有限;论文未提供开源代码或模型权重,且数据管线依赖的外部模型(如Whisper, Qwen3)版本和具体实现细节模糊,限制了可复现性。 🔗 开源详情 代码: 论文未提及公开代码仓库链接。仅提供了论文作者维护的演示网页链接。 模型权重: 未提及公开S2Voice的模型权重。 数据集: 自建的大规模歌唱语料库未公开。SVCC 2025挑战赛提供了约70小时的训练集和评估协议。 Demo: 提供了在线演示链接:https://honee-w.github.io/SVC-Challenge-Demo/ 复现材料: 论文给出了SFT和DPO阶段的学习率。但未提供模型配置文件、检查点、详细超参数(如隐藏维度、层数、码本大小)、硬件信息和训练时长。 论文中引用的开源项目: 论文明确使用了或依赖于以下开源工具/模型:ECAPA-TDNN [25](用于说话人嵌入/风格编码)、HuBERT [13]/Wav2Vec 2.0 [14](用于内容特征提取)、Whisper [27]/Paraformer [29](用于自动转录)、音乐人声分离模型 [28]、Qwen3 [30](用于转录精炼)、DNSMOS [31](用于质量评估)。基线系统Vevo [8]也是开源的。 📌 核心摘要 解决的问题: 歌唱风格转换(SSC)需要在改变演唱风格的同时保持歌词内容和歌手音色,现有方法存在风格与音色纠缠不完全、自回归模型捕捉细粒度风格能力有限、缺乏高质量训练数据和稳定训练策略等问题。 方法核心: 提出S2Voice,一个基于Vevo的两阶段框架。第一阶段(AR LLM)通过FiLM风格的层归一化调制和风格感知交叉注意力将风格嵌入整合到自回归大语言模型中,实现精细的风格控制。第二阶段(声学模型)在流匹配变换器中引入全局说话人嵌入,以增强音色相似性。此外,构建了大规模高质量歌唱数据语料库,并采用SFT + DPO的多阶段训练策略。 与已有方法相比新在哪里: (1)在AR LLM中引入了更精细的风格条件机制(FiLM+交叉注意力),相比直接拼接或简单注意力融合更有效;(2)在声学解码阶段明确使用预训练说话人���证网络提取的全局嵌入来指导音色,减少从音色参考中泄露风格;(3)构建了大规模、自动化的歌唱数据收集与清洗管线;(4)结合了DPO进行偏好优化,以解决推理中的失败模式,提升稳定性。 主要实验结果: 在SVCC 2025的Task 1(领域内)和Task 2(零样本)上均排名第一。具体指标如下表所示: 系统 任务 自然度 (MOS) 风格相似度 (%) 歌手相似度 (%) GT (真值) 1 3.90 ± 0.15 79 ± 3 63 ± 4 Vevo (基线) 1 3.10 ± 0.12 30 ± 5 42 ± 5 S2Voice 1 3.30 ± 0.10 59 ± 4 57 ± 4 GT (真值) 2 4.10 ± 0.15 78 ± 3 60 ± 4 Vevo (基线) 2 3.20 ± 0.12 32 ± 5 52 ± 5 S2Voice 2 3.75 ± 0.11 70 ± 3 59 ± 4 消融实验表明,各组件(数据、FiLM、交叉注意力、全局说话人嵌入、DPO)对最终性能均有贡献。 实际意义: 该系统为可控的歌唱内容创作(如风格模仿、歌曲翻唱)提供了强大的技术支撑,并在零样本场景下表现出良好的泛化能力,推动了歌唱转换领域的实用化进展。 主要局限性: (1)模型严重依赖大规模高质量数据,构建管线成本高;(2)DPO阶段虽然提升了稳定性,但略微降低了平均指标,表明“偏好”优化与“峰值性能”之间可能存在权衡;(3)论文未公开代码、模型和详细训练细节,阻碍了社区验证和应用。 🏗️ 模型架构 S2Voice是一个两阶段框架,构建在Vevo架构之上。 ...

2026-04-29 · 更新于 2026-05-19 · 3 min · 492 words

The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion

📄 The Singing Voice Conversion Challenge 2025: From Singer Identity Conversion to Singing Style Conversion #歌唱语音转换 #基准测试 #数据集 #开源工具 ✅ 7.0/10 | 前50% | #歌唱语音转换 | #基准测试 | #数据集 #开源工具 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Lester Phillip Violeta(Nagoya University, Japan) 通讯作者:未说明 作者列表:Lester Phillip Violeta(Nagoya University, Japan),Xueyao Zhang(The Chinese University of Hong Kong, Shenzhen, China),Jiatong Shi(Carnegie Mellon University, USA),Yusuke Yasuda(National Institute of Informatics, Japan),Wen-Chin Huang(Nagoya University, Japan),Zhizheng Wu(The Chinese University of Hong Kong, Shenzhen, China),Tomoki Toda(Nagoya University, Japan) 💡 毒舌点评 这篇论文的核心价值在于清晰地将“歌唱风格转换”确立为一个独立的、系统性的研究基准,并提供了精心设计的任务和评估框架,这对推动领域从单纯的“歌手克隆”向更精细的控制迈进具有导航意义。然而,作为一项挑战赛报告,其主要贡献在于提出问题、组织比赛和总结现有方法的表现,而非提出一个能显著超越现有技术的新模型或算法,论文中也坦承“歌唱风格转换仍然挑战重重”,未能给出引领性的解决方案。 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 208 words