📄 VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models

#音乐转录 #语音识别 #音频大模型 #预训练

7.0/10 | 前25% | #音乐转录 | #音频大模型 | #语音识别 #预训练 | arxiv

学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.0 | 置信度 中

👥 作者与机构

  • 第一作者:Yukun Chen(西安交通大学,南洋理工大学)
  • 通讯作者:论文中未明确说明通讯作者。
  • 作者列表:Yukun Chen(西安交通大学,南洋理工大学), Tianrui Wang(天津大学,南洋理工大学), Zhaoxi Mu(蚂蚁集团,浙江大学), Xinyu Yang(西安交通大学), EngSiong Chng(南洋理工大学)

💡 毒舌点评

亮点:将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中,其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。
短板:模型的核心能力很大程度上继承自强大的基座模型(Qwen3-ASR),创新更多是“术”而非“道”的层面;同时,其赖以生存的训练数据(SingCrawl)虽方法开源,但数据本身和模型权重均不公开,使得论文的复现性和实用推广价值大打折扣。

📌 核心摘要

  1. 要解决什么问题:歌唱语音合成(SVS)需要大规模高质量标注数据,但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外(OOD)歌唱数据泛化能力差等问题。
  2. 方法核心是什么:提出VocalParse,一个基于大型音频语言模型(LALM)的统一歌声转录框架。其核心是将转录重构为对交错(interleaved)歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题,引入了链式思维(CoT)风格的提示策略:先生成纯歌词序列作为语义支架,再生成交错的歌词-音符序列。
  3. 与已有方法相比新在哪里:1) 统一框架:用一个自回归模型联合预测歌词、旋律及词-音符对应关系,无需复杂的多阶段流水线和后处理对齐。2) 结构化生成:交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略:在保持预训练LALM强大语义解码能力的同时,实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl:自动从网络爬取歌曲并生成伪标签训练数据。
  4. 主要实验结果如何:在多个歌唱数据集上达到最先进性能。在Opencpop数据集上,音频-歌词联合推理模式在音高MAE(0.35)、音符MAE(0.43)、时值MAE(0.33)和音符数量误差(0.11)上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近(Opencpop上3.79% vs 3.41%)。消融实验证明,CoT策略将WER从7.18%显著降低至3.79%;移除SingCrawl数据后,音高MAE从0.56急剧上升至0.94。下游SVS实验证明,使用VocalParse生成的伪标签训练的模型,在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。

VocalParse与传统SVT流水线对比

VocalParse整体架构

  1. 实际意义是什么:提供了一个高效、可扩展的自动标注工具,能大幅降低SVS等歌唱相关应用的数据准备成本和门槛,推动相关研究发展。其设计范式也为将LALM适配到其他结构化音频-文本转录任务提供了参考。
  2. 主要局限性是什么:1) BPM估算假设全局固定速度,不适用于自由速度(rubato)的演唱。2) 自回归生成的歌词前缀与后续交错序列中的歌词可能不一致。3) 模型性能上限受限于教师管线(SOFA+ROSVOT)生成的伪标签质量。4) 实验仅在中文数据上进行,多语言泛化性未验证。

🔗 开源详情

  • 代码:
    • VocalParse 项目:https://github.com/pymaster17/VocalParse
    • SingCrawl 数据处理流水线:https://github.com/pymaster17/SingCrawl
  • 模型权重:论文中未提及模型权重(如 HuggingFace、ModelScope)的直接下载链接。论文指出模型基于 Qwen3-ASR 预训练检查点初始化,但未提供该检查点的下载地址。
  • 数据集:
    • 论文中用于评估的公开学术数据集:GTSinger、M4Singer、Opencpop、ACE-KiSing、OpenSinger、PopCS。论文未提供这些数据集的具体下载链接。
    • 训练使用的主要数据集:通过 SingCrawl 流水线收集的约 2000 小时伪标签数据。论文明确表示因版权原因,不会发布任何具体的爬取数据(包括音频、元数据、伪标签等)。
  • Demo:论文中未提及在线演示链接。
  • 复现材料:
    • 训练细节见附录 C,包括:初始化检查点(Qwen3-ASR)、硬件(2 NVIDIA H100 GPU)、并行方式(DDP)、训练步数(120k)、时长(约 17 小时)、动态批处理设置(最大 18,000 tokens/GPU,最多 64 样本/GPU)、学习率调度(余弦退火,12k 步预热,峰值 2e-5)。
    • 模型词汇表定义见附录表 4(128 个 <PITCH> token 和 12 个 <NOTE> token)。
    • BPM 估计算法见附录算法 1。
  • 论文中引用的开源项目:
    • SOFA(用于强制对齐):论文中给出了一个 GitHub 链接,但注明已进行修改。链接:https://github.com/qiuqiao/SOFA
    • MSST-WebUI(用于人声分离和去混响):论文中提到了其提供的模型。链接:https://github.com/SUC-DriverOld/MSST-WebUI
    • 论文中还提及了其他开源项目(如 Whisper, Paraformer, ROSVOT, MusicYOLO, STARS, DiTAR, SingMOS, Aesthetics AudioBox 等),但未为这些项目提供具体链接。

作者与机构

  • 第一作者:Yukun Chen(西安交通大学,南洋理工大学)
  • 通讯作者:论文中未明确说明通讯作者。
  • 作者列表:Yukun Chen(西安交通大学,南洋理工大学), Tianrui Wang(天津大学,南洋理工大学), Zhaoxi Mu(蚂蚁集团,浙江大学), Xinyu Yang(西安交通大学), EngSiong Chng(南洋理工大学)

毒舌点评

亮点:将复杂的歌声转录多阶段任务优雅地统一到一个基于LALM的自回归生成框架中,其提出的“CoT式提示”策略巧妙地解决了预训练语义模型与结构化生成目标之间的冲突。
短板:模型的核心能力很大程度上继承自强大的基座模型(Qwen3-ASR),创新更多是“术”而非“道”的层面;同时,其赖以生存的训练数据(SingCrawl)虽方法开源,但数据本身和模型权重均不公开,使得论文的复现性和实用推广价值大打折扣。

核心摘要

  1. 要解决什么问题:歌唱语音合成(SVS)需要大规模高质量标注数据,但人工标注成本高昂。现有的自动转录系统存在多阶段误差累积、词-音符对齐困难以及对分布外(OOD)歌唱数据泛化能力差等问题。
  2. 方法核心是什么:提出VocalParse,一个基于大型音频语言模型(LALM)的统一歌声转录框架。其核心是将转录重构为对交错(interleaved)歌词-音符序列的自回归生成。为解决交错格式破坏预训练LALM语义理解能力的问题,引入了链式思维(CoT)风格的提示策略:先生成纯歌词序列作为语义支架,再生成交错的歌词-音符序列。
  3. 与已有方法相比新在哪里:1) 统一框架:用一个自回归模型联合预测歌词、旋律及词-音符对应关系,无需复杂的多阶段流水线和后处理对齐。2) 结构化生成:交错提示序列直接编码了词与音符的层级关系。3) CoT适配策略:在保持预训练LALM强大语义解码能力的同时,实现了结构化输出的生成。4) 可扩展的数据管线SingCrawl:自动从网络爬取歌曲并生成伪标签训练数据。
  4. 主要实验结果如何:在多个歌唱数据集上达到最先进性能。在Opencpop数据集上,音频-歌词联合推理模式在音高MAE(0.35)、音符MAE(0.43)、时值MAE(0.33)和音符数量误差(0.11)上均优于ROSVOT等基线。歌词转录WER在三个数据集上与专用ASR模型Qwen3-ASR接近(Opencpop上3.79% vs 3.41%)。消融实验证明,CoT策略将WER从7.18%显著降低至3.79%;移除SingCrawl数据后,音高MAE从0.56急剧上升至0.94。下游SVS实验证明,使用VocalParse生成的伪标签训练的模型,在节奏和旋律相似度上显著优于仅使用小规模人工标注数据训练的模型。

VocalParse与传统SVT流水线对比

VocalParse整体架构

  1. 实际意义是什么:提供了一个高效、可扩展的自动标注工具,能大幅降低SVS等歌唱相关应用的数据准备成本和门槛,推动相关研究发展。其设计范式也为将LALM适配到其他结构化音频-文本转录任务提供了参考。
  2. 主要局限性是什么:1) BPM估算假设全局固定速度,不适用于自由速度(rubato)的演唱。2) 自回归生成的歌词前缀与后续交错序列中的歌词可能不一致。3) 模型性能上限受限于教师管线(SOFA+ROSVOT)生成的伪标签质量。4) 实验仅在中文数据上进行,多语言泛化性未验证。

详细分析

VocalParse是一个基于Qwen3-ASR(1.7B参数)的自回归模型,旨在将歌声输入映射为结构化的歌词-音符符号序列。

VocalParse训练范式与推理模式 图2:VocalParse概览。左:训练范式。右:两种推理模式。

  • 输入处理:输入的音频波形首先通过音频tokenizer转换为离散音频token(12.5 Hz)。
  • 输出序列设计:模型预测一个两阶段目标序列 S_cot = W ⊕ S_il
    • 第一阶段 - 纯歌词序列 (W):这是标准的歌词文本序列,作为“语义支架”。此阶段模拟标准ASR,使模型在熟悉的文本上下文下生成歌词,与预训练行为兼容。
    • 第二阶段 - 交错歌词-音符序列 (S_il):此序列显式编码词-音符对应关系。对于第i个词 w_i,其后直接跟随其对应的音符序列 M_iM_i 由K_i个连续音符组成,每个音符由一个音高token(128个,对应MIDI音高)和一个时值token(12个,对应从三十二分音符到全音符的符号时值)表示。整个序列末尾添加一个歌曲级的<BPM> token表示全局速度。
  • 核心组件与数据流:
    1. 音频编码器:将波形转换为音频token。
    2. 自回归解码器:基于Transformer的LALM(Qwen3-ASR),以音频token为条件,自回归地生成目标序列 S_cot
    3. CoT解码流程:生成过程因子化为 P(S_cot | A) = P(W | A) * P(S_il | W, A)。模型首先生成歌词W,然后基于W和音频A生成交错序列S_il。
  • 推理模式:
    • 仅音频模式:从音频token开始,完整生成 S_cot,先得歌词,后得歌词-音符交错序列。
    • 音频-歌词联合模式:给定准确的歌词W作为前缀,模型只需解码交错部分 S_il,专注于旋律转录。

CoT风格提示策略 图3:CoT风格提示策略。顶部:标准ASR解码。中部:直接交错解码。底部:CoT解码。CoT解码通过先生成纯歌词上下文,恢复了连续的语义依赖,缓解了交错解码带来的语义中断问题。

  1. 交错歌词-音符序列建模:为解决传统方法丢失词-音符对应关系的问题,提出了一种序列化表示,将每个词与其关联的音符直接拼接。这使得模型能在自回归生成过程中直接学习和建模这种精细的对齐关系,无需额外的对齐模块。
  2. CoT风格提示适配策略:为解决交错表示破坏预训练LALM连续语义理解的问题,创新性地引入了CoT思想。通过先生成纯歌词序列作为“思考过程”,再基于此生成结构化输出,完美平衡了利用预训练能力和实现结构化输出的矛盾。
  3. 可扩展的自动标注管线 SingCrawl:设计了一个端到端的网络数据爬取、处理与伪标注流水线,自动构建了大规模(~2000小时)的歌唱转录训练数据,解决了该领域数据稀缺的核心瓶颈。
  4. 统一的双模式推理:基于CoT架构,模型无需任何修改即可支持“仅音频”和“音频-歌词”两种推理模式。后者允许在已有准确歌词时专注于提升旋律转录精度,展现了良好的灵活性。
  • 训练数据:
    • 数据集:使用SingCrawl管线爬取并处理的2000小时中文歌唱数据(来自170万片段),加上公开的GTSinger(中文子集)和M4Singer数据(共~50小时)。
    • 预处理:SingCrawl流程包括:1) 元数据过滤(语言、风格、歌词可用性、质量);2) 音频处理(基于静音检测的分句、人声分离、去混响);3) 自动标注(使用重训练的SOFA进行词级对齐,再用ROSVOT生成音符边界和音高)。
  • 损失函数:标准的因果语言建模损失(交叉熵损失),在整个目标序列 S_cot 的所有token上进行优化。
  • 训练策略:
    • 优化器/调度:使用余弦学习率调度,峰值学习率 2e-5,预热步数12,000步。论文中未明确提及优化器类型。
    • Batch Size:动态批处理,每GPU最大token数18,000,每个批最多64个样本。
    • 训练步数/轮数:训练120,000步。
  • 关键超参数:
    • 模型大小:基于Qwen3-ASR(1.7B参数) 进行全量微调。
    • 码本/词汇:音高token 128个(MIDI 0-127),时值token 12个(表4),以及BPM、填充等特殊token。
  • 训练硬件:在2块NVIDIA H100 GPU上使用分布式数据并行(DDP)训练,耗时约17小时。
  • 推理细节:论文未明确说明解码时的温度、beam size等策略,仅描述了上述两种推理模式。
  • 正则化:论文中未明确提及使用Dropout等额外正则化技巧。

主要自动旋律转录(AMT)结果

模型/方法条件OpencpopACE-KiSing
MAE_pitchMAE_noteMAE_durNum_noteMAE_pitchMAE_noteMAE_durNum_note
STARS(需要歌词)1.120.570.470.171.420.600.570.35
MusicYOLO(需歌词+时间戳)0.640.540.560.411.630.730.630.55
ROSVOT(需歌词+时间戳)0.380.450.400.201.080.620.540.23
VocalParseAudio-only0.560.440.340.110.530.520.490.29
VocalParseAudio-Lyric0.350.430.330.11----

结论:在公平比较(音频-歌词条件)下,VocalParse在Opencpop的所有指标上达到最优,尤其在结构指标(Num_note)上优势明显。即使使用更少输入信息(仅音频),其性能也极具竞争力,优于多数基线。

主要自动歌词转录(ALT)结果

模型/方法Opencpop WER (%)OpenSinger WER (%)PopCS WER (%)
Qwen3-ASR3.415.937.83
LyricWhiz9.6812.7611.64
Whisper-adapted8.6716.5521.68
VocalParse3.795.698.16

结论:VocalParse在歌词转录精度上接近专用ASR模型,在OpenSinger和PopCS上甚至优于Qwen3-ASR,证明其联合训练并未损害语义能力。

消融实验结果(Opencpop)

变体WER (%)MAE_pitchMAE_noteMAE_durNum_note
VocalParse3.790.560.440.340.11
- w/o CoT7.180.920.460.380.12
- w/o SingCrawl4.860.940.470.370.11

结论:移除CoT导致歌词识别性能崩溃(WER翻近一倍),证明了其维持语义上下文的关键作用。移除大规模伪标注数据后,模型在音高转录等细粒度任务上性能显著下降。

下游SVS实验关键结果 SVS验证损失与主观偏���测试 SVS AB测试结果 结论:使用VocalParse生成的伪标签(Scale_M/Scale_L)训练SVS模型,在节奏相似度(IOU从0.46提升至0.59)和旋律相似度(RPA从0.39大幅提升至0.74)上获得巨大收益,同时保持了接近的合成质量(SingMOS、CE、PQ),主观AB测试也支持此结论。这验证了VocalParse标注的实际效用。

  • 学术质量:6.0/7分。技术方案设计精巧,实验验证全面且数据翔实,能充分支撑其主张。主要创新点在于巧妙的提示工程与框架集成,但底层模型依赖现有LALM,原创性略有折扣。
  • 选题价值:1.0/2分。问题明确,解决方案实用,对特定领域(SVS)数据构建有直接贡献。但任务相对垂直,属于MIR的子方向,对广大AI/音频研究者的普适性吸引力一般。
  • 开源与复现加成:0.0/1分。虽然公开了数据处理管线代码,但模型权重和训练数据(核心资源)均不公开,极大地限制了该工作的可复现性和社区的二次开发潜力。

🏗️ 模型架构

VocalParse是一个基于Qwen3-ASR(1.7B参数)的自回归模型,旨在将歌声输入映射为结构化的歌词-音符符号序列。

VocalParse训练范式与推理模式 图2:VocalParse概览。左:训练范式。右:两种推理模式。

  • 输入处理:输入的音频波形首先通过音频tokenizer转换为离散音频token(12.5 Hz)。
  • 输出序列设计:模型预测一个两阶段目标序列 S_cot = W ⊕ S_il
    • 第一阶段 - 纯歌词序列 (W):这是标准的歌词文本序列,作为“语义支架”。此阶段模拟标准ASR,使模型在熟悉的文本上下文下生成歌词,与预训练行为兼容。
    • 第二阶段 - 交错歌词-音符序列 (S_il):此序列显式编码词-音符对应关系。对于第i个词 w_i,其后直接跟随其对应的音符序列 M_iM_i 由K_i个连续音符组成,每个音符由一个音高token(128个,对应MIDI音高)和一个时值token(12个,对应从三十二分音符到全音符的符号时值)表示。整个序列末尾添加一个歌曲级的<BPM> token表示全局速度。
  • 核心组件与数据流:
    1. 音频编码器:将波形转换为音频token。
    2. 自回归解码器:基于Transformer的LALM(Qwen3-ASR),以音频token为条件,自回归地生成目标序列 S_cot
    3. CoT解码流程:生成过程因子化为 P(S_cot | A) = P(W | A) * P(S_il | W, A)。模型首先生成歌词W,然后基于W和音频A生成交错序列S_il。
  • 推理模式:
    • 仅音频模式:从音频token开始,完整生成 S_cot,先得歌词,后得歌词-音符交错序列。
    • 音频-歌词联合模式:给定准确的歌词W作为前缀,模型只需解码交错部分 S_il,专注于旋律转录。

CoT风格提示策略 图3:CoT风格提示策略。顶部:标准ASR解码。中部:直接交错解码。底部:CoT解码。CoT解码通过先生成纯歌词上下文,恢复了连续的语义依赖,缓解了交错解码带来的语义中断问题。

💡 核心创新点

  1. 交错歌词-音符序列建模:为解决传统方法丢失词-音符对应关系的问题,提出了一种序列化表示,将每个词与其关联的音符直接拼接。这使得模型能在自回归生成过程中直接学习和建模这种精细的对齐关系,无需额外的对齐模块。
  2. CoT风格提示适配策略:为解决交错表示破坏预训练LALM连续语义理解的问题,创新性地引入了CoT思想。通过先生成纯歌词序列作为“思考过程”,再基于此生成结构化输出,完美平衡了利用预训练能力和实现结构化输出的矛盾。
  3. 可扩展的自动标注管线 SingCrawl:设计了一个端到端的网络数据爬取、处理与伪标注流水线,自动构建了大规模(~2000小时)的歌唱转录训练数据,解决了该领域数据稀缺的核心瓶颈。
  4. 统一的双模式推理:基于CoT架构,模型无需任何修改即可支持“仅音频”和“音频-歌词”两种推理模式。后者允许在已有准确歌词时专注于提升旋律转录精度,展现了良好的灵活性。

🔬 细节详述

  • 训练数据:
    • 数据集:使用SingCrawl管线爬取并处理的2000小时中文歌唱数据(来自170万片段),加上公开的GTSinger(中文子集)和M4Singer数据(共~50小时)。
    • 预处理:SingCrawl流程包括:1) 元数据过滤(语言、风格、歌词可用性、质量);2) 音频处理(基于静音检测的分句、人声分离、去混响);3) 自动标注(使用重训练的SOFA进行词级对齐,再用ROSVOT生成音符边界和音高)。
  • 损失函数:标准的因果语言建模损失(交叉熵损失),在整个目标序列 S_cot 的所有token上进行优化。
  • 训练策略:
    • 优化器/调度:使用余弦学习率调度,峰值学习率 2e-5,预热步数12,000步。论文中未明确提及优化器类型。
    • Batch Size:动态批处理,每GPU最大token数18,000,每个批最多64个样本。
    • 训练步数/轮数:训练120,000步。
  • 关键超参数:
    • 模型大小:基于Qwen3-ASR(1.7B参数) 进行全量微调。
    • 码本/词汇:音高token 128个(MIDI 0-127),时值token 12个(表4),以及BPM、填充等特殊token。
  • 训练硬件:在2块NVIDIA H100 GPU上使用分布式数据并行(DDP)训练,耗时约17小时。
  • 推理细节:论文未明确说明解码时的温度、beam size等策略,仅描述了上述两种推理模式。
  • 正则化:论文中未明确提及使用Dropout等额外正则化技巧。

📊 实验结果

主要自动旋律转录(AMT)结果

模型/方法条件OpencpopACE-KiSing
MAE_pitchMAE_noteMAE_durNum_noteMAE_pitchMAE_noteMAE_durNum_note
STARS(需要歌词)1.120.570.470.171.420.600.570.35
MusicYOLO(需歌词+时间戳)0.640.540.560.411.630.730.630.55
ROSVOT(需歌词+时间戳)0.380.450.400.201.080.620.540.23
VocalParseAudio-only0.560.440.340.110.530.520.490.29
VocalParseAudio-Lyric0.350.430.330.11----

结论:在公平比较(音频-歌词条件)下,VocalParse在Opencpop的所有指标上达到最优,尤其在结构指标(Num_note)上优势明显。即使使用更少输入信息(仅音频),其性能也极具竞争力,优于多数基线。

主要自动歌词转录(ALT)结果

模型/方法Opencpop WER (%)OpenSinger WER (%)PopCS WER (%)
Qwen3-ASR3.415.937.83
LyricWhiz9.6812.7611.64
Whisper-adapted8.6716.5521.68
VocalParse3.795.698.16

结论:VocalParse在歌词转录精度上接近专用ASR模型,在OpenSinger和PopCS上甚至优于Qwen3-ASR,证明其联合训练并未损害语义能力。

消融实验结果(Opencpop)

变体WER (%)MAE_pitchMAE_noteMAE_durNum_note
VocalParse3.790.560.440.340.11
- w/o CoT7.180.920.460.380.12
- w/o SingCrawl4.860.940.470.370.11

结论:移除CoT导致歌词识别性能崩溃(WER翻近一倍),证明了其维持语义上下文的关键作用。移除大规模伪标注数据后,模型在音高转录等细粒度任务上性能显著下降。

下游SVS实验关键结果 SVS验证损失与主观偏���测试 SVS AB测试结果 结论:使用VocalParse生成的伪标签(Scale_M/Scale_L)训练SVS模型,在节奏相似度(IOU从0.46提升至0.59)和旋律相似度(RPA从0.39大幅提升至0.74)上获得巨大收益,同时保持了接近的合成质量(SingMOS、CE、PQ),主观AB测试也支持此结论。这验证了VocalParse标注的实际效用。

⚖️ 评分理由

  • 学术质量:6.0/7分。技术方案设计精巧,实验验证全面且数据翔实,能充分支撑其主张。主要创新点在于巧妙的提示工程与框架集成,但底层模型依赖现有LALM,原创性略有折扣。
  • 选题价值:1.0/2分。问题明确,解决方案实用,对特定领域(SVS)数据构建有直接贡献。但任务相对垂直,属于MIR的子方向,对广大AI/音频研究者的普适性吸引力一般。
  • 开源与复现加成:0.0/1分。虽然公开了数据处理管线代码,但模型权重和训练数据(核心资源)均不公开,极大地限制了该工作的可复现性和社区的二次开发潜力。

补充信息

  • [作者与机构] 补充:论文在作者列表下方明确标注了“Corresponding authors”,表明所有作者均为共同通讯作者。
  • [模型架构] 补充:VocalParse是基于一个1.7B参数的Qwen3-ASR预训练检查点进行全量微调的。
  • [实验结果] 补充:论文在附录D中详细介绍了用于验证VocalParse标注实用价值的下游歌唱合成(SVS)实验。该实验设置了四种训练数据构型:Ac1(仅使用约50小时学术数据集)、Scale_M(使用200小时SingCrawl伪标签数据)、Scale_L(使用2000小时SingCrawl伪标签数据)和Ac2(使用OpenSinger录音与歌词,旋律标签由VocalParse生成)。主要结果(表5和图6)显示,随着伪标签数据量的增加(Ac1 → Scale_M → Scale_L),SVS模型的验证损失单调下降,节奏相似度(IOU从0.46提升至0.59)和旋律相似度(RPA从0.39大幅提升至0.74)获得显著改善,同时合成质量(SingMOS, CE, PQ)保持稳定。主观AB测试也表明Scale_L的合成结果更受偏好。
  • [消融实验] 补充:论文中不仅进行了针对VocalParse核心组件的消融实验(表3),还通过下游SVS实验间接消融了数据规模(表5):对比Ac1与Scale_M/Scale_L,证明了大规模伪标签数据对提升下游任务性能的关键作用;对比Ac1与Ac2,证明了VocalParse生成的伪标签可作为有效的监督信号。
  • [细节详述] 补充:关于训练细节,论文未明确提及优化器类型。
  • [评分理由] 补充:论文在附录E“伦理与责任”中声明,为尊重音乐版权,将不会发布任何具体的爬取数据(包括原始音频、分离人声、歌词、元数据、URL及伪标签),仅开源SingCrawl数据处理流水线代码和VocalParse模型权重。

📎 补充信息

  • [作者与机构] 补充:论文在作者列表下方明确标注了“Corresponding authors”,表明所有作者均为共同通讯作者。
  • [模型架构] 补充:VocalParse是基于一个1.7B参数的Qwen3-ASR预训练检查点进行全量微调的。
  • [实验结果] 补充:论文在附录D中详细介绍了用于验证VocalParse标注实用价值的下游歌唱合成(SVS)实验。该实验设置了四种训练数据构型:Ac1(仅使用约50小时学术数据集)、Scale_M(使用200小时SingCrawl伪标签数据)、Scale_L(使用2000小时SingCrawl伪标签数据)和Ac2(使用OpenSinger录音与歌词,旋律标签由VocalParse生成)。主要结果(表5和图6)显示,随着伪标签数据量的增加(Ac1 → Scale_M → Scale_L),SVS模型的验证损失单调下降,节奏相似度(IOU从0.46提升至0.59)和旋律相似度(RPA从0.39大幅提升至0.74)获得显著改善,同时合成质量(SingMOS, CE, PQ)保持稳定。主观AB测试也表明Scale_L的合成结果更受偏好。
  • [消融实验] 补充:论文中不仅进行了针对VocalParse核心组件的消融实验(表3),还通过下游SVS实验间接消融了数据规模(表5):对比Ac1与Scale_M/Scale_L,证明了大规模伪标签数据对提升下游任务性能的关键作用;对比Ac1与Ac2,证明了VocalParse生成的伪标签可作为有效的监督信号。
  • [细节详述] 补充:关于训练细节,论文未明确提及优化器类型。
  • [评分理由] 补充:论文在附录E“伦理与责任”中声明,为尊重音乐版权,将不会发布任何具体的爬取数据(包括原始音频、分离人声、歌词、元数据、URL及伪标签),仅开源SingCrawl数据处理流水线代码和VocalParse模型权重。

← 返回 2026-05-07 论文速递