SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis
📄 SemaVoice: Semantic-Aware Continuous Autoregressive Speech Synthesis #语音合成 #自回归模型 #扩散模型 #预训练 #零样本 ✅ 6.8/10 | 前50% | #语音合成 | #自回归模型 | #扩散模型 #预训练 | arxiv 学术质量 5.8/8 | 影响力 0.6/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Huimeng Wang(香港中文大学) 通讯作者:Shiyin Kang(商汤科技) 作者列表:Huimeng Wang(香港中文大学)、Hui Lu(香港中文大学)、Jiajun Deng(香港中文大学)、Haoning Xu(香港中文大学)、Youjun Chen(香港中文大学)、Xueyuan Chen(香港中文大学)、Zhaoqing Li(香港中文大学)、Shuhai Peng(清华大学)、Shiyin Kang(商汤科技)、Xunying Liu(香港中文大学) 💡 毒舌点评 论文针对连续自回归语音合成中VAE表示优化目标与TTS语义-韵律建模需求不匹配的问题,提出了一个直观且工程上合理的解决方案——在VAE阶段引入预训练语音基础模型(如WavLM)的特征进行对齐。其核心创新更偏向于一种精心设计的“预训练知识蒸馏”或“特征对齐”工程组件,而非具有广泛理论启发性的突破。实验在极具挑战性的Seed-TTS基准上取得了有竞争力的结果,但绝对性能(如说话人相似度)并未全面超越SOTA,且高达150K小时的训练数据和H200 GPU的使用门槛,严重削弱了其作为方法论研究的可复现性与普惠价值。 📌 核心摘要 问题:连续自回归语音合成模型中,作为输入的连续语音表示(通常由VAE学习)主要优化于波形重建保真度,这与下游自回归TTS模型需要建模的高层语义-韵律信息存在“不匹配”。这迫使TTS模型过度关注低级声学纹理,牺牲语义连贯性,并加剧了自回归生成中的错误累积。 方法核心:提出SemaVoice框架。其核心是在VAE训练阶段引入一个语音基础模型(SFM)引导的对齐机制。通过计算帧级一致性损失和成对结构一致性损失,将VAE学习到的连续表示显式地与冻结的SFM(如WavLM)提取的高层语义特征进行对齐,旨在从表示根源改善语义信息保留。 新意:与多数在TTS模型上添加额外模块的方法不同,SemaVoice将语义对齐的干预前置到表示学习(VAE)阶段,试图从根本上优化表示空间的性质,使其更利于下游的自回归建模,且不改变下游TTS架构。此外,采用了补丁式扩散头(LocDiT)并引入历史条件建模以增强局部生成稳定性。 主要实验结果:在Seed-TTS基准测试中,SemaVoice(使用150K小时数据)取得了具有竞争力的客观和主观结果: 英语:WER 1.71%,说话人相似度(SIM)0.694。 中文:CER 1.18%,SIM 0.754。 困难子集:CER 8.09%,SIM 0.711。 主观评估:英文N-MOS 3.98,S-MOS 3.89;中文N-MOS 4.07,S-MOS 4.03。 消融实验证明,移除SFM对齐导致WER从2.97%升至3.40%,SIM从0.635降至0.625;移除历史条件建模导致性能大幅下降(WER 8.46%,SIM 0.587)。 实际意义:为解决连续自回归TTS中的表示-建模不匹配问题提供了一种新思路,通过在表示学习阶段注入语义先验,可能提升生成语音的语义连贯性。 主要局限性:作者承认评估仅限于中英双语数据集;作为自回归框架,面临推理延迟和长序列错误累积的固有挑战。此外,方法需要大规模训练数据和计算资源。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:训练使用了开源数据集Emilia,链接为 https://huggingface.co/datasets/amphion/Emilia 。 Demo:论文中未提及在线演示链接。 复现材料:论文中提供了训练配置的详细描述(如VAE和TTS模型的训练步数、批量大小、学习率、损失权重等),但未提供具体的预训练检查点、完整复现脚本或训练好的模型权重。 论文中引用的开源项目: Emilia 数据集: https://huggingface.co/datasets/amphion/Emilia WavLM-large 模型: https://huggingface.co/microsoft/wavlm-large Qwen2.5-1.5B 模型: https://huggingface.co/Qwen/Qwen2.5-1.5B Whisper-large-v3 模型: https://huggingface.co/openai/whisper-large-v3 Paraformer-zh 模型: https://huggingface.co/funasr/paraformer-zh WavLM 模型用于说话人相似度计算: https://github.com/microsoft/UniSpeech/tree/main/WavLM 其他基线系统(如 F5-TTS, MaskGCT, CosyVoice, Spark-TTS, FireRedTTS, IndexTTS 2, VoxCPM, VibeVoice, HiggsAudio-v2, Qwen2.5-Omni)在论文中被引用和比较,但未提供这些系统自身的代码仓库链接。 🏗️ 方法概述和架构 SemaVoice是一个端到端的文本到语音合成系统,其整体流程可分为两个阶段:带SFM语义对齐的连续表示学习(VAE训练) 和 基于连续表示的自回归语音生成(TTS训练与推理)。整体架构如论文图1所示。 ...