📄 WavCube: Unifying Speech Representation for Understanding and Generation via Semantic-Acoustic Joint Modeling
#语音生成 #自监督学习 #统一音频模型 #语音合成 #零样本
✅ 7.5/10 | 前25% | #语音生成 | #自监督学习 | #统一音频模型 #语音合成 | arxiv
学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高
👥 作者与机构
- 第一作者:Guanrou Yang(上海交通大学,上海创新研究院)
- 通讯作者:Xie Chen(上海交通大学,上海创新研究院)
- 作者列表(按原文顺序):
- Guanrou Yang (1, 2)
- Tian Tan (1)
- Qian Chen (4)
- Zhikang Niu (1, 2)
- Yakun Song (1, 2)
- Ziyang Ma (1, 2)
- Yushen Chen (1, 2)
- Zeyu Xie (5)
- Tianrui Wang (6)
- Yifan Yang (1)
- Wenxi Chen (1, 2)
- Qi Chen (1, 2)
- Wenrui Liu (7)
- Shan Yang (3)
- Xie Chen (1, 2)
- 机构映射:
- Shanghai Jiao Tong University
- Shanghai Innovation Institute
- Tencent
- Independent Researcher
- Peking University
- Tianjin University
- Zhejiang University
💡 毒舌点评
这篇论文的亮点在于其系统性的诊断思维和工程实现。它没有盲目追逐“统一”的口号,而是清晰指出了当前SSL特征(如WavLM)直接用于生成模型的两大“硬伤”:一是高维特征空间的冗余性让扩散模型难以建模,二是SSL判别性训练导致的声学细节缺失。提出的“压缩-富集”两阶段训练范式逻辑自洽,设计精巧:第一阶段用自编码器压缩维度,第二阶段端到端微调注入声学信息,并用“语义锚定”防止语义漂移。实验设计全面,覆盖了理解、重建、生成(特别是零样本TTS和SUPERB-SG)多个维度,结果有说服力,尤其是消融实验清晰地证明了各设计模块的必要性。
然而,短板也很明显。首先,其创新更多是训练策略和架构组合上的“工程美学”,对于“语义-声学联合建模”为何能成功、表示空间内部发生了何种演变,缺乏更深层的理论分析或可视化解释(附录的t-SNE图较为初步)。其次,论文声称解决了“理解与生成”的统一,但其核心依赖于一个固定的上游SSL模型(WavLM-Large),WavCube的能力上限实质上受限于WavLM。最后,论文自我评估的部分(如对局限性的讨论)过于简略,对更复杂的跨语言、低资源或长时序场景下的泛化能力未做任何探讨,这限制了其结论的普适性。
📌 核心摘要
- 要解决什么问题:当前语音处理中,理解任务(如ASR)主要依赖自监督学习(SSL)模型(如WavLM)提取的高维语义特征,而生成任务(如TTS)则依赖于通过重建目标训练的声学表示(如Mel谱、VAE潜在表示)。这两种表示在目标、结构和维度上存在根本性差异,导致无法构建一个真正统一的语音模型,这是语音领域迈向统一多模态建模的主要障碍。
- 方法核心是什么:提出WavCube,一个从SSL编码器(WavLM-Large)中蒸馏出的128维紧凑连续表示。通过一个诊断驱动的“压缩-富集”两阶段训练方案实现:
- 第一阶段(语义特征压缩):使用一个对称的自编码器(由Transformer+MLP构成的压缩器和恢复器),将冻结的WavLM输出的1024维特征压缩到128维瓶颈空间,通过语义重建损失(MSE+余弦距离)确保语义信息保留。同时,用一个基于MiMo-AudioTokenizer的声学解码器在分离的(detached)潜在表示上预热,其梯度不回传至压缩器,确保第一阶段纯粹进行语义压缩。
- 第二阶段(语义-声学联合富集):解冻整个SSL编码器,以端到端声学重建(包括Mel谱重建损失、对抗损失和特征匹配损失)为目标微调整个流水线,将声学细节注入潜在表示。为防止微调导致语义漂移,引入“语义锚定”正则化,将微调后的编码器特征和压缩器输出分别与冻结的WavLM参考特征对齐,强制表示保持在原始语义流形内。
- 与已有方法相比新在哪里:不同于Semantic-VAE等方法主要在VAE中增加语义对齐,WavCube的设计更根本:它首先通过第一阶段的瓶颈自编码器,主动解决了SSL特征直接用于扩散模型时的“高维冗余”问题(这是论文诊断的首要障碍)。然后,在第二阶段,它通过有约束的端到端微调,解决了SSL特征固有的“声学保真度缺口”问题。其两阶段设计明确地将问题分解并顺序解决,而不是试图在一步中完成复杂的权衡。论文强调,这一流程成功地在同一个紧凑表示中,使语义判别性、声学保真度和扩散友好性得以共存。
- 主要实验结果如何:
- 重建质量:在LibriSpeech test-clean上,仅用960小时数据训练的WavCube(128维)达到了UTMOS 4.04、SIM 0.94,与使用6000小时数据训练的VAE(4.13, 0.97)性能相当,证明了其声学保真度。
- 理解能力:在SUPERB基准上,WavCube(128维)在所有任务上远优于VAE等声学表示,性能紧追WavLM-Large(1024维)。例如,ASR WER为9.36% vs. 3.70%,展示了其强大的语义判别性。
- 生成能力:在零样本TTS任务上:
- 使用LibriTTS训练时,WavCube达到WER 1.86%和SIM-o 0.678,在WER和说话人相似度上均优于VAE、Semantic-VAE和Mel谱基线。
- 使用约95,000小时Emilia数据训练的WavCube-Pro,达到WER 2.20%和SIM-o 0.709,优于F5-TTS、CosyVoice、FireRedTTS、E2 TTS等大规模基线系统。
- 训练效率:如图2所示,在零样本TTS训练中,WavCube的WER和SIM-o收敛速度显著快于其他连续表示(如VAE、Semantic-VAE、Mel谱),且训练过程更稳定。
- 其他生成任务:在SUPERB-SG基准上,WavCube在语音增强、分离,特别是语音转换(VC)任务上表现优异,在VC任务中达到了比其他声学表示低得多的WER(24.9% vs. >32.6%),显示了其解耦语义与声学信息的能力。
- 实际意义是什么:WavCube为构建统一的语音基础模型提供了一个关键且可行的核心表示组件。它证明了,通过精心设计的训练流程,一个从SSL蒸馏而来的单一紧凑表示,可以打破理解与生成之间的表示壁垒,同时支持高性能的语义理解、高保真度的波形重建和强大的生成能力。这有望简化未来语音系统的架构,推动端到端的语音理解与生成双向增强。
- 主要局限性是什么:论文自我指出的局限性较少,主要在于:其训练依赖于固定的上游SSL模型(WavLM-Large),因此WavCube表示能力的上限受限于该模型;论文未探讨该表示在多语言、方言或更复杂场景下的泛化能力。此外,论文对于“语义锚定”如何精确约束表示空间,缺乏更深入的理论分析。
🏗️ 方法概述和架构
WavCube是一个旨在统一语音理解与生成的连续表示学习框架,其核心是一个两阶段的“压缩-富集”训练流程,如图1所示。整个系统的输入是16kHz的原始语音波形,最终输出是一个时间分辨率为50Hz、维度为128的紧凑特征序列(即WavCube表示)。该表示可同时用于多种下游任务:作为冻结特征输入线性头用于理解任务(如ASR),或者作为条件/目标输入扩散模型用于生成任务(如TTS)。系统由三个主要组件构成:语义压缩器(Semantic Compressor)、语义恢复器(Semantic Restorer)和声学解码器(Acoustic Decoder)。
图1:WavCube整体架构图(原文引用)。该图清晰展示了两阶段训练架构。上半部分(Stage 1: Semantic Feature Compression) 描述了第一阶段的训练流程。输入语音经冻结的WavLM编码为1024维特征,送入由3层Transformer和MLP构成的“语义压缩器”,压缩为128维的潜在表示。该表示同时送入对称的“语义恢复器”以重建原始SSL特征,从而优化压缩器。同时,该潜在表示的一个副本(z_detach,从计算图中分离)被送入“声学解码器”进行声学重建预热,此梯度不回传到压缩器。下半部分(Stage 2: Joint Semantic-Acoustic Enrichment) 展示了第二阶段的联合训练。此时WavLM编码器被解冻,整个流水线(WavLM → 压缩器 → 解码器)端到端优化以最小化声学重建损失。为防止语义漂移,引入了“语义锚定正则化”,该损失将微调后的WavLM特征(f_adapt)和压缩器输出的潜在表示,分别与冻结的WavLM参考特征(f_ref)进行对齐,确保表示仍在原始语义流形内。
主要组件详解:
语义压缩器:
- 功能:将高维、冗余的SSL特征(来自WavLM-Large的第24层,即最后一层)映射到一个紧凑、扩散友好的低维语义子空间。
- 内部结构:一个3层Transformer(初始化自WavLM的前三层)接一个MLP投影头。该MLP将隐层维度从Transformer输出映射到128维,使用GELU激活函数。
- 输入/输出:输入是维度为
T x 1024的冻结SSL特征序列。输出是维度为T x 128的潜在序列z。
语义恢复器:
- 功能:与压缩器对称,用于将潜在表示
z恢复到原始SSL空间,作为自监督信号来训练压缩器,确保其保留了核心语义信息。 - 内部结构:结构与压缩器镜像,包含一个投影头和3层Transformer。
- 输入/输出:输入是潜在表示
z。输出是重建的1024维特征序列f_hat。 - 损失函数:使用语义重建损失
L_sem(公式3),结合了MSE损失和余弦距离损失,以同时对齐特征的幅值和方向:L_sem = MSE(f, f_hat) + (1 - cosine_similarity(f, f_hat))。
- 功能:与压缩器对称,用于将潜在表示
声学解码器:
- 功能:将潜在表示
z解码回可听的语音波形,其训练信号提供了将声学细节注入潜在空间的梯度。 - 内部结构:基于MiMo-AudioTokenizer架构,包含一个1D卷积投影层、32层因果Transformer层(实际为24层AudioDecoder + 16层TransformerVocos,总计40层),以及后续的上采样、映射到粗梅尔频谱图和Vocos声码器(基于iSTFT)。
- 输入/输出:输入是潜在表示
z(第一阶段使用z_detach,第二阶段使用z)。输出是重建的16kHz波形y_hat。 损失函数:使用声学重建损失L_acous(公式4),包含梅尔谱重建损失L_mel、对抗损失L_adv和特征匹配损失L_fm,后两者来自多周期和多分辨率判别器:L_acous = λ_mel L_mel + λ_adv L_adv + λ_fm L_fm。
- 功能:将潜在表示
组件间的数据流与交互及关键设计动机:
第一阶段的关键设计是使用z_detach来预热声学解码器。这确保了L_acous的梯度只更新解码器参数,而不会干扰由L_sem主导的、纯粹的语义特征压缩过程。第二阶段解冻SSL编码器,并通过一个联合目标函数(公式5)进行优化,该函数是声学损失和两项语义锚定损失的加权和:L_stage2 = L_acous(y, y_hat) + λ_sem * (L_sem(f_adapt, f_ref) + L_sem(f_hat, f_ref))。语义锚定损失的两项分别对齐“微调编码器特征”和“压缩器输出”与“冻结参考特征”,从而在注入声学细节的同时,强制整个表示流形贴近原始语义空间。这种设计直接针对了论文诊断的两大问题:Stage 1的瓶颈结构解决了“高维冗余”问题,Stage 2的端到端声学微调解决了“声学保真度缺口”问题。
💡 核心创新点
- 提出统一的语音表示WavCube:首次在论文框架内证明了一个从SSL编码器蒸馏出的单一、紧凑(128维)连续表示,可以同时在语义理解(SUPERB)、声学重建和扩散生成任务(零样本TTS、SUPERB-SG)上取得有竞争力的性能,打破了理解与生成之间的表示壁垒。
- 针对性的两阶段“压缩-富集”训练范式:创新性地将问题分解为两个明确的子问题来解决。第一阶段通过无干扰的瓶颈自编码器,专门解决SSL特征的高维冗余问题,得到一个“扩散友好”的初始空间。第二阶段通过有约束的端到端微调,在保持语义完整性的前提下,专门解决SSL特征的声学细节缺失问题。这为将判别性特征转化为生成性特征提供了系统的方法论。
- 系统性诊断并解决SSL特征用于扩散模型的两大内在缺陷:论文在第5节(Analysis)和表6的消融实验中,明确论证了直接使用高维SSL特征会导致扩散模型训练崩溃(如WER=110%),以及其固有的声学保真度不足(如SIM=0.67)。WavCube的训练流程被证明能同时有效地克服这两个障碍。
- 卓越的下游任务表现与训练效率:实验表明,WavCube不仅在理解任务(SUPERB)上紧追WavLM-Large,更在零样本TTS任务上达到了SOTA(表4),并且展现出比其他连续表示更快、更稳定的训练收敛特性(图2),这验证了其表示空间的优越性。
📊 实验结果
论文在多个维度和基准上进行了全面的实验验证,主要结果如下表所示。
表1:LibriSpeech test-clean重建性能对比
| 表示 | 训练数据(小时) | STOI ↑ | UTMOS ↑ | SIM ↑ | WER(%) ↓ |
|---|---|---|---|---|---|
| Ground Truth | - | 1.00 | 4.09 | 1.00 | 3.64 |
| Mel-spectrogram | 585 | 0.98 | 3.63 | 0.93 | 3.86 |
| VAE | 6000 | 0.98 | 4.13 | 0.97 | 4.07 |
| Semantic-VAE | 6000 | 0.98 | 4.13 | 0.97 | 4.07 |
| WavCube | 960 | 0.97 | 4.04 | 0.94 | 4.20 |
| WavCube-Pro | 6000 | 0.97 | 4.00 | 0.95 | 4.12 |
表2:SUPERB理解任务性能对比(完整结果)
| 表示 | 维度 | PR (PER↓) | KS (Acc↑) | IC (Acc↑) | SID (Acc↑) | ER (Acc↑) | ASR (WER↓) | QbE (MTWV↑) | SF (F1↑) | ASV (CER↓) | SD (DER↓) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Fbank | 80 | 83.71 | 8.85 | 10.16 | 0.06 | 25.62 | 37.95 | 0.0043 | 64.22 | 59.05 | 10.36 |
| VAE | 64 | 88.53 | 39.94 | 9.94 | 15.94 | 44.70 | 63.12 | 0.0002 | 58.93 | 65.55 | 15.04 |
| Semantic-VAE | 64 | 87.59 | 45.30 | 10.63 | 16.40 | 47.28 | 64.64 | 0.0000 | 50.78 | 72.27 | 14.10 |
| WavCube | 128 | 9.91 | 97.42 | 90.41 | 42.36 | 63.41 | 9.36 | 0.0367 | 87.19 | 28.80 | 5.86 |
| WavCube-Pro | 128 | 9.74 | 97.18 | 88.96 | 40.89 | 66.27 | 9.34 | 0.0391 | 86.95 | 28.86 | 6.02 |
| WavCube-Stage1 | 128 | 8.68 | 96.73 | 91.58 | 38.20 | 64.15 | 6.91 | 0.0488 | 89.19 | 24.70 | 7.35 |
| WavLM-Large | 1024 | 3.23 | 98.12 | 100.00 | 93.78 | 70.05 | 3.70 | 0.0532 | 93.49 | 16.92 | 4.93 |
表3:不同连续表示在LibriSpeech-PC test-clean上的零样本TTS性能对比
| 表示 | 维度 | 重建数据量 | TTS训练数据 | WER ↓ | SIM-o ↑ |
|---|---|---|---|---|---|
| VAE | 64 | 6000h | LibriTTS | 2.10 | 0.593 |
| Semantic-VAE | 64 | 6000h | LibriTTS | 2.25 | 0.626 |
| Mel-spectrogram | 100 | 585h | LibriTTS | 2.02 | 0.598 |
| WavCube | 128 | 960h | LibriTTS | 1.86 | 0.678 |
| VAE | 64 | 6000h | Emilia-ZH-EN | 2.47 | 0.673 |
| Semantic-VAE | 64 | 6000h | Emilia-ZH-EN | 2.35 | 0.706 |
| Mel-spectrogram | 100 | 585h | Emilia-ZH-EN | 2.29 | 0.628 |
| WavCube-Pro | 128 | 6000h | Emilia-ZH-EN | 2.20 | 0.709 |
表4:大规模数据零样本TTS系统级对比
| 模型 | 参数量 | TTS数据 | WER↓ | SIM-o↑ |
|---|---|---|---|---|
| Ground Truth | - | - | 2.23 | 0.690 |
| CosyVoice | 300M | 170k h | 3.59 | 0.660 |
| FireRedTTS | 580M | 248k h | 2.69 | 0.470 |
| E2 TTS | 333M | 95k h | 2.95 | 0.690 |
| F5-TTS | 336M | 95k h | 2.42 | 0.660 |
| WavCube-Pro | 337M | 95k h | 2.20 | 0.709 |
表5:SUPERB-SG生成任务性能对比
| 表示 | 语音增强(SE) | 语音分离(SS) | 语音转换(VC) |
|---|---|---|---|
| PESQ ↑ | STOI ↑ | SI-SDRi ↑ | |
| Fbank | 2.11 | 86.2 | 9.75 |
| VAE | 1.89 | 84.8 | 7.76 |
| Semantic-VAE | 1.90 | 84.9 | 7.37 |
| WavCube | 2.08 | 86.1 | 9.20 |
| WavCube-Pro | 2.07 | 86.2 | 9.16 |
| WavCube-stage1 | 1.92 | 84.6 | 5.97 |
| WavLM-Large | 2.18 | 87.1 | 11.23 |
图2:TTS训练收敛曲线(原文引用)。该图展示了不同连续表示在零样本TTS训练过程中的WER和SIM-o收敛曲线。WavCube(红线)在训练早期就能达到更低的WER和更高的SIM-o,并且曲线波动更小,表明其表示空间更稳定、更易于扩散模型学习。
消融实验结果(表6):
| 表示 | 表示维度 | 重建任务 | 零样本TTS | |||||
|---|---|---|---|---|---|---|---|---|
| STOI ↑ | UTMOS ↑ | WER ↓ | SIM ↑ | DiT维度 | 参数量 | WER (%) ↓ | ||
| WavLM-Large | 1024 | 0.85 | 3.70 | 4.09 | 0.67 | 1024 | 338.7M | 110.28 |
| 1536 | 753.5M | 3.38 | ||||||
| WavCube-Stage1 | 128 | 0.81 | 3.10 | 4.40 | 0.54 | 1024 | 335.9M | 2.24 |
| WavCube | 128 | 0.97 | 4.04 | 4.20 | 0.94 | 1024 | 335.9M | 1.86 |
| 直接使用1024维WavLM特征训练DiT,在338.7M参数模型下WER高达110.28%,表明模型完全失败;即使将模型隐藏层扩展到1536维(753.5M参数),WER降至3.38%,但SIM-o仅为0.27,声学质量极差。WavCube-Stage1(仅压缩)将WER降至2.24%,但SIM-o仅0.32。完整的WavCube(压缩+富集)将WER进一步降至1.86%,SIM-o大幅提升至0.68,证明了两阶段设计的有效性。 |
附录表7:WavCube表示设计的消融研究
| 表示 | 瓶颈架构 | 帧率 | 维度 | SSL提取层 | WER(%) ↓ | SIM-o ↑ |
|---|---|---|---|---|---|---|
| R1 | AE | 50Hz | 128 | 24 | 2.09 | 0.660 |
| R2 | VAE | 50Hz | 128 | 24 | 2.36 | 0.667 |
| R3 | σ-VAE | 50Hz | 128 | 24 | 4.49 | 0.658 |
| R4 | AE | 25Hz | 128 | 24 | 2.36 | 0.638 |
| R5 | AE | 50Hz | 64 | 24 | 1.98 | 0.581 |
| R6 | AE | 50Hz | 128 | 23 | 1.97 | 0.643 |
| 该表研究了瓶颈架构、帧率、潜在维度和SSL提取层对零样本TTS性能的影响。最终选择AE瓶颈、50Hz帧率、128维度和第24层SSL特征作为默认配置(R1)。 |
🔬 细节详述
- 训练数据:
- 表示预训练:标准版WavCube使用960小时LibriSpeech数据;Pro版使用LibriSpeech加上Libriheavy的小型和中型子集(约6000小时)。
- TTS评估:小规模实验使用LibriTTS数据集(报告150k训练步结果);大规模实验使用约95,000小时中英文野生语音(Emilia数据集,遵循F5-TTS协议筛选),报告250k训练步结果。
- 重建评估:统一在LibriSpeech test-clean集上进行。
- 其他评估:SUPERB基准、SUPERB-SG基准。
- 损失函数:
- 语义重建损失
L_sem(公式3):L_sem = MSE(f, f_hat) + (1 - cosine_similarity(f, f_hat))。 - 声学重建损失
L_acous(公式4):L_acous = λ_mel L_mel + λ_adv L_adv + λ_fm * L_fm。在Stage 2中,权重设置为λ_mel=4.5,λ_adv=λ_fm=0.1。 - Stage 2联合损失(公式5):
L_stage2 = L_acous(y, y_hat) + λ_sem * (L_sem(f_adapt, f_ref) + L_sem(f_hat, f_ref)),其中λ_sem=1.0。
- 语义重建损失
- 训练策略:
- 优化器:未明确说明。
- 学习率:线性warmup 5000步从0到1e-4,然后余弦退火到0。
- Stage 1特殊设置:前5000步仅优化Mel谱损失,之后引入对抗训练。
- 训练步数:表示预训练步数未说明;TTS训练中,LibriTTS设置训练150k步,Emilia设置训练250k步。
- Batch Size:未说明。
- 关键超参数:
- WavCube表示维度:128。时间分辨率:50Hz。
- 压缩器/恢复器:3层Transformer(初始化自WavLM前3层) + 2层MLP(中间维度576,GELU激活)。
- 声学解码器:317M参数,结构为24层AudioDecoder(隐藏维度1024) + 16层TransformerVocos。最终用iSTFT重建波形(NFFT和窗口大小640,跳长160)。
- 扩散模型(DiT):采用F5-TTS框架,隐藏维度1024,深度22层,参数量337.2M。优化器学习率7.5e-5,warmup 20,000步。
- 训练硬件:未说明。
- 推理细节:对于TTS,采用F5-TTS的DiT架构。声码器为基于iSTFT的Vocos。
- 正则化/稳定训练技巧:第二阶段的“语义锚定”正则化是核心的稳定训练技巧,防止微调偏离语义流形。第一阶段使用
z_detach预热解码器也是重要设计。
⚖️ 评分理由
学术质量:7.5/7.5
- 创新性:提出了一个新颖且有效的两阶段训练框架,系统性地诊断并解决了将SSL特征统一用于理解和生成的关键瓶颈。创新点明确,技术路线清晰。
- 技术正确性:方法设计逻辑自洽,实验设计合理,消融实验有力地支撑了方法的必要性。
- 实验充分性:实验覆盖了重建、理解、生成三大类任务,并在多个基准(SUPERB, SUPERB-SG, 零样本TTS)上进行了对比,数据规模从小到大,实验非常充分。
- 证据可信度:关键结论(如SSL特征的两大问题)有定量消融实验证据支持。所有实验均有具体的数字结果和对比基线。
选题价值:1.5/2
- 前沿性:语音领域的统一表示建模是当前的研究热点,本文选题紧扣前沿。
- 潜在影响:若WavCube能作为可靠的基础表示,将简化未来语音系统的构建,具有较高影响力。
- 应用空间:适用于所有需要共享语音表示的任务,如端到端的语音对话系统、多任务处理等。
- 读者相关性:对从事语音生成、理解、多模态模型研究的读者有较高参考价值。
开源与复现加成:+1.0/1
- 代码:提供了明确的代码仓库链接(https://github.com/yanghaha0908/WavCube)。
- 模型权重:论文中声明“Codes and checkpoints are available”,表明将提供模型检查点。
- 复现细节:论文中给出了较为详细的训练配置(学习率、损失权重、模型结构参数),并在附录中提供了消融实验的细节,有利于复现。因此给予满分加成。
代码:论文中提供了代码仓库链接:https://github.com/yanghaha0908/WavCube。
模型权重:论文中声明“Codes and checkpoints are available”,表明将提供模型检查点。
数据集:
- LibriSpeech:960小时版本(用于预训练WavCube),公开数据集,链接:https://www.openslr.org/12
- Libriheavy:6000小时版本(用于预训练WavCube-Pro)的小/中子集,获取方式见原文:https://arxiv.org/abs/2309.05767
- LibriTTS:用于小规模TTS评估,公开数据集,链接:https://www.openslr.org/60
- Emilia:约95,000小时英文和中文语音数据,经过F5-TTS协议过滤,原论文链接:https://arxiv.org/abs/2412.10117
- ESC-50:用于附录中的t-SNE可视化分析,公开数据集,链接:https://github.com/karolpiczak/ESC-50
Demo:论文中未提及。
复现材料:论文提供了详细的复现信息,包括:
- 两阶段训练过程的具体实现、损失函数(公式3-5)和训练超参数(如学习率调度、损失权重)。
- 模型架构细节,如压缩器/恢复器模块(3层Transformer + MLP)、声学解码器(317M参数,24+16层结构)。
- 评估指标和基准(SUPERB、SUPERB-SG、零样本TTS)的具体设置。
- 附录中包含消融实验(表7),探讨了瓶颈架构、帧率、潜在维度和SSL提取层的影响。
论文中引用的开源项目:
- WavLM:论文所基于的预训练SSL模型,未提供独立链接。
- MiMo-AudioTokenizer:论文使用的声学解码器和声码器架构来源,链接:https://github.com/megvii-research/MiMo-Audio-Tokenizer(论文中未明确给出此链接,但提及了该工作)。
- Vocos:声码器部分所采用的对抗和特征匹配损失的实现框架,链接:https://github.com/sarulab-speech/vocos(论文中未明确给出此链接)。
- Whisper (large-v3):用于计算WER,链接:https://github.com/openai/whisper。
- F5-TTS:用于对比和构建零样本TTS系统,链接:https://github.com/SWivid/F5-TTS。
- CosyVoice, FireRedTTS, E2 TTS:作为大规模零样本TTS基线进行对比,论文中未提供其代码链接。