📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables

#语音合成 #语音识别 #变分推断

7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv

学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度 中

👥 作者与机构

Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs)

📌 核心摘要

本文提出了MELD(Mel-Spectrogram-Based Discrete Latent Language Model),一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型,直接对连续的梅尔频谱帧进行建模,从而避免了传统两阶段方法(先训练独立的编码器/编解码器,再训练语言模型)中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样,有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌(<TTS><STT>)支持零样本文本到语音(TTS)合成和语音到文本(STT)识别任务,并在LibriSpeech数据集上展示了相比基线方法(如Codec-LM、MELLE、dMel)的优势,特别是在STT性能和联合TTS-STT建模方面。

🔗 开源详情

  • 代码:论文中未提及提供代码链接。
  • 模型权重:论文中未提及提供模型权重下载链接。
  • 数据集:实验使用公开的 LibriSpeech 数据集,具体为960小时子集(LS960)。该数据集可从其官方渠道获取:http://www.openslr.org/12/
  • Demo:论文提供了一个音频样本演示地址:https://samples-demo (请注意,此URL在论文中为占位符形式,并非完整可访问链接)。
  • 复现材料:论文在附录(Appendix 8.2)中提供了详细的训练配置,包括模型参数量(~200M)、优化器(Adam)、学习率调度(5e-4, warmup 1k, constant 100k, decay 100k)、批次大小(50k帧/批)、梯度裁剪(10)等信息。但未提供预训练检查点、训练日志或代码。
  • 论文中引用的开源项目:
    1. Descript Audio Codec (DAC):用于生成基线模型(Codec-LM)的语音编解码器。链接:https://github.com/descriptinc/descript-audio-codec
    2. g2pE:用于从文本生成音素转录的工具。链接:https://github.com/Kyubyong/g2p
    3. WavLM:用于说话人相似度评估的预训练模型。链接:https://huggingface.co/microsoft/wavlm-base-sv
    4. HiFi-GAN (SpeechT5):用于将梅尔频谱转换为波形的声码器。链接:https://huggingface.co/mechanicalsea/speecht5-tts

🏗️ 方法概述和架构

MELD的核心思想是在自回归生成梅尔频谱帧的过程中,引入一个离散潜变量空间作为中间预测目标,从而将连续的帧预测问题转化为离散的令牌预测问题。

  1. 整体框架与生成过程:如论文图1和图2所示,MELD建模条件概率 \(p(x|y)\) 或 \(p(y|x)\),其中 \(x\) 是梅尔频谱帧序列,\(y\) 是文本BPE令牌序列。生成过程通过引入离散潜变量 \(z_t\) 扩展为 \(p(x_t, z_t | x_{

  2. 三个核心组件及其参数化:

    • 量化网络 \(q(z_t | x_t)\):这是一个在训练时使用的变分后验分布,用于从连续的梅尔频谱帧 \(x_t\) 生成离散潜变量 \(z_t\) 的样本。它被参数化为一个基于软向量量化的分类分布,其概率由 \(x_t\) 到码本中每个码字 \(c_k\) 的欧氏距离决定:\(q(z_{t}|x_{t}) = \frac{\exp(-\|x_{t}-c_{z_{t}}\|^{2}/\tau)}{\sum_{k=1}^{K}\exp(-\|x_{t}-c_{k}\|^{2}/\tau)}\)。码本 \(C\) 使用k-means算法在梅尔频谱上初始化,并在训练过程中冻结,由后续的重建网络隐式地进行优化。温度参数 \(\tau\) 设置为1。该网络仅在训练时使用。
    • 自回归潜预测网络 \(p(z_t | x_{
    • 梅尔频谱重建网络 \(p(x_t | z_t, x_{
  3. 训练目标:MELD的训练目标是最大化变分下界(VLB),如公式(3)所示:\(\mathcal{L}_{\text{VLB}} = \sum_{t=1}^{T}[\mathrm{KL}[q(z_t|x_t) \| p(z_t|x_{

  4. 推理过程:对于TTS,给定文本和提示音频,模型自回归地从预测分布 \(p(z_t | x_{<EOS> 令牌来实现,该令牌被纳入离散词汇表 \(\mathcal{V}\) 中联合预测。

  5. 关键设计细节:

    • 采样策略:在推理时,对离散分布应用top-\(p\) (\(p=0.9\)) 和 top-\(k\) (\(k=60\)) 采样,并施加重复惩罚(对上一轮top-\(p\)候选中的代码施加-1的分数),以有效抑制静音循环和单词遗漏。
    • 测试时Dropout:在TTS模式下,对梅尔频谱编码器 \(g_{Mel}\) 施加测试时dropout,以缓解训练与推理的不匹配。
    • 文本表示:统一使用BPE分词,词汇量为4096,同时用于TTS和STT,以避免为不同任务使用不同文本表示。

图1

图2

💡 核心创新点

  1. 联合优化的离散潜变量框架:不同于传统的两阶段方法(先训练编码器,再训练语言模型),MELD将梅尔频谱量化器和自回归语言模型端到端地联合优化。这使得量化过程能够感知下游的TTS和STT目标,从而学习到更任务相关的离散表示。
  2. 离散采样缓解梅尔频谱建模缺陷:创新性地将离散采样(源自Codec LM的成功经验)应用于梅尔频谱建模,有效解决了直接自回归建模梅尔频谱时易出现的静音延长和单词遗漏问题,相比使用连续高斯采样的MELLE有显著优势。
  3. 统一的TTS-STT建模能力:在单一自回归Transformer架构中,通过引入不同的任务控制令牌(<TTS>, <STT>),模型能够同时学习语音生成和语音识别任务。论文展示了在联合训练时,MELD的STT性能优于专门为STT设计的dMel模型,表明了联合优化的益处。

📊 实验结果

所有实验在LibriSpeech 960小时子集(LS960)上进行。主要评估指标包括:零样本TTS的WER(由Conformer-Transducer和Whisper-large计算,格式为WER/其他WER)、说话人相似度(SIM,cosine similarity)、主观MOS评分(SMOS和CMOS);STT的WER(使用beam search)。

表2:零样本TTS任务模型对比(基于Codec的基线与MELD)

ModelTextSpeechFreqWER↓SIM↑
Ground truth2.2 / 1.60.925
DAC50.02.2 / 1.60.922
HiFi-Gan62.52.2 / 1.60.903
VALL-E (♣)PhnEncodec75.0- / 5.00.868
Codec-LMPhnDAC50.05.7 / 4.70.872
Codec-LMBPEDAC50.05.3 / 4.80.864
MELDBPEMel62.52.4 / 1.90.872
MELDBPEMel31.32.5 / 1.90.855

表3:零样本TTS任务模型对比(梅尔频谱基线与MELD)

ModelℒslowFreqWER↓SIM↑
Mel-LM62.54.7 / 4.20.825
MELLE62.54.8 / 4.20.826
MELD62.52.4 / 1.90.872
MELD62.56.0 / 3.70.862
MELD31.32.5 / 1.90.855

表4:主观评估结果(43个样本,40位说话人)

ModelSMOS↑CMOS↑
Ground Truth4.11±0.100.27
Codec-LM3.72±0.15-0.31
MELD (joint)3.81±0.12-0.20
MELD3.89±0.060.0

表5:离散潜变量有效性消融实验

ModelWER↓SIM↑MinsS / D / I
Ground truth2.2 / 1.60.925131.80 / 0 / 0
MELD2.4 / 1.90.872129.3330 / 157 / 63
 w/o rep penalty3.1 / 2.60.869137.4330 / 300 / 65
 w/o \(z_t\)52.3 / 51.70.520»200-

表6:语音识别(STT)任务性能对比

ModelSizeHrsdev cleandev othertest cleantest other
Moshi (♣)7B7M--5.8-
dMel (ASR) (♣)258M9603.810.34.210.4
Codec-LM200M9606.116.56.416.4
 w/o codebook init200M960»100»100»100»100
MELD200M9604.09.84.210.0
 w/o SpecAug200M9604.312.54.512.5
MELD260M9603.69.03.59.2

表7:联合TTS-STT建模结果

ModelTrainingTTS WER↓TTS SIM↑STT WER (clean)STT WER (other)
Moshijoint--5.8-
dMel (ASR)separate--4.210.4
dMel (ASR-TTS)joint--7.515.3
Codec-LMseparate5.3 / 4.80.8646.416.4
MELDseparate2.4 / 1.90.8724.210.0
MELDjoint2.8 / 2.20.8704.912.1

主要结论:

  1. 零样本TTS:MELD在WER上显著优于所有Codec-LM和梅尔频谱基线(表2,表3),同时保持了有竞争力的说话人相似度。主观评估也支持这一结论(表4)。
  2. 离散潜变量有效性:移除离散潜变量(\(z_t\))导致性能灾难性下降(表5),证明了离散表示的关键作用。重复惩罚有效抑制了静音生成(表现为WER降低和总时长更接近原始)。
  3. STT任务:在相同的解码器架构下,MELD(直接优化梅尔频谱)在STT任务上全面优于使用离散编码的Codec-LM(表6),甚至优于为ASR设计的dMel模型(尤其在test-other上)。初始化码本对Codec-LM至关重要。
  4. 联合TTS-STT建模:联合训练的MELD在STT性能上优于专门为联合任务设计的dMel (ASR-TTS)(表7),并将单独训练的Codec-LM在两项任务上都大幅超越。虽然联合模型的TTS性能相比单独模型略有下降,但仍远优于基线,展示了MELD在多任务建模上的潜力。

图3

🔬 细节详述

  • MELLE复现问题:论文在附录8.6中详细说明了复现MELLE时遇到的困难,包括无法复现其报告的性能、梯度损失不稳定等。作者尝试调整KL损失权重、使用Flux损失(导致不稳定)等,最终认为其原始的VAD预处理可能是关键,而本工作未采用此步骤。这增加了对比的复杂性。
  • 模型规模:主实验使用12层Transformer,参数量约200M。更大的模型(260M)在STT任务上取得了更好的性能(表6)。
  • 声码器:梅尔频谱波形转换使用在LibriTTS 585小时数据上预训练的HiFi-GAN。
  • 数据预处理:梅尔频谱配置为80维对数梅尔,帧率62.5Hz(帧移16ms),并进行了全局均值方差归一化。
  • 停止预测:与Mel-LM和MELLE需要额外的停止预测器不同,MELD将<EOS>作为离散词汇表的一部分进行预测,简化了模型。

⚖️ 评分理由

  • 创新性 (2.4/3):将离散潜变量与梅尔频谱联合优化是一个合理且有效的改进,解决了该特定建模范式下的具体问题(静音、遗漏)。但该框架本身(变分自回归模型)并非全新,在语音领域也有类似思想。创新点集中在工程整合与问题解决,而非提出全新的建模范式。
  • 技术严谨性 (1.3/1.5):理论推导(VLB)清晰,实验设计合理,包含了必要的消融实验(潜变量有效性、重复惩罚)。对MELLE复现的坦诚讨论增加了可信度。但在与部分基线的对比上(如与MELLE的“公平性”),受限于复现问题,严谨性略有折扣。
  • 实验充分性 (1.3/1.5):在LibriSpeech上进行了全面的评估,覆盖了TTS、STT和联合任务,并给出了详细的主客观指标。消融实验验证了核心组件。不足在于缺乏对更多数据集(如多语言、多说话人)的验证,以及对BPE词表大小、码本大小\(K\)等关键超参数的敏感性分析。
  • 清晰度 (0.9/1):论文写作清晰,结构完整,图表和公式解释到位。附录提供了详尽的复现细节。方法部分对动机和组件的阐述很明确。
  • 影响力 (1.4/2):对语音领域的研究者和工程师有直接价值,特别是在探索梅尔频谱建模和统一TTS/STT模型方面。为解决自回归梅尔��谱建模的缺陷提供了一个实用方案。但影响力受限于其改进的性质,且未在更复杂的场景或SOTA模型(如基于大语言模型的语音模型)上验证。
  • 开源/可复现性 (0.5/1.5 + 0.5/0.5):论文提供了详细的训练配置(附录8.2)和关键实现细节,但明确声明未提供代码、预训练模型或训练日志。提供了示例演示链接(但为占位符)。这严重限制了研究的可复现性。可复现性部分分数因清晰的描述而获得全部0.5分。
  • 总分调整:基于以上维度,总分调整为 2.4 + 1.3 + 1.3 + 0.9 + 1.4 + 0.5 + 0.5 = 8.3/10。考虑到在影响力(未开源严重制约实际复现和应用)和部分对比的严谨性上扣分,并向下微调至 7.3,以反映其作为一项扎实但影响力受限的工作。

🚨 局限与问题

  1. 可复现性极低:未开源任何代码、模型权重或训练日志,是最大的局限。这使得其他研究者无法直接验证或基于此工作开展研究,严重削弱了科学贡献。
  2. 与基线对比的公平性存疑:作者坦承无法完全复现MELLE,尽管采用了详细配置。虽然指出了VAD可能是关键因素,但这使得与MELLE的直接对比(尤其是在解决静音问题上)的公平性受到质疑。MELD的部分优势可能源于MELLE未被最佳复现。
  3. 缺乏对更大规模和更多数据的验证:所有实验仅在LibriSpeech(960小时,英语朗读语音)上进行。未在多说话人、多语言、噪声环境或对话场景下验证模型的泛化能力。模型规模(~200M)相对当前SOTA语音模型(如VALL-E X, Moshi)也较小。
  4. BPE词表的影响:论文统一使用BPE词表,但未深入分析其大小(4096)对TTS和STT性能的权衡影响。不同任务可能对文本表示有不同需求。
  5. 冻结码本的潜在限制:量化码本在训练中冻结,其优化完全依赖于重建网络的梯度。这种间接更新可能不如端到端优化的码本(如使用直通估计器)灵活或高效。
  6. 未讨论生成多样性的系统评估:虽然提到了重复惩罚促进多样性,但未通过客观指标(如生成语音的说话人内方差、韵律多样性)系统评估生成语音的多样性。
  7. 声码器瓶颈:TTS的最终波形质量受限于预训练的HiFi-GAN声码器,该声码器的性能上限并未在论文中讨论。MELD生成的梅尔频谱质量是否充分利用了声码器的能力尚不清楚。
  8. 结论的普适性:论文声称“离散潜变量有效抑制了静音生成”,但这一结论可能高度依赖于特定的数据集、模型规模和训练策略,其普适性需要更多实验验证。

← 返回 2026-05-29 语音/音乐/音频论文速递