MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables
📄 MELD: Mel-Spectrogram-Based Speech Language Modeling with Discrete Latent Variables #语音合成 #语音识别 #变分推断 ✅ 7.3/10 | 前50% | #语音合成 | #变分推断 | #语音识别 | arxiv 学术质量 5.9/7 | 影响力 1.4/2 | 可复现性 0/2 | 置信度 中 👥 作者与机构 Sung-Lin Yeh\(^{1}\), Wei Zhou\(^{2}\), Gil Keren\(^{3}\), Duc Le\(^{3}\), Zhong Meng\(^{3}\), Hao Tang\(^{3}\), Jay Mahadeokar\(^{3}\), Ozlem Kalinli\(^{3}\), Alexandre Mourachko\(^{3}\) (\(^{1}\)University of Edinburgh, \(^{2}\)Google DeepMind, \(^{3}\)Meta Superintelligence Labs) 📌 核心摘要 本文提出了MELD(Mel-Spectrogram-Based Discrete Latent Language Model),一种基于梅尔频谱图和离散潜变量的语音语言模型框架。其核心创新在于联合优化一个量化编码器和一个自回归语言模型,直接对连续的梅尔频谱帧进行建模,从而避免了传统两阶段方法(先训练独立的编码器/编解码器,再训练语言模型)中编码器无法感知下游任务目标的问题。MELD通过引入离散潜变量空间进行采样,有效缓解了直接自回归建模梅尔频谱时常见的静音延长和单词遗漏问题。模型在单一框架内通过不同的控制令牌(<TTS> 和 <STT>)支持零样本文本到语音(TTS)合成和语音到文本(STT)识别任务,并在LibriSpeech数据集上展示了相比基线方法(如Codec-LM、MELLE、dMel)的优势,特别是在STT性能和联合TTS-STT建模方面。 ...