Scaling Speech Tokenizers with Diffusion Autoencoders
📄 Scaling Speech Tokenizers with Diffusion Autoencoders #语音识别 #语音合成 #扩散模型 #流匹配 #语音大模型 🔥 8.5/10 | 前25% | #语音识别 | #扩散模型 | #语音合成 #流匹配 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Wang (Meta超级智能实验室、香港中文大学(深圳)) 通讯作者:未明确说明(论文中注明“*Work done during an internship at Meta”,但未指明通讯作者) 作者列表:Yuancheng Wang(Meta超级智能实验室、香港中文大学(深圳)),Zhenyu Tang(Meta超级智能实验室),Yun Wang(Meta超级智能实验室),Arthur Hinsvark(Meta超级智能实验室),Yingru Liu(Meta超级智能实验室),Yinghao Aaron Li(Meta超级智能实验室),Kainan Peng(Meta超级智能实验室),Junyi Ao(Meta超级智能实验室、香港中文大学(深圳)),Mingbo Ma(Meta超级智能实验室),Mike Seltzer(Meta超级智能实验室),Qing He(Meta超级智能实验室),Xubo Liu(Meta超级智能实验室) 💡 毒舌点评 亮点:论文抓住了语音标记化器“既要压缩效率,又要重建质量,还要语义丰富”的“不可能三角”,用一个统一的扩散自编码器框架给出了一个极具竞争力的解,并在12.5Hz的极低帧率下将多项指标推向了新高度。短板:尽管提出了shortcut fine-tuning等解码加速方案,但扩散模型固有的多步采样本质仍是其在实时流式应用中的阿喀琉斯之踵,论文对此的解决方案(如轻量扩散头)效果有待更严苛场景的验证。 🔗 开源详情 代码:论文未提及具体代码仓库链接,但在附录D提供了详细的伪代码,并承诺在发表后发布。 模型权重:承诺在发表后发布预训练模型检查点(在公开研究数据集上)。 数据集:使用200万小时内部数据,未提及公开。 Demo:提供了演示样例的链接 https://sitok-demo.github.io/。 复现材料:提供了非常详细的模型架构(附录A)、训练循环伪代码(附录D.2)、超参数(附录D.3)和评估协议。 依赖的开源项目:论文提到了依赖的开源项目或工具,如Llama Transformer架构、Vocos声码器、Whisper-large-v3用于评估。 📌 核心摘要 本文针对语音标记化器在低比特率下面临的语义编码、声学重建与压缩效率难以兼顾的核心问题,提出了Speech Diffusion Tokenizer (SiTok)。其核心是将向量量化与扩散自编码器进行端到端联合优化,使离散编码既能高度压缩,又与生成式解码器的分布显式对齐。与先前两阶段或仅依赖重建损失的方法相比,SiTok创新性地引入了CTC语义正则化,直接对量化后的潜在空间施加文本监督,迫使离散token保留丰富的语言结构。实验表明,在极端的12.5 Hz token率和200 bits/s比特率下,SiTok在语音重建(如WER 3.34, SIM 0.682)和下游理解任务(如ASR WER 4.95)上均显著优于强基线。此外,通过快捷微调技术,解码步骤可缩减至2-4步而几乎不损质量。该工作为构建统一的语音语言模型提供了一个高效且全面的接口,但其在流式生成和多语言支持上的潜力有待进一步挖掘。 ...