Syncspeech: Efficient and Low-Latency Text-to-Speech Based on Temporal Masked Transformer
📄 Syncspeech: Efficient and Low-Latency Text-to-Speech Based on Temporal Masked Transformer #语音合成 #自回归模型 #流式处理 #预训练 #多语言 ✅ 7.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #预训练 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Zhengyan Sheng(中国科学技术大学) 通讯作者:Liping Chen(中国科学技术大学) 作者列表:Zhengyan Sheng(中国科学技术大学),Zhihao Du(未说明具体机构,标注为独立研究者),Shiliang Zhang(未说明具体机构,标注为独立研究者),Zhijie Yan(未说明具体机构,标注为独立研究者),Liping Chen(中国科学技术大学) 💡 毒舌点评 SyncSpeech 巧妙地将自回归模型的“时序感”与非自回归模型的“并行力”结合,通过一个统一的TMT框架在低延迟和高效率上取得了显著突破,特别是在中文场景下效果惊艳。不过,其语音质量本身并未超越已有的顶尖AR模型(如CosyVoice2),创新更多体现在生成范式的效率优化而非合成质量的绝对提升,且实验场景相对单一。 📌 核心摘要 问题:现有文本到语音(TTS)模型面临两难:自回归(AR)模型生成效率低,而非自回归(NAR)模型因无序生成导致首包延迟高,难以用于流式场景。 方法核心:提出SyncSpeech模型和Temporal Masked Transformer(TMT)范式。TMT在训练时通过随机截断和掩码,模拟接收流式文本并预测对应语音片段;推理时,每收到一个文本词(BPE token),即可一步并行生成其对应的全部语音token及下一个文本词的时长,实现“文本同步”生成。 与已有方法不同:TMT将AR模型的有序生成与NAR模型的并行预测统一在一个解码步骤中。其时间复杂度从与语音序列长度T线性相关(AR)降低为与文本序列长度L线性相关(L≪T),从而大幅提升效率并降低延迟。此外,引入了高概率掩码预训练和混合注意力机制(结合因果与双向)。 主要实验结果:在LibriSpeech(英文)和SeedTTS(中文)基准上,SyncSpeech在语音质量(WER, SS, MOS)上与强AR基线CosyVoice2持平。关键突破在于延迟和效率: 首包延迟(FPL-A):比AR模型分别降低 3.7倍(英文) 和 5.8倍(中文)。 实时率(RTF):比AR模型分别提升 6.4倍(英文) 和 8.8倍(中文)。 流式设置下(FPL-L),在假设接入Qwen-7B LLM时,延迟优势更为明显。 实际意义:为构建与大语言模型无缝对接、支持超低延迟交互的语音合成系统提供了一个高效基础架构,有望推动实时语音助手、辅助通信等应用的发展。 主要局限性:语音自然度与音色相似性相较于最强基线无提升;评估主要在标准数据集上进行,未验证在嘈杂环境、多样化风格或极端低资源场景下的表现;依赖上游的强制对齐工具。 🏗️ 模型架构 SyncSpeech采用两阶段架构:文本到词元(Text-to-Token)模型和词元到语音(Token-to-Speech)模型。核心创新在于前者提出的TMT。 ...