An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding
📄 An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding #语音合成 #端到端 #流式处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tianhui Su 通讯作者:Yannick Estève(推断,通常末位作者为通讯作者) 其他作者:Tien-Ping Tan, Salima Mdhaffar, Aghilas Sini 所属机构:论文摘要中未明确列出作者所属机构。根据论文类别(eess.AS)和作者姓名推测,可能来自法国某大学或研究机构的语音处理实验室,如利勒大学(Université de Lille)的计算机科学实验室(CRIStAL)或类似机构。(推断) 💡 毒舌点评 这篇论文的亮点在于它巧妙地“绕过”了传统语音合成中又慢又容易糊的神经声码器,直接去生成高度压缩的音频“密码本”(离散编码),从而实现了闪电般的合成速度,延迟低到人类几乎感觉不到。槽点嘛,就是论文对训练细节的描述有点“惜字如金”,比如具体用了多少数据、损失函数怎么加权的都没说清楚,这让想复现的同行们有点抓狂。 🔗 开源详情 论文摘要中未提及任何关于开源代码、模型权重、数据集或在线Demo的信息。因此,目前无法确定该项目是否有开源计划。 📌 核心摘要 这篇论文旨在解决实时交互式语音合成中推理延迟高与声学质量(尤其是高频细节)易受损的核心矛盾。传统流水线依赖计算密集的神经声码器进行波形重建,且基于连续回归的声学模型易导致频谱过平滑。为此,作者提出了一种端到端、非自回归的新架构。其核心方法是:直接建模Mimi神经音频编码器的离散潜在空间(32层残差向量量化,RVQ),并采用一种渐进式深度顺序解码策略。该架构以修改版的FastSpeech 2为主干,动态地自回归地生成这些离散编码码,避免了传统自回归模型的时序开销。实验在英语和马来语数据集上验证了其语言通用性。主要发现是,与传统的连续回归模型(FastSpeech 2 + HiFi-GAN)相比,该方法在基频准确性和高频频谱质量上均有提升,并实现了10.6倍的绝对加速,其首字节时间(TTFB)延迟仅为48.99毫秒,远低于人类感知阈值。这使其成为部署超低延迟流式语音交互界面的有力候选方案。 🏗️ 模型架构 该模型是一个完整的端到端文本到波形(Text-to-Waveform)流式合成系统,其核心流程如下: 输入:文本序列(字符或音素)。 文本编码与对齐:输入文本首先通过一个文本编码器(类似于FastSpeech 2)转换为隐层表示。该模块包含音素嵌入层、位置编码和多个Transformer块。关键点在于,它不直接预测连续的梅尔频谱,而是预测与后续离散编码生成相关的中间特征,如音素持续时间、基频(F0)和能量轮廓,用于控制合成语音的韵律。 渐进式深度顺序解码(核心创新): 这是模型的“解码器”部分,负责生成最终的音频表示。它不是一个传统的自回归波形生成器,而是一个非自回归但深度自回归的模块。 结构:该解码器由32个相同的层堆叠而成,每一层对应Mimi编码器中的一个RVQ层级。 工作流程:解码过程是顺序进行的。第1层首先生成第一层RVQ的离散码本索引序列。然后,第2层将第1层的输出(包括其码本嵌入)作为条件输入,生成第二层的码本索引。这个过程依次进行,直到第32层。每一层在生成时,只能“看到”之前所有层已经生成的离散编码信息,而不能看到未来的编码。这种“深度方向”的条件依赖,替代了传统自回归模型在“时间维度”上的依赖,从而实现了并行生成(在同一层内)的同时,保持了高质量表示建模的能力。 离散编码到波形:生成的32层RVQ码本索引序列被送入Mimi音频解码器(一个预训练的、固定的神经声码器),直接合成最终的音频波形。由于Mimi编码器本身具有极高的压缩率,且解码器是轻量级的,这一步非常快。 输出:最终的音频波形流。 关键设计理由: 为何用离散编码?:绕过传统声码器,避免其计算瓶颈和频谱过平滑问题。离散表示更易于非自回归模型建模。 为何用深度顺序解码?:直接并行生成32层离散编码极其困难(组合爆炸)。深度顺序解码将问题分解为32个更简单的子问题,每层只专注于建模当前量化层级的“细节残差”,在模型表达能力和计算复杂度之间取得了平衡。 为何是非自回归骨干?:FastSpeech 2式的非自回归设计(通过时长模型控制对齐)保证了推理速度和流式处理的可行性。 💡 核心创新点 直接建模神经音频编解码器的离散潜在空间: ...