An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding

📄 An Ultra-Low Latency, End-to-End Streaming Speech Synthesis Architecture via Block-Wise Generation and Depth-Wise Codec Decoding #语音合成 #端到端 #流式处理 #实时处理 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Tianhui Su 通讯作者:Yannick Estève(推断,通常末位作者为通讯作者) 其他作者:Tien-Ping Tan, Salima Mdhaffar, Aghilas Sini 所属机构:论文摘要中未明确列出作者所属机构。根据论文类别(eess.AS)和作者姓名推测,可能来自法国某大学或研究机构的语音处理实验室,如利勒大学(Université de Lille)的计算机科学实验室(CRIStAL)或类似机构。(推断) 💡 毒舌点评 这篇论文的亮点在于它巧妙地“绕过”了传统语音合成中又慢又容易糊的神经声码器,直接去生成高度压缩的音频“密码本”(离散编码),从而实现了闪电般的合成速度,延迟低到人类几乎感觉不到。槽点嘛,就是论文对训练细节的描述有点“惜字如金”,比如具体用了多少数据、损失函数怎么加权的都没说清楚,这让想复现的同行们有点抓狂。 🔗 开源详情 论文摘要中未提及任何关于开源代码、模型权重、数据集或在线Demo的信息。因此,目前无法确定该项目是否有开源计划。 📌 核心摘要 这篇论文旨在解决实时交互式语音合成中推理延迟高与声学质量(尤其是高频细节)易受损的核心矛盾。传统流水线依赖计算密集的神经声码器进行波形重建,且基于连续回归的声学模型易导致频谱过平滑。为此,作者提出了一种端到端、非自回归的新架构。其核心方法是:直接建模Mimi神经音频编码器的离散潜在空间(32层残差向量量化,RVQ),并采用一种渐进式深度顺序解码策略。该架构以修改版的FastSpeech 2为主干,动态地自回归地生成这些离散编码码,避免了传统自回归模型的时序开销。实验在英语和马来语数据集上验证了其语言通用性。主要发现是,与传统的连续回归模型(FastSpeech 2 + HiFi-GAN)相比,该方法在基频准确性和高频频谱质量上均有提升,并实现了10.6倍的绝对加速,其首字节时间(TTFB)延迟仅为48.99毫秒,远低于人类感知阈值。这使其成为部署超低延迟流式语音交互界面的有力候选方案。 🏗️ 模型架构 该模型是一个完整的端到端文本到波形(Text-to-Waveform)流式合成系统,其核心流程如下: 输入:文本序列(字符或音素)。 文本编码与对齐:输入文本首先通过一个文本编码器(类似于FastSpeech 2)转换为隐层表示。该模块包含音素嵌入层、位置编码和多个Transformer块。关键点在于,它不直接预测连续的梅尔频谱,而是预测与后续离散编码生成相关的中间特征,如音素持续时间、基频(F0)和能量轮廓,用于控制合成语音的韵律。 渐进式深度顺序解码(核心创新): 这是模型的“解码器”部分,负责生成最终的音频表示。它不是一个传统的自回归波形生成器,而是一个非自回归但深度自回归的模块。 结构:该解码器由32个相同的层堆叠而成,每一层对应Mimi编码器中的一个RVQ层级。 工作流程:解码过程是顺序进行的。第1层首先生成第一层RVQ的离散码本索引序列。然后,第2层将第1层的输出(包括其码本嵌入)作为条件输入,生成第二层的码本索引。这个过程依次进行,直到第32层。每一层在生成时,只能“看到”之前所有层已经生成的离散编码信息,而不能看到未来的编码。这种“深度方向”的条件依赖,替代了传统自回归模型在“时间维度”上的依赖,从而实现了并行生成(在同一层内)的同时,保持了高质量表示建模的能力。 离散编码到波形:生成的32层RVQ码本索引序列被送入Mimi音频解码器(一个预训练的、固定的神经声码器),直接合成最终的音频波形。由于Mimi编码器本身具有极高的压缩率,且解码器是轻量级的,这一步非常快。 输出:最终的音频波形流。 关键设计理由: 为何用离散编码?:绕过传统声码器,避免其计算瓶颈和频谱过平滑问题。离散表示更易于非自回归模型建模。 为何用深度顺序解码?:直接并行生成32层离散编码极其困难(组合爆炸)。深度顺序解码将问题分解为32个更简单的子问题,每层只专注于建模当前量化层级的“细节残差”,在模型表达能力和计算复杂度之间取得了平衡。 为何是非自回归骨干?:FastSpeech 2式的非自回归设计(通过时长模型控制对齐)保证了推理速度和流式处理的可行性。 💡 核心创新点 直接建模神经音频编解码器的离散潜在空间: ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 249 words

WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training

📄 WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training #语音对话系统 #强化学习 #端到端 #多模态模型 🔥 评分:8.5/10 | arxiv 👥 作者与机构 第一作者:Yifu Chen(浙江大学) 通讯作者:Zhou Zhao(浙江大学) 其他作者:Shengpeng Ji(浙江大学),Qian Chen(阿里巴巴通义团队),Tianle Liang(浙江大学),Yangzhuo Li(浙江大学),Ziqing Wang(北京工业大学),Wen Wang(阿里巴巴通义团队),Jingyu Lu(浙江大学),Haoxiao Wang(浙江大学),Xueyi Pu(浙江大学),Fan Zhuo(浙江大学) 备注:论文注明 Yifu Chen 和 Shengpeng Ji 贡献相等(These authors contributed equally)。所有作者单位包括:浙江大学、阿里巴巴通义团队、北京工业大学。 💡 毒舌点评 亮点:这篇论文精准地“诊断”出了当前端到端语音对话模型在应用强化学习时“水土不服”的核心病灶——语义和声学的优化目标在统一序列层面相互冲突、梯度能量严重失衡,并开出了一剂“模态分离、动态混合”的有效“处方”。槽点:方法虽然巧妙,但严重依赖一个外部、强大的奖励模型(Gemini-2.5-Pro)来提供信号,这不仅成本高昂,其稳定性和泛化能力本身也存疑,相当于把自家模型的“指挥权”交给了别人。此外,代码和模型权重未开源,让“复现”变成了一个玄学问题。 🔗 开源详情 代码:论文提到项目主页为 https://github.com/MM-Speech/WavAlign,但截至分析时,该链接可能尚未生效或内容未公开。论文中未明确说明代码是否已开源。 模型权重:论文中未提及是否会公开训练后的模型权重。 数据集:论文详细描述了自建数据集的构建方法(附录E),并说明所有训练数据来自公开或自建来源,无内部专有数据。但未提及是否会公开这些处理后的数据集。 预训练权重:方法应用于现有的公开模型(如VITA-Audio, KimiAudio),但未提及是否会发布基于这些模型微调后的权重。 在线Demo:论文中未提及。 依赖的开源项目:论文引用了多个开源数据集和模型(如UltraChat, Llama, Alpaca等)。 📌 核心摘要 这篇论文旨在解决端到端语音对话模型在智能(IQ)和表达力(EQ)上难以同时提升的核心挑战。作者发现,直接对混合文本-语音序列应用统一的偏好优化(如DPO、GRPO)会导致问题:稀疏的偏好信号被淹没在密集的语音token中,造成梯度能量失衡(文本梯度主导),并引发声学分布漂移和自然度下降。为此,论文提出了一种自适应混合后训练框架(WavAlign)。其核心思想是分工协作:使用监督微调(SFT)作为“锚”来稳定和维持语音的自然度与可行性;同时,仅对文本token应用偏好优化(GRPO)来精炼语义智能。更进一步,设计了一个轻量级动态门控机制,根据rollout样本的质量(是否存在可接受样本)和区分度(奖励方差)自适应地调整SFT与偏好优化的混合权重,确保只在偏好信号可靠时进行更新。实验在VITA和KimiAudio两种架构上进行,跨越多个基准测试,结果表明该方法在语义质量和语音表达力上均取得了一致且显著的提升。 🏗️ 模型架构 论文本身不提出新的模型架构,而是提出一种后训练方法,可应用于不同的现有端到端语音对话模型架构。论文研究的模型需具备生成文本和语音两种token的能力。作者概括了三种主流架构: 交织式(Interleaving):模型生成一个单一的、文本与语音token交织的序列。 并行式(Parallel):模型并行生成文本和语音流,两者状态耦合。 思考者-说话者式(Thinker-Talker):将生成过程分解为“思考”(生成文本语义)和“说话”(生成语音)两个阶段。 为了保持方法与架构无关,论文将模型的输出抽象为两个token序列:文本序列 y^T 和语音序列 y^S。模型定义了一个联合条件概率 P_θ(y^T, y^S | x),其对数似然可以按token类型进行分解(公式1)。这个分解是后续进行模态感知优化的理论基础。 ...

2026-04-19 · 更新于 2026-05-20 · 2 min · 284 words