VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency
📄 VoXtream: Full-Stream Text-To-Speech With Extremely Low Latency #语音合成 #自回归模型 #流式处理 #零样本 🔥 8.5/10 | 前25% | #语音合成 | #自回归模型 | #流式处理 #零样本 学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系) 通讯作者:未说明 作者列表:Nikita Torgashov(KTH皇家理工学院,语音、音乐与听觉系)、Gustav Eje Henter(KTH皇家理工学院,语音、音乐与听觉系)、Gabriel Skantze(KTH皇家理工学院,语音、音乐与听觉系) 💡 毒舌点评 亮点:这篇论文最精妙的地方在于,它通过将文本编码器(Phoneme Transformer)设计为增量式,并限制了前瞻长度,巧妙地实现了“收到一个词就开口说”的极低延迟,同时利用单调对齐和分层预测保证了合成质量的连贯性。短板:尽管模型效率很高,但训练数据规模(9k小时)在当下这个“数据为王”的大模型时代只能算中等,这可能限制了其在超大规模、多语言或更复杂说话风格下的泛化能力上限,论文也承认了数据规模是未来工作之一。 📌 核心摘要 问题:当前流式文本转语音(TTS)系统存在较高的初始延迟(从输入文本到发出第一个音素的时间),或需要复杂的多阶段流水线,影响了实时交互体验。 方法核心:提出VoXtream,一个完全自回归的零样本流式TTS模型。其核心是一个三层Transformer架构:(1) 增量音素Transformer(PT)逐步编码输入文本并允许有限前瞻;(2) 时间Transformer(TT)基于音素和过去音频预测语义令牌和时长令牌;(3) 深度Transformer(DT)基于前两者生成声学令牌。关键设计是基于“停留/切换”标志的单调音素对齐预测。 创新点:与先前工作相比,VoXtream首次实现了从接收到第一个词就开始生成语音的增量处理模式,无需等待整个句子或固定数量的未来词。它将文本编码、时序预测和声学生成解耦到三个专用模块中,平衡了延迟与质量。 实验结果:在公开流式TTS模型中达到了最低的首次分组延迟(FPL):102ms(使用torch.compile加速后)。在9k小时数据上训练,其质量(WER, SPK-SIM, UTMOS)可与甚至超越许多使用更大规模数据训练的非流式和流式基线模型。在主观MUSHRA评测中,其流式版本的自然度与部分非流式模型相当。在长文本流式场景下,其自然度显著优于CosyVoice2。 实际意义:为需要极低延迟响应的实时语音应用(如语音助手、同步翻译、对话AI)提供了一个高效且高质量的解决方案,推动了流式语音合成技术的实用化。 主要局限性:训练数据规模(9k小时)中等;在零样本说话人相似度上,仍低于使用更大规模数据和非自回归解码器(如流匹配)的顶级模型(如CosyVoice2);长文本流式合成的稳定性有待进一步验证。 🏗️ 模型架构 VoXtream的架构(见图1)旨在实现从文本流到音频流的端到端、低延迟转换。它由三个核心Transformer模块组成,数据流如下: 图1:VoXtream架构概览。输入文本流被增量地送入Phoneme Transformer(PT)。PT结合有限的未来音素(Look-Ahead)进行编码。其输出被送入时间Transformer(TT),TT联合预测语义令牌(来自Mimi编码器的第一码本)和时长令牌(包含“停留/切换”标志及发音速度信息)。TT的输出和语义令牌被送入深度Transformer(DT),DT结合说话人嵌入,自回归地生成剩余的声学令牌(来自Mimi编码器的第2-12码本)。最后,Mimi解码器将每帧的语义和声学令牌转换为波形。 组件详解: 音素Transformer(Phoneme Transformer, PT):这是一个解码器风格的Transformer,负责将输入的音素序列编码为隐藏表示。其核心创新是增量处理:每收到一个新词,就将其音素加入输入序列并更新隐藏状态,而不是等待整个句子。为了提升韵律自然度,允许PT“向前看”最多N个音素(Look-Ahead, LA),但这个前瞻是有限且延迟最小化的——模型在收到第一个词后立即开始输出,前瞻仅影响后续生成,不阻塞启动。 时间Transformer(Temporal Transformer, TT):这是系统的自回归核心,以步进方式工作。在每个时间步(对应Mimi编码器的一个音频帧,12.5Hz),TT接收:a) 过去生成的音频令牌(第一码本,语义令牌);b) 由MFA对齐工具得到的、与当前时间步对齐的音素序列及其隐藏状态(来自PT)。TT输出两个分类结果: 语义令牌:Mimi编码器的第一码本令牌,代表当前帧的语音内容。 时长令牌:一个二元组 (shift_flag, phoneme_count)。shift_flag(1或0)是“停留/切换”标志,指示下一帧是继续发当前音素(0,停留)还是切换到下一个音素(1,切换)。phoneme_count(1或2)表示当前帧对应的音素数量,用于控制语速(1个音素=慢,2个音素=快)。这种设计实现了单调对齐,确保音频和文本的进度严格同步。 深度Transformer(Depth Transformer, DT):在TT预测出当前帧的语义令牌后,DT负责填充该帧的其余声学细节。它是一个更小的自回归Transformer,以TT的输出嵌入、当前的语义令牌以及一个预训练的说话人嵌入(来自ReDimNet)为条件,自回归地生成Mimi编码器的第2至第12码本的声学令牌。这些令牌共同描述了该帧的详细声学特征。 音频编解码器(Mimi):采用预训练的Mimi流式编解码器。编码器将24kHz的波形编码为多码本令牌(12个码本,帧率12.5Hz)。TT预测第一码本(语义),DT预测其余码本(声学)。解码器能以流式方式将每帧的令牌转换为80ms的音频波形。 整体流程:文本流 → 音素流 → PT增量编码 → TT逐帧预测语义+时长令牌 → DT逐帧填充声学令牌 → Mimi解码器流式输出波形。整个过程是纯自回归的,且文本输入和音频输出是交织进行的,因此实现了极低的首次分组延迟。 ...