ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference
📄 ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference #语音合成 #流匹配 #自监督学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Chunyat Wu(香港中文大学) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong(所有作者均来自香港中文大学,香港,中国) 💡 毒舌点评 亮点:这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中,条件编码器的输出在不同去噪步之间可以安全地重复使用,从而在几乎不损失质量的前提下将推理速度提升了数倍(RTF从0.31降至0.09),这个发现极具实用价值。短板:虽然“语义对齐器”被设计为核心,但论文对其内部学习到的对齐质量缺乏直接、可视化的分析(例如对齐矩阵图),其对合成语音“时序稳定性”的贡献更多是间接推断,说服力可以更强。 📌 核心摘要 问题:当前基于扩散/流匹配的非自回归TTS系统面临两大挑战:1)文本与语音之间复杂、灵活的对齐关系难以有效建模;2)迭代去噪过程带来高昂的计算开销,推理速度慢。 方法:本文提出ARCHI-TTS,一种非自回归架构。核心方法包括:a) 语义对齐器:通过一个Transformer编码器,将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互,从而端到端地学习出对齐的语义表征,无需显式时长标注。b) 高效推理策略:在条件流匹配的解码器中,将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出,在多个去噪步骤间共享(重用),避免了每一步都重新计算,从而大幅提升推理效率。 创新:与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同,ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练(如DMDSpeech)的加速方法不同,本文的加速策略是训练无关的,直接来自对模型架构特性的洞察。 主要实验结果: 在LibriSpeech-PC test-clean上,WER为1.98%,SSIM为0.70,RTF为0.21(单卡3090)。 在SeedTTS test-en上,WER为1.47%,SSIM为0.68。 在SeedTTS test-zh上,WER为1.42%,SSIM为0.70。 使用75%共享比例时,在NFE=32下,WER仍保持1.98%,RTF降至0.09。 MOS主观评测中,其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。 模型 参数量 训练数据 WER(%)↓ SSIM↑ RTF↓ 测试集 F5-TTS 336M 100K Multi. 2.42 0.66 0.31 LibriSpeech-PC test-clean ARCHI-TTS 289M 100K Multi. 1.98 0.70 0.21 LibriSpeech-PC test-clean F5-TTS - - 1.83 0.67 - SeedTTS test-en ARCHI-TTS - - 1.47 0.68 - SeedTTS test-en DiTAR - - 1.02 0.75 - SeedTTS test-zh ARCHI-TTS - - 1.42 0.70 - SeedTTS test-zh (图1:ARCHI-TTS整体架构概览图,展示了语义对齐器、条件编码器、速度解码器及数据流。) ...