ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference
📄 ARCHI-TTS: A Flow-Matching-Based Text-to-Speech Model with Self-Supervised Semantic Aligner and Accelerated Inference #语音合成 #流匹配 #自监督学习 #零样本 #多语言 🔥 8.0/10 | 前25% | #语音合成 | #流匹配 | #自监督学习 #零样本 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Chunyat Wu(香港中文大学) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Chunyat Wu, Jiajun Deng, Zhengxi Liu, Zheqi Dai, Haolin He, Qiuqiang Kong(所有作者均来自香港中文大学,香港,中国) 💡 毒舌点评 亮点:这篇论文最大的“工程巧思”在于发现了非自回归流式解码器中,条件编码器的输出在不同去噪步之间可以安全地重复使用,从而在几乎不损失质量的前提下将推理速度提升了数倍(RTF从0.31降至0.09),这个发现极具实用价值。短板:虽然“语义对齐器”被设计为核心,但论文对其内部学习到的对齐质量缺乏直接、可视化的分析(例如对齐矩阵图),其对合成语音“时序稳定性”的贡献更多是间接推断,说服力可以更强。 🔗 开源详情 代码:论文明确指出“code are publicly available”,并提供了项目主页链接 https://archimickey.github.io/architts ,但论文PDF中未给出具体的GitHub等代码仓库链接。 模型权重:论文中未提及是否公开模型权重。 数据集:使用的是公开数据集(Emilia, LibriHeavy, LibriTTS)。 Demo:项目主页上应包含音频样本(Audio samples)。 复现材料:提供了详细的模型架构描述、超参数设置(如层数、学习率、批次大小、损失函数权重)、训练硬件和时长等关键信息,有利于复现。 论文中引用的开源项目:主要依赖和参考了Emilia数据集、ConvNeXt V2(用于文本编码)、Stable Audio的VAE架构、以及用于提取说话人嵌入的CAM++模型。 总结:论文有明确的开源计划和部分复现信息,但开源信息(特别是代码链接和模型权重)在提供的PDF中不完整。 📌 核心摘要 问题:当前基于扩散/流匹配的非自回归TTS系统面临两大挑战:1)文本与语音之间复杂、灵活的对齐关系难以有效建模;2)迭代去噪过程带来高昂的计算开销,推理速度慢。 方法:本文提出ARCHI-TTS,一种非自回归架构。核心方法包括:a) 语义对齐器:通过一个Transformer编码器,将文本特征与长度等于目标语音帧数的、可学习的“掩码嵌入”序列进行交互,从而端到端地学习出对齐的语义表征,无需显式时长标注。b) 高效推理策略:在条件流匹配的解码器中,将负责编码文本、说话人、参考音频等条件的“条件编码器”部分的输出,在多个去噪步骤间共享(重用),避免了每一步都重新计算,从而大幅提升推理效率。 创新:与E2-TTS、F5-TTS等通过填充字符来实现隐式对齐的方法不同,ARCHI-TTS显式设计了一个对齐模块。与需要额外蒸馏训练(如DMDSpeech)的加速方法不同,本文的加速策略是训练无关的,直接来自对模型架构特性的洞察。 主要实验结果: 在LibriSpeech-PC test-clean上,WER为1.98%,SSIM为0.70,RTF为0.21(单卡3090)。 在SeedTTS test-en上,WER为1.47%,SSIM为0.68。 在SeedTTS test-zh上,WER为1.42%,SSIM为0.70。 使用75%共享比例时,在NFE=32下,WER仍保持1.98%,RTF降至0.09。 MOS主观评测中,其自然度和说话人相似度与F5-TTS和CosyVoice2处于竞争水平。 模型 参数量 训练数据 WER(%)↓ SSIM↑ RTF↓ 测试集 F5-TTS 336M 100K Multi. 2.42 0.66 0.31 LibriSpeech-PC test-clean ARCHI-TTS 289M 100K Multi. 1.98 0.70 0.21 LibriSpeech-PC test-clean F5-TTS - - 1.83 0.67 - SeedTTS test-en ARCHI-TTS - - 1.47 0.68 - SeedTTS test-en DiTAR - - 1.02 0.75 - SeedTTS test-zh ARCHI-TTS - - 1.42 0.70 - SeedTTS test-zh (图1:ARCHI-TTS整体架构概览图,展示了语义对齐器、条件编码器、速度解码器及数据流。) ...