MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis
📄 MELA-TTS: Joint Transformer-Diffusion Model with Representation Alignment for Speech Synthesis #语音合成 #扩散模型 #自回归模型 #端到端 #零样本 ✅ 7.0/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #端到端 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Keyu An(Alibaba group) 通讯作者:Zhiyu Zhang(National Mobile Communications Research Laboratory, Southeast University) 作者列表:Keyu An⋆(Alibaba group)、Zhiyu Zhang⋆†(Alibaba group, National Mobile Communications Research Laboratory, Southeast University)、Changfeng Gao⋆(Alibaba group)、Yabin Li⋆(Alibaba group)、Zhendong Peng⋆(Alibaba group)、Haoxu Wang⋆(Alibaba group)、Zhihao Du⋆(Alibaba group)、Han Zhao⋆(Alibaba group)、Zhifu Gao⋆(Alibaba group)、Xiangang Li⋆(Alibaba group) 注:⋆表示Alibaba group,†表示National Mobile Communications Research Laboratory, Southeast University。第一作者和通讯作者基于论文标题下方作者列表顺序及贡献说明(“The first two authors contribute equally to this work.”)判断。 💡 毒舌点评 亮点在于用“表示对齐”模块巧妙地借用了预训练ASR编码器的语义知识来指导自回归模型生成更连贯的语义表示,确实显著加速了收敛并提升了内容一致性(WER大幅下降)。但其声称的“端到端”仍依赖预训练的说话人编码器和ASR编码器进行对齐,且声音克隆的说话人相似度(SS)在英文测试集上反而弱于其主要对比基线CosyVoice,暴露了该架构在全局声学上下文利用上的短板。 ...