Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features
📄 Wave-Trainer-Fit: Neural Vocoder With Trainable Prior And Fixed-Point Iteration Towards High-Quality Speech Generation From SSL Features #语音合成 #生成模型 #自监督学习 #扩散模型 #鲁棒性 ✅ 7.0/10 | 前25% | #语音合成 | #生成模型 | #自监督学习 #扩散模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Hien Ohnaka(Nara Institute of Science and Technology) 通讯作者:未说明 作者列表: Hien Ohnaka(Nara Institute of Science and Technology) Yuma Shirahata(LY Corporation, Tokyo, Japan) Masaya Kawamura(LY Corporation, Tokyo, Japan) 💡 毒舌点评 亮点:该工作敏锐地抓住了将基于梅尔谱设计的声码器(WaveFit)迁移到SSL特征时遇到的两个核心痛点(初始噪声和增益调整),并提出了优雅的解决方案。在说话人相似度指标(S-MOS)上取得了显著且一致的提升,尤其是使用Whisper特征时,这证明了方法的有效性。短板:方法在自然度(N-MOS)上的表现并不稳定,甚至在使用某些SSL特征时被基线反超,这暗示了“可训练先验”可能引入了新的不稳定性或对超参数过于敏感,论文对此的讨论和验证尚不充分。 ...