PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion
📄 PFluxTTS: Hybrid Flow-Matching TTS with Robust Cross-Lingual Voice Cloning and Inference-Time Model Fusion #语音合成 #语音克隆 #流匹配 #多语言 #零样本 ✅ 7.0/10 | 前50% | #语音合成 | #流匹配 | #语音克隆 #多语言 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Vikentii Pankov(Rask AI, USA) 通讯作者:未说明 作者列表:Vikentii Pankov(Rask AI, USA)、Artem Gribul(Rask AI, USA)、Oktai Tatanov(Rask AI, USA)、Vladislav Proskurov(Rask AI, USA)、Yuliya Korotkova(École Polytechnique, France)、Darima Mylzenova(TBC Bank, Uzbekistan)、Dmitrii Vypirailenko(Rask AI, USA) 💡 毒舌点评 亮点:将“稳定性”和“自然性”这对矛盾通过一个优雅的推理时融合策略(α(t)调度)进行调和,是解决Flow-Matching TTS痛点的务实且有效的工程创新。短板:实验中声称使用的部分开源基线(如ChatterBox)训练数据规模远大于本文,这种“田忌赛马”式的对比,虽凸显了方法效率,但也可能掩盖了数据量对上限的决定性影响,结论的泛化性需打个问号。 ...