Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens
📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度 中 👥 作者与机构 第一作者:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者:未说明 作者列表:Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评 亮点:这篇论文直击语音翻译中“翻译腔”这一痛点,用“解耦-传递”的巧思,将困扰领域多年的“韵律平行数据缺失”问题绕了过去,思路清晰且效果显著。短板:研究略显“工程化”,虽然提出了巧妙的对齐机制,但过度依赖一个外部强大且未开源的解耦编解码器(FACodec),且实验仅验证了两个语言对,在更复杂语系或低资源场景下的鲁棒性存疑。 ...