UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction
📄 UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction #自监督学习 #多语言 #语音合成 #低资源 8.1/10 | 创新 8/2 | 严谨 7/1.5 | 实验 9/1.5 | 清晰 8/1 | 影响 8/1.5 | 开源 7/1.5 | 复现 8/0.5 | 工程 8/1.5 🔥 8.1/10 | 前25% | #语音合成 | #自监督学习 | #多语言 #低资源 | arxiv 👥 作者与机构 作者:Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang 机构:延世大学电子与电气工程系,首尔,韩国 💡 毒舌点评 这篇论文选题重要,想法直白有效(用罗马化替代G2P来扩展语言覆盖面),实验量也足够撑起一个“大规模”的宣称。但细看之下,作者的论证有些“偷懒”。罗马化这个核心决策本身带来的信息损失和对齐歧义问题,他们只是轻描淡写地提了一句,完全没有深入分析。你号称覆盖495种语言(表格里写1162,正文495,数据对不上?),但对那些音系复杂的语言,比如声调语言或含有送气/非送气对立的语言,罗马化到底丢了多少关键信息?STP目标真的补回来了吗?作者没给证据。另外,所有下游微调都绑死在VITS上,UR-BERT作为一个“通用”编码器,在其他TTS架构上是否依然坚挺?这个实验没做。最让我不爽的是,缺乏一个关键的消融基线:在同样罗马化文本上,只做纯文本MLM而不加STP的BERT。没有这个对比,你STP到底贡献了多大价值,是骡子是马没法完全说清楚。实验设计整体不错,但关键的自我剖析和更严格的对照缺失了,让其“重大贡献”的宣称打了点折扣。 ...