Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation
📄 Gogo: Group-wise granularity-ordered codec for stable and efficient speech generation #语音合成 #语音编解码 #流匹配 #自回归模型 #语音大模型 ✅ 7.5/10 | 前25% | #语音合成 | #语音编解码 | #流匹配 #自回归模型 学术质量 7.0/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Weidong Chen (The Chinese University of Hong Kong) 通讯作者:Xixin Wu (The Chinese University of Hong Kong) 作者列表:Weidong Chen(The Chinese University of Hong Kong)、Helen M. Meng(The Chinese University of Hong Kong)、Xixin Wu(The Chinese University of Hong Kong) 💡 毒舌点评 这篇工作最大的亮点在于将“组”作为语音量化的基本单元,并系统性地设计了粗细有序的token序列,这确实比传统逐帧量化更适合后续的语言模型建模,逻辑自洽且实验支撑有力。然而,其核心的token分配器虽然有效,但训练方法(GRPO)的引入略显“重”,对于一个动态分配离散资源的简单策略问题,是否有更轻量优雅的解法值得商榷,且论文最终未能开源代码,让这套精心设计的系统停留在了“可望”的层面。 ...