Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction
📄 Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction #语音合成 #手势生成 #自回归模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度 中 👥 作者与机构 第一作者:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université) 通讯作者:未说明 作者列表:Téo Guichoux(ISIR, Sorbonne Université;STMS Lab – IRCAM, Sorbonne Université), Théodor Lemerle(STMS Lab – IRCAM, Sorbonne Université), Shivam Mehta(KTH皇家理工学院), Jonas Beskow(KTH皇家理工学院), Gustav Eje Henter(KTH皇家理工学院), Laure Soulier(ISIR, Sorbonne Université), Catherine Pelachaud(ISIR, Sorbonne Université;CNRS), Nicolas Obin(STMS Lab – IRCAM, Sorbonne Université) 💡 毒舌点评 这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅,为多模态序列建模提供了一个统一且时序对齐的方案,并在同步性上取得了可观的实验结果。然而,其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA(如CosyVoice-2),在手势丰富度(如手指)上也进行了简化,这使其宣称的“统一”和“竞争”显得有些取舍过重,更像是一次有潜力的概念验证而非成熟的系统性方案。 ...