手势生成 | 语音/音乐/音频论文速递

📄 Gelina: Unified Speech and Gesture Synthesis Via Interleaved Token Prediction #语音合成 #手势生成 #自回归模型 #流匹配 #多模态模型 ✅ 7.0/10 | 前50% | #语音合成 | #自回归模型 | #手势生成 #流匹配学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）通讯作者：未说明作者列表：Téo Guichoux（ISIR, Sorbonne Université；STMS Lab – IRCAM, Sorbonne Université）， Théodor Lemerle（STMS Lab – IRCAM, Sorbonne Université）， Shivam Mehta（KTH皇家理工学院）， Jonas Beskow（KTH皇家理工学院）， Gustav Eje Henter（KTH皇家理工学院）， Laure Soulier（ISIR, Sorbonne Université）， Catherine Pelachaud（ISIR, Sorbonne Université；CNRS）， Nicolas Obin（STMS Lab – IRCAM, Sorbonne Université） 💡 毒舌点评这篇论文的亮点在于其“交错token预测”的架构设计直觉上非常优雅，为多模态序列建模提供了一个统一且时序对齐的方案，并在同步性上取得了可观的实验结果。然而，其最大的短板在于“统一”的代价——它在语音生成质量上显著落后于最新的纯语音SOTA（如CosyVoice-2），在手势丰富度（如手指）上也进行了简化，这使其宣称的“统一”和“竞争”显得有些取舍过重，更像是一次有潜力的概念验证而非成熟的系统性方案。 ...