PersonaGesture: Single-Reference Co-Speech Gesture Personalization for Unseen Speakers

📄 PersonaGesture: Single-Reference Co-Speech Gesture Personalization for Unseen Speakers #协同手势生成 #扩散模型 #说话人风格个性化 #无更新推理 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #协同手势生成 #说话人风格个性化 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 👥 作者与机构 第一作者:Xiangyue Zhang(东京大学,Shanda AI Research Tokyo) 通讯作者:未明确标注,根据署名顺序推测可能为 Xiangyue Zhang 或 Haiyang Liu。 作者列表: Xiangyue Zhang (The University of Tokyo, Shanda AI Research Tokyo) Yiyi Cai (Shanda AI Research Tokyo) Kunhang Li (The University of Tokyo) Kaixing Yang (Renmin University) You Zhou (Shanda AI Research Tokyo) Zhengqing Li (Shanda AI Research Tokyo) Xuangeng Chu (The University of Tokyo, Shanda AI Research Tokyo) Jiaxu Zhang (Nanyang Technological University) Haiyang Liu (The University of Tokyo) 💡 毒舌点评 亮点:将单样本个性化拆解为“去噪时风格注入”和“生成后统计校正”两步,理论优雅且切中实际痛点(参考片段混合身份与内容信息)。短板:尽管声称“无需测试时更新”,但其ASI模块(Stage 2)的训练仍依赖于特定任务和数据集预训练的骨干网络,距离通用“开箱即用”个性化器尚有距离。此外,论文虽承诺可发布代码,但未提供任何实现,其宣称的易用性目前缺乏验证。 ...

2026-05-09 · 更新于 2026-05-19 · 3 min · 520 words

语音/音频论文速递 2026-05-09

语音/音频论文速递 2026-05-09 共分析 3 篇论文 ⚡ 今日概览 📥 抓取 3 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #跨模态 1篇 █ #音频生成 1篇 █ #移动代理 1篇 █ 📊 论文评分排行榜(3 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Audio-Visual Intelligence in Large Foundation Models 8.0分 前25% #跨模态 🥈 PersonaGesture: Single-Reference Co-Speech Gesture Pers 7.0分 前25% #音频生成 🥉 X-OmniClaw Technical Report: A Unified Mobile Agent for 6.5分 前50% #移动代理 📋 论文列表 🥇 Audio-Visual Intelligence in Large Foundation Models 🔥 8.0/10 | 前25% | #跨模态 | #预训练 | #多模态模型 #生成模型 | arxiv ...

2026-05-09 · 更新于 2026-05-19 · 3 min · 427 words