ICASSP 2026 - 语音驱动动作生成 论文列表
ICASSP 2026 - 语音驱动动作生成 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Style-Disentangled Diffusion for Controllable and Identity-G 7.0分 前25% 📋 论文详情 🥇 Style-Disentangled Diffusion for Controllable and Identity-Generalized Speech-Driven Body Motion Generation ✅ 7.0/10 | 前25% | #语音驱动动作生成 | #扩散模型 | #对比学习 #解耦学习 👥 作者与机构 第一作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院) 通讯作者:Zhitong He, Qiguang Miao(西安电子科技大学计算机科学与技术学院) 作者列表:Zixiang Lu(西安电子科技大学计算机科学与技术学院)、Zhitong He(西安电子科技大学计算机科学与技术学院)、Zixuan Wang(未说明)、Yunan Li(未说明)、Qiguang Miao(西安电子科技大学计算机科学与技术学院) 💡 毒舌点评 亮点:风格解耦模块的设计很巧妙,通过对比学习拉近同一说话人风格码的距离,并用梯度反转从内容特征中剥离身份信息,理论上提升了可控性和可解释性。短板:论文声称的“Identity-Generalized”能力仅在单一数据集(BEATX)的同一说话人测试集上进行定量评估,缺乏跨数据集或对未知说话人的严格泛化验证,说服力稍显不足。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的BEATX数据集,论文中未说明是否提供其他自定义数据。 Demo:未提及在线演示。 复现材料:论文给出了损失函数的权重配置,但缺少训练超参数、模型架构细节等关键复现信息。 论文中引用的开源项目:未在正文中明确引用特定开源项目。方法部分参考了Syntalker [11]的分割策略,数据集使用了BEATX [12]。 论文中未提及开源计划。 📌 核心摘要 ...