Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens
📄 Audience-Aware Co-speech Gesture Generation in Public Speaking via Anticipation Tokens #跨模态 #扩散模型 #多模态模型 #音频生成 🔥 8.0/10 | 前50% | #音频生成 | #扩散模型 | #跨模态 #多模态模型 学术质量 6.3/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Huan-Yu Chen (台湾新竹清华大学电机系) 通讯作者:Chi-Chun Lee (台湾新竹清华大学电机系) 作者列表:Huan-Yu Chen (台湾新竹清华大学电机系), Woan-Shiuan Chien (台湾新竹交通大学电机与计算机工程研究所), Chi-Chun Lee (台湾新竹清华大学电机系) 💡 毒舌点评 这篇论文的亮点在于其问题重构的视角——将公共演讲手势生成从“单向语音到手势”的映射,转变为包含观众预期的“互动式”生成,这为该领域注入了新的思考维度。然而,其短板也较为明显:一是性能提升主要体现在FGD和BC上,但牺牲了手势多样性(Diversity指标下降),且面部表情生成效果改善有限;二是作为一篇顶会论文,完全没有提供任何代码或模型资源,这在强调可复现性的今天,无疑削弱了其学术贡献的落地价值和社区影响力。 🔗 开源详情 代码:论文中未提及代码仓库链接。 模型权重:未提及公开权重。 数据集:论文描述了如何从公开来源(TED Talks, The Daily Show)构建数据集,但未提及是否会发布处理后的、带有笑声锚点标注和特征提取的专用数据集。 Demo:未提供在线演示。 复现材料:论文提供了较为详细的训练细节,包括:数据集规模、视频帧率(15fps)、片段长度(5秒:1秒前缀+4秒预测)、笑声检测阈值(0.5)、优化步数(400k)、batch size(64)、学习率(1e-4)、硬件(单卡A100 80GB,训练2天)。这些信息对复现有较大帮助。 论文中引用的开源项目:主要依赖预训练模型WavLM(未指明具体版本或链接)、身体/面部姿态估计工具PyMAF-X和SmoothNet、以及笑声检测器(引用[9]但未具体说明)。 开源计划:论文中未提及任何开源计划。 📌 核心摘要 问题:现有的协同语音手势生成方法大多将公共演讲视为单说话人任务,忽略了观众的存在及其与演讲者之间的动态交互。这种简化视图无法捕捉公共演讲中演讲者主动预期并引发观众反应的关键特征。 方法核心:提出一个观众感知的协同语音手势生成框架。核心是引入“观众响应预期令牌”,该令牌编码了即将发生的观众反应(如笑声)的符号化信息。该令牌与语音特征在预训练的语音编码器中进行早期融合,融合后的条件嵌入通过跨注意力机制指导一个基于扩散的生成器合成手势。 新意:与已有方法相比,新在三个方面:(1) 理论上,将单说话人手势生成重新定义为演讲者与观众预期的联合建模问题;(2) 方法上,通过符号化的预期令牌和早期融合策略,显式地建模了演讲者的“预期”心理状态;(3) 实验上,构建了一个包含正负样本(反应前/非反应)的对比数据集用于训练预期令牌。 实验结果:在TED Talks和The Daily Show两个数据集上的实验表明,该方法在手势真实度(FGD)和语音-手势同步性(BC)指标上优于多数基线方法。消融实验表明,将预期令牌在语音表征阶段进行早期融合或作为控制信号的中期融合,效果优于在扩散生成阶段进行后期融合。具体数值见下表: 模型 数据集 FGD ↓ BC ↑ Diversity ↑ MSE ↓ LVD ↓ DiP (最强基线) TED Talks 0.646 0.613 62.35 11.58 10.77 本文方法 TED Talks 0.633 0.617 61.29 11.85 10.55 DiffSHEG (最强基线) The Daily Show 0.726 0.633 60.24 10.25 9.256 本文方法 The Daily Show 0.721 0.662 60.12 10.56 9.741 实际意义:为公共演讲、在线教育、虚拟主播等场景下的手势生成提供了更符合社交互动本质的建模思路,有望提升虚拟人或机器人的表现力和自然度。 主要局限:模型在提升真实度和同步性的同时,可能限制了生成手势的多样性;对更细微的面部表情生成效果提升有限;实验仅基于观众笑声这一种预期信号,且依赖预先检测,未在闭环或更动态的交互中验证。 🏗️ 模型架构 模型整体架构(如图1所示)是一个基于扩散的、条件生成的框架,主要包含三个部分:语音与预期编码器、条件融合模块、扩散手势生成器。 ...