Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels
📄 Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels #音视频 #扩散模型 #多模态模型 #数据集 #全双工交互 🔥 评分:9.0/10 | arxiv 👥 作者与机构 第一作者:Yuzhe Weng (翁宇哲),中国科学技术大学 (USTC) 通讯作者:Jun Du (杜俊),中国科学技术大学 (USTC),邮箱:jundu@ustc.edu.cn 其他作者: Haotian Wang (王浩天),中国科学技术大学 (USTC) Xinyi Yu (余欣怿),中国科学技术大学 (USTC) Xiaoyan Wu (吴晓燕),科大讯飞 (iFLYTEK) Haoran Xu (徐浩然),科大讯飞 (iFLYTEK) Shan He (何山),科大讯飞 (iFLYTEK) 💡 毒舌点评 亮点:用“多尺度高斯核注意力”这个优雅的数学工具,把“看口型”和“懂语境”这两个打架的脑区给整合到一个模型里了,思路清晰又有效。槽点:虽然建模了上半身反应,但离生成真正富有表现力的、带手势的全身交互动作还有距离,算是给未来挖了个大坑。 📌 核心摘要 本文旨在解决从单向“独白”式虚拟人生成迈向自然“全双工”交互式生成的核心挑战。核心问题在于,现有方法要么因严格的帧对齐而反应僵硬,要么因引入全局注意力而破坏唇同步。关键方法是提出一个基于多头高斯核(MHGK)的统一注意力架构,该机制通过为不同的注意力头分配从窄到宽的高斯分布感受野,使模型能同时学习精细的唇形对齐(窄感受野)和长程的对话上下文(宽感受野)。此外,论文构建了双流架构以处理同步的说话与聆听音频,并引入任意位置引导训练策略以提升长视频生成的稳定性。为支撑研究,还构建了大规模、音视频解耦的对话数据集VoxHear(1206小时)。主要发现表明,该方法在唇同步精度、身份保持、视觉质量和用户感知自然度等多个维度上均显著优于现有技术。实际意义在于为构建能理解对话上下文并做出自然反应的下一代交互式数字人提供了坚实的技术框架和数据基础。局限性在于目前主要聚焦于上半身反应,对更复杂全身姿态和手势的生成能力有待探索。 🏗️ 模型架构 本模型是一个基于流匹配(Flow Matching) 和扩散Transformer(DiT) 的端到端视频生成框架,旨在根据一张参考肖像图、一段说话音频和一段聆听音频,生成对应的交互式视频。 整体流程: 输入:参考图像 I_ref,说话音频序列 A_talk,聆听音频序列 A_listen。 音频编码与注入: 使用预训练的Wav2Vec 2.0编码器提取两路音频的多层特征。 设计独立的自适应音频Q-Former(Talking和Listening分支各一个)对音频特征进行压缩和跨模态对齐。每个Q-Former在时间窗口内使用可学习的查询(Queries)通过交叉注意力聚合音频特征。这允许两路音频自适应地融合不同层次的语义信息,并为分类器自由引导(CFG)生成更平滑的无条件嵌入。 编码后的音频特征通过3D时空交叉注意力注入到视频潜在表示中,使用1D旋转位置编码(RoPE) 保持时序对齐。 核心注意力机制 - 多头高斯核(MHGK): 在计算视频与音频的交叉注意力时,为每个注意力头 h 引入一个高斯时序偏置矩阵 B^(h)。 该矩阵 B^(h)(i, j) = α_h * (1 - exp(-(i-j)^2 / (2σ_h^2))) 作为距离惩罚项加入注意力分数中。其中 σ_h 控制感受野宽度,α_h 控制惩罚强度。 通过为不同头设置不同的 σ_h,模型能动态分配感受野:σ_h → 0 时,退化为严格局部注意力,确保唇同步;σ_h → ∞ 时,偏置趋近于0,变为全局注意力,用于捕捉上下文语义和情感。 视频生成与解码: 模型基于Wan2.2-5B DiT骨干网络,使用其VAE将视频压缩为潜在表示。 训练目标是最小化流匹配损失:L_FM = E[||v_θ(x_t, t, c) - (x_1 - x_0)||^2],其中 c 包含参考图像和双路音频条件。 推理时,从噪声 x_0 出发,通过求解常微分方程(ODE)逐步去噪得到生成视频 x_1。 训练策略 - 两阶段增量训练: 阶段一(说话优先):仅使用说话音频适配器,在大规模单人说话数据上训练,让模型先掌握精确的唇同步和自然的说话行为。 阶段二(聆听融合):引入聆听音频适配器,在VoxHear数据集上微调,使模型学会在保持说话能力的同时,对聆听音频做出自然的交互反应。 💡 核心创新点 多头高斯核(MHGK)注意力机制: ...