RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer
📄 RAP: Real-Time Audio-Driven Portrait Animation with Video Diffusion Transformer #音视频 #扩散模型 #流匹配 #DiT ✅ 7.0/10 | 前25% | #音视频 | #扩散模型 | #流匹配 #DiT 学术质量 4.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology) (论文标注为共同第一作者) 通讯作者:Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) (论文标注为共同通讯作者,且Siyuan Liu为项目负责人) 作者列表:Fangyu Du (Soul AI, Xi’an Jiaotong University), Taiqing Li (Soul AI, Dalian University of Technology), Qian Qiao (Soul AI), Tan Yu (Soul AI), Dingcheng Zhen (Soul AI), Ziwei Zhang (Soul AI), Xu Jia (Dalian University of Technology), Yang Yang (Xi’an Jiaotong University), Shunshun Yin (Soul AI), Siyuan Liu (Soul AI) 💡 毒舌点评 这篇论文在“实时”这个硬约束下,非常工程化地解决了高压缩潜在空间中的唇形同步和长视频生成漂移这两个核心痛点,展现了不错的系统设计能力。但其核心创新(混合注意力和训练策略)更多是针对特定问题的有效工程组合,而非开辟新范式;此外,虽然强调实时,但高压缩率(LTX-VAE)对图像纹理细节的潜在损失并未被深入讨论,这可能是其实时性与质量权衡中一个未被充分审视的代价。 ...