JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization #音频生成 #多模态模型 #扩散模型 #Transformer #基准测试 🔥 8.0/10 | 前25% | #音频生成 | #扩散模型 #Transformer | #多模态模型 #扩散模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Liu (Zhejiang University, National University of Singapore) (论文中Kai Liu标注为*,表示同等贡献,且为列出的第一个作者) 通讯作者:Hao Fei (National University of Singapore) (论文中标注为†) 作者列表: Kai Liu (Zhejiang University, National University of Singapore) Wei Li (University of Science and Technology of China) Lai Chen (Zhejiang University) Shengqiong Wu (National University of Singapore) Yanhao Zheng (Zhejiang University) Jiayi Ji (National University of Singapore) Fan Zhou (Zhejiang University) Jiebo Luo (University of Rochester) Ziwei Liu (Nanyang Technological University) Hao Fei (National University of Singapore) Tat-Seng Chua (National University of Singapore) 💡 毒舌点评 这篇论文的亮点在于其“分层时空先验估计器”设计得相当巧妙,直指当前联合音视频生成“只知大概、不晓细节”的同步痛点,并为此精心打造了一个更具挑战性的真实世界基准数据集JavisBench。然而,短板也很明显:一个追求实时应用的生成模型,其推理效率在附录表格中暴露无遗(生成4秒视频需30秒),在“生成速度与质量”的权衡上显然更偏向了后者。 ...