JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation #音视频生成 #流匹配 #扩散模型 #多模态模型 ✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kai Liu, Yanhao Zheng, Kai Wang(共同第一作者) Kai Liu:浙江大学,与HiThink Research有关 Yanhao Zheng:未明确说明机构 Kai Wang:多伦多大学 通讯作者:Hao Fei(新加坡国立大学) 作者列表: Kai Liu (浙江大学, HiThink Research) Yanhao Zheng (未说明具体机构) Kai Wang (多伦多大学) Shengqiong Wu (新加坡国立大学) Rongjunchen Zhang (HiThink Research) Jiebo Luo (罗切斯特大学) Dimitrios Hatzinakos (多伦多大学) Ziwei Liu (南洋理工大学) Hao Fei (新加坡国立大学,通讯作者) Tat-Seng Chua (新加坡国立大学) 💡 毒舌点评 论文的最大亮点在于提出了一个简洁且高效的统一框架(MS-MoE + TA-RoPE),显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而,所有实验仅在标准学术基准(JavisBench)上进行,缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证,其声称的“里程碑”意义有待更广泛的应用场景检验。 ...