Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation

📄 Unison: Harmonizing Motion, Speech, and Sound for Human-Centric Audio-Video Generation #多模态生成 #音视频同步 #语音-音效协调 #流匹配 #扩散模型 ✅ 6.5/10 | 前30% | #音视频生成 | #流匹配 | #多模态生成 #音视频同步 | arxiv 学术质量 6.5/8 | 影响力 0.7/2 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Shihao Cheng, Jiaxu Zhang(论文标注为共同第一作者 ⋆) 通讯作者:Zhigang Tu, Xuelong Li(论文标注为共同通讯作者 ‡) 作者列表:Shihao Cheng, Jiaxu Zhang, Quanyue Song, Shansong Liu†, Zhizhi Guo, Xiaolei Zhang, Chi Zhang, Xuelong Li‡, Zhigang Tu‡(所有作者的具体所属机构在论文正文中未详细说明,仅在脚注中标注贡献角色) 💡 毒舌点评 该工作精准定位了人类中心音视频生成中“语音压制音效”和“运动-音画不同步”两大痛点,并提出了一套设计感强、工程化程度高的框架(语义引导协调+双向强制)。尤其在音频分支的精细解耦与控制上展现了巧思,实验结果在音频保真度和同步性指标上表现突出。然而,其“SOTA”宣称在更广阔的生态中显得单薄:视觉美感仍落后于参数量更大的LTX-2,且完全缺乏与Sora 2、Veo 3等工业级闭源模型的直接对比分析。其创新的“双向强制”策略虽有效,但根源思想并非首次提出,且实现细节(如权重设定)略显启发式。 ...

2026-05-12 · 更新于 2026-05-19 · 3 min · 588 words