SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation #数据集 #自回归模型 #音视频 #多模态模型 ✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型 学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高 👥 作者与机构 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn) 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者) 作者列表: Youliang Zhang(清华大学) Zhaoyang Li(StepFun) Duomin Wang†(StepFun) Jiahe Zhang(未说明) Deyu Zhou(StepFun;香港科技大学(广州)) Zixin Yin(StepFun;香港科技大学) Xili Dai(StepFun;香港科技大学) Gang Yu(StepFun) Xiu Li‡(清华大学(深圳)) 💡 毒舌点评 本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。 ...