📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation
#数据集 #自回归模型 #音视频 #多模态模型
✅ 7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型
学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高
👥 作者与机构
- 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn)
- 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者)
- 作者列表:
- Youliang Zhang(清华大学)
- Zhaoyang Li(StepFun)
- Duomin Wang†(StepFun)
- Jiahe Zhang(未说明)
- Deyu Zhou(StepFun;香港科技大学(广州))
- Zixin Yin(StepFun;香港科技大学)
- Xili Dai(StepFun;香港科技大学)
- Gang Yu(StepFun)
- Xiu Li‡(清华大学(深圳))
💡 毒舌点评
本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。
🔗 开源详情
- 代码:论文明确表示将开源“the entire dataset, including the raw data, annotations, and data processing pipeline”,即包含数据处理代码。但未提供具体仓库链接。
- 模型权重:论文中提到了其基线模型,但未明确说明是否会公开训练好的模型权重。
- 数据集:公开。论文明确表示将公开完整的SpeakerVid-5M数据集,包括视频URL、标注和处理代码。获取方式是通过提供的URL自行下载原始视频(遵循YouTube条款)。
- Demo:论文中未提及提供在线演示。
- 复现材料:提供了极其详尽的复现材料,包括:
- 数据处理全流程描述(第3节)。
- 模型架构细节(附录A.7-A.9)。
- 训练硬件、阶段、超参数(附录A.7)。
- 标注文件使用指南(附录A.11)。
- 使用的提示词(附录A.13)。
- 论文中引用的开源项目:主要依赖以下开源工具/模型:
- 数据处理:SceneDetect, 3D-Speaker, YOLO, SyncNet, ArcFace, Qwen2.5-VL, Qwen-3, DWpose, Whisper。
- 基线模型:Qwen2.5-Omni(作为理解模块),CosyVoice2(音频tokenizer/解码器),3D VAE。
- 质量评估:DOVER。
- 开源计划:论文中明确提及“Both the dataset and the data processing code will be publicly released.”,但未提供具体的发布平台和链接。
📌 核心摘要
这篇论文针对“音频-视觉双人交互虚拟人类生成”这一新兴但缺乏专用大规模数据集的任务,提出了第一个专用数据集SpeakerVid-5M。该数据集包含超过520万、总计8700多小时的单人说话视频片段,以及77万对(1800小时)双人对话音频-视觉对,覆盖多种身体构图和视角,并附有丰富的结构化标注(姿态、模糊度、ASR、文本描述等)。与已有数据集相比,其创新在于首次系统性地针对“交互”任务构建数据,并按交互类型和质量进行分层设计。论文同时提供了一个基于自回归框架(整合Qwen2.5-Omni与CosyVoice)的基线生成模型,并构建了评估基准VidChatBench。实验表明,该基线在VidChatBench上能有效工作,且端到端方法在情感对齐和推理速度上优于级联管线。该工作为虚拟人交互研究提供了关键基础设施,但数据集存在语言和人口统计偏差。主要局限性包括:数据集主要来自YouTube,存在固有偏见;基线模型在纯视觉质量指标上仍落后于顶级扩散模型。
🏗️ 模型架构
论文提出了一种基于自回归(AR)的端到端音频-视觉生成基线模型,架构如图4所示。

该模型主要组件及数据流如下:
- 多模态理解输入:输入包括发起者的视频、音频,以及响应者的参考图像。这些输入被送入Qwen2.5-Omni Thinker(一个冻结的多模态大模型)进行理解,输出隐藏状态和嵌入向量。参考图像也经过3D VAE编码。
- 自回归音视频生成器:这是一个AR Transformer。它以Qwen2.5-Omni的输出、原始音视频输入的嵌入以及参考图像的VAE潜在特征为条件,通过“下一组块(next-chunk)预测”方式,联合生成音频和视频的离散token。
- 视频编码:使用开源3D VAE(时间步幅4,空间步幅8)将视频帧编码为连续潜在特征,再分割成patch编码为token。每个chunk对应0.5秒(在8FPS下为4帧),包含360个粗粒度视觉token。
- 音频编码:使用CosyVoice2的音频tokenizer将原始音频编码为离散token。每个chunk包含12个音频token。
- 位置编码:视觉token使用1D时间+2D空间位置编码;音频token使用双层1D位置编码(token在chunk内的位置和chunk在序列中的位置)。
- 视觉优化模块:为提升生成质量,AR生成器输出的粗粒度视觉token会送入此模块进行优化。
- 空间Transformer:采用自回归方式,以集合(set-by-set)为单位,将粗粒度视觉token细化为更精细的视觉token(每帧从360个细化到1440个)。这个细化过程本身也是一个内循环,后续集合的生成会利用之前集合生成的潜在特征作为条件。
- 扩散MLP:一个轻量级的3层自适应LayerNorm(AdaLN)MLP网络(非DiT)。它以空间Transformer输出的精细视觉token和带时间步的噪声为条件,通过去噪过程生成最终的高保真视频潜在特征。该设计计算效率高于基于Transformer的扩散模型。
- 输出与解码:生成的音频token由CosyVoice解码器转换为音频波形。生成的视频潜在特征由VAE解码器转换为视频帧。
- 训练策略:模型训练分三阶段:1) 仅使用单人数据进行视觉预训练(以ASR和字幕为条件生成视频);2) 音视频联合训练(目标扩展为同时生成音视频);3) 使用高质量双人对话数据进行监督微调(SFT)。训练时,在AR生成的视觉token上加入随机噪声以缓解误差累积。视觉损失使用扩散损失,音频损失使用下一组块预测的交叉熵损失。
💡 核心创新点
- 首个大规模音频-视觉双人交互专用数据集:针对“音频-视觉双人交互虚拟人类生成”这一明确但缺乏专用数据的新任务,构建了SpeakerVid-5M。它首次系统性地提供了大规模、高质量、对齐的“发起-响应”音视频对,填补了关键空白。相较于之前侧重单说话人头部生成(如VoxCeleb2)或通用人类视频(如OpenHumanVid)的数据集,它直接服务于交互场景。
- 数据集的分层分类设计:数据集不仅规模大,而且结构清晰。按交互类型分为四个分支:对话分支、单人分支、聆听分支和多轮对话分支。同时按质量分为大规模预训练子集和高质量SFT子集。这种设计能够灵活支持从预训练到微调的多种研究范式,以及2D虚拟人生成的多样化任务。
- 全面的多模态标注与质量评估体系:为每个片段提供了异常丰富的标注,包括结构化文本描述(来自Qwen2.5-VL)、ASR转录、3D人体姿态(DWpose)、面部/手部模糊度分数、运动分数、说话人ID等。同时,提出了系统化的多维度数据质量过滤流程(亮度、视频质量DOVER、清晰度、模糊度、音频质量),确保了数据的高质量。
- 配套的基准测试集与评估标准:构建了VidChatBench基准,包含500个未见过的说话人ID的测试对,并定义了六个维度的评估指标(视频质量、身份保持、对话连贯性、音视频一致性、情感对齐、音频身份保持),为后续研究提供了标准化的评测平台。
🔬 细节详述
- 训练数据:主要来自YouTube,涵盖访谈、新闻、辩论等多种场景。原始视频15.3万个,总时长6.4万小时。经过场景分割(3-14秒)、说话人日志化(3D-Speaker)、人体检测与裁剪(YOLO)、唇音同步检查(SyncNet)和说话人ID校正(ArcFace)等预处理步骤,最终得到SpeakerVid-5M。
- 损失函数:
- 视觉生成部分:使用扩散损失(在Visual Optimizer的Diffusion MLP中进行去噪训练)。
- 音频生成部分:使用下一组块预测的交叉熵损失(对生成的音频token序列进行监督)。
- 训练策略:采用渐进式训练(三阶段:视觉预训练、音视频联合训练、高质量对话SFT)。
- 训练策略:
- 优化器与学习率:未在正文明确说明,但提到使用了warmup和decay策略。
- 训练步数/轮数:未明确说明。
- Batch size:未明确说明。
- 关键超参数:
- 模型大小:整个AR生成器(包括Qwen2.5-Omni)的可训练参数为0.8B(Qwen2.5-Omni被冻结)。
- 视频分辨率与帧率:标准为480×768 @ 8 FPS。
- Chunk定义:每chunk对应4帧(0.5秒),包含360个视觉token和12个音频token。
- 空间Transformer细化:将每帧token从360个细化到1440个。
- 训练硬件:
- 视觉预训练和联合训练:128张NVIDIA L40S GPU,训练15天。
- 高质量对话微调:32张NVIDIA A800 GPU,训练5天。
- 推理细节:采用嵌套循环的自回归生成。外层循环逐chunk生成音视频token;内层循环在Visual Optimizer中,以集合(set-by-set)方式迭代生成精细视觉token并驱动Diffusion MLP生成最终潜在特征。推理速度在单帧生成上具有显著优势(见实验对比)。
- 正则化/稳定训练技巧:在AR生成器训练时,对视觉token注入随机噪声(参考Valevski et al., 2024),以鼓励模型学习更鲁棒的表示,缓解误差累积,提升生成质量。
📊 实验结果
论文在自建的VidChatBench基准上评估其基线模型,评估指标包括视频质量(FID, FVD, PSNR, SSIM)、身份保持(ArcFace)、对话连贯性(CLIPdialog)、音视频一致性(Syncconf)、情感对齐(FIDEmotion)和音频身份保持(SIM-o)。
主要定量结果与消融研究(来自表2):
| 方法设置 | 音频联合生成 | 空间Transformer | 训练加噪 | FID ↓ | FVD ↓ | PSNR ↑ | SSIM ↑ | ArcFace ↑ | CLIPdialog ↑ | Syncconf ↑ | FIDEmotion ↓ | SIM-o ↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 条件生成 | 56.82 | 55.06 | 15.26 | 0.62 | 0.638 | – | – | 3.45 | – | |||
| 条件生成 | ✓ | 57.03 | 55.16 | 15.31 | 0.62 | 0.630 | – | 2.063 | 3.45 | 0.65 | ||
| 条件生成 | ✓ | ✓ | 38.53 | 34.64 | 16.79 | 0.64 | 0.732 | – | 2.459 | 3.36 | 0.64 | |
| 条件生成 | ✓ | ✓ | ✓ | 34.72 | 30.43 | 17.39 | 0.65 | 0.758 | – | 2.655 | 3.23 | 0.65 |
| 双人交互 | 49.97 | 47.23 | 15.74 | 0.62 | 0.637 | – | – | 3.48 | – | |||
| 双人交互 | ✓ | 49.86 | 36.90 | 15.63 | 0.62 | 0.635 | 0.642 | 2.239 | 3.43 | 0.64 | ||
| 双人交互 | ✓ | ✓ | 35.67 | 31.28 | 17.44 | 0.65 | 0.749 | 0.643 | 2.541 | 3.33 | 0.65 | |
| 双人交互 | ✓ | ✓ | ✓ | 32.35 | 28.82 | 17.55 | 0.66 | 0.772 | 0.643 | 2.698 | 3.22 | 0.65 |
关键结论:
- 双人交互设置优于条件生成:在同等模型配置下,直接从双人音视频输入生成响应(Dyadic)在多项指标上优于以文本为条件生成(Conditioned),说明直接多模态输入保留了更丰富的信息。
- 音视频联合生成:引入音频生成(✓)不会损害视频质量(FID/FVD基本持平),并显著提升了音视频一致性(Syncconf)。
- 空间Transformer与训练加噪:这两个组件对视觉质量有显著提升。加入空间Transformer后,FID从49.86降至35.67;再加入训练加噪,进一步降至32.35,ArcFace从0.635提升到0.772,表明有效提升了生成质量和身份保持。
与级联管线的对比(来自表4): 论文构建了两个级联基线:Qwen2.5-omni(理解)+ CosyVoice(TTS)+ Sonic/Hallo3(驱动动画)。
| 方法 | FID ↓ | FVD ↓ | PSNR ↑ | SSIM ↑ | ArcFace ↑ | Syncconf ↑ | FIDEmotion ↓ | 单帧推理时间 ↓ | 手部质量 ↑ |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-omni + CosyVoice + Sonic | 33.26 | 30.52 | 17.38 | 0.61 | 0.692 | 2.972 | 3.73 | 31.43秒 | 0.21 |
| Qwen2.5-omni + CosyVoice + Hallo3 | 28.43 | 27.65 | 17.31 | 0.69 | 0.775 | 3.324 | 4.15 | 45.82秒 | 0.42 |
| 本文端到端方法 | 32.35 | 28.82 | 17.55 | 0.66 | 0.772 | 2.698 | 3.22 | 3.17秒 | 0.49 |
关键结论:
- 推理速度优势:本文端到端方法(3.17秒/帧)比级联方法(31-45秒/帧)快一个数量级,更适合交互场景。
- 情感与手势质量:端到端方法在情感对齐(FIDEmotion)和手部质量(Hand Quality)上优于更大的级联模型(如Hallo3),这归因于端到端架构保留了更多高阶语义信息,避免了中间文本转换的信息损失。
- 视频保真度:在FID/FVD等绝对视频质量指标上,本文方法(参数量0.8B)仍落后于使用了巨型扩散模型(Hallo3约10B参数)的级联管线,但优于参数量相当(Sonic约1.5B)的管线。
图5展示了定性结果,从左至右为:发起者的输入视频、参考图像、模型生成的音视频响应。可以看出生成的响应在身份、表情和音唇同步上具有一定的一致性。
⚖️ 评分理由
- 学术质量:5.5/7:论文的核心贡献是构建了一个系统、大规模、高质量的专用数据集,技术流程扎实,标注和评估体系完备。然而,作为数据集论文,其本身的算法创新性有限。基线模型虽端到端,但并非论文核心,且在关键视频生成指标上未超越SOTA级联方法。实验充分验证了数据集的有效性和基线方法的可行性,但证据强度(如仅在自建基准上测试)相较于提出新SOTA模型的论文稍弱。
- 选题价值:1.8/2:选题紧扣“交互虚拟人”这一前沿趋势,填补了该任务数据集的关键空白,对推动该领域研究具有明确且重要的价值,应用前景广阔。
- 开源与复现加成:0.7/1:论文承诺并详细说明了将开源数据集(含标注)、处理代码及基准测试,复现信息极其详尽(附录包含实施细节、模型架构、标注使用指南),这对社区贡献巨大,复现门槛低。