📄 SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

#数据集 #自回归模型 #音视频 #多模态模型

7.5/10 | 前25% | #数据集 | #自回归模型 | #音视频 #多模态模型

学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度 高

👥 作者与机构

  • 第一作者:Youliang Zhang(清华大学,邮箱:zhangyou24@mails.tsinghua.edu.cn)
  • 通讯作者:Duomin Wang (wangduomin@gmail.com), Xiu Li (li.xiu@sz.tsinghua.edu.cn) (论文中标注了†和‡,通常表示通讯作者)
  • 作者列表:
    • Youliang Zhang(清华大学)
    • Zhaoyang Li(StepFun)
    • Duomin Wang†(StepFun)
    • Jiahe Zhang(未说明)
    • Deyu Zhou(StepFun;香港科技大学(广州))
    • Zixin Yin(StepFun;香港科技大学)
    • Xili Dai(StepFun;香港科技大学)
    • Gang Yu(StepFun)
    • Xiu Li‡(清华大学(深圳))

💡 毒舌点评

本文最大的亮点在于其填补了“音频-视觉双人交互虚拟人生成”这一关键任务的数据空白,以工业级的系统性和透明度构建了一个规模(520万片段)和质量(1080P+)俱佳的专用数据集,为后续研究铺平了道路。然而,其短板在于“新瓶装旧酒”感略强——基线模型采用的自回归+扩散架构并非全新,且在绝对视频生成质量上并未超越更庞大的级联扩散模型(如Hallo3),其主要优势更多体现在端到端带来的推理速度与情感保持上。

🔗 开源详情

  • 代码:论文明确表示将开源“the entire dataset, including the raw data, annotations, and data processing pipeline”,即包含数据处理代码。但未提供具体仓库链接。
  • 模型权重:论文中提到了其基线模型,但未明确说明是否会公开训练好的模型权重。
  • 数据集:公开。论文明确表示将公开完整的SpeakerVid-5M数据集,包括视频URL、标注和处理代码。获取方式是通过提供的URL自行下载原始视频(遵循YouTube条款)。
  • Demo:论文中未提及提供在线演示。
  • 复现材料:提供了极其详尽的复现材料,包括:
    • 数据处理全流程描述(第3节)。
    • 模型架构细节(附录A.7-A.9)。
    • 训练硬件、阶段、超参数(附录A.7)。
    • 标注文件使用指南(附录A.11)。
    • 使用的提示词(附录A.13)。
  • 论文中引用的开源项目:主要依赖以下开源工具/模型:
    • 数据处理:SceneDetect, 3D-Speaker, YOLO, SyncNet, ArcFace, Qwen2.5-VL, Qwen-3, DWpose, Whisper。
    • 基线模型:Qwen2.5-Omni(作为理解模块),CosyVoice2(音频tokenizer/解码器),3D VAE。
    • 质量评估:DOVER。
  • 开源计划:论文中明确提及“Both the dataset and the data processing code will be publicly released.”,但未提供具体的发布平台和链接。

📌 核心摘要

这篇论文针对“音频-视觉双人交互虚拟人类生成”这一新兴但缺乏专用大规模数据集的任务,提出了第一个专用数据集SpeakerVid-5M。该数据集包含超过520万、总计8700多小时的单人说话视频片段,以及77万对(1800小时)双人对话音频-视觉对,覆盖多种身体构图和视角,并附有丰富的结构化标注(姿态、模糊度、ASR、文本描述等)。与已有数据集相比,其创新在于首次系统性地针对“交互”任务构建数据,并按交互类型和质量进行分层设计。论文同时提供了一个基于自回归框架(整合Qwen2.5-Omni与CosyVoice)的基线生成模型,并构建了评估基准VidChatBench。实验表明,该基线在VidChatBench上能有效工作,且端到端方法在情感对齐和推理速度上优于级联管线。该工作为虚拟人交互研究提供了关键基础设施,但数据集存在语言和人口统计偏差。主要局限性包括:数据集主要来自YouTube,存在固有偏见;基线模型在纯视觉质量指标上仍落后于顶级扩散模型。

🏗️ 模型架构

论文提出了一种基于自回归(AR)的端到端音频-视觉生成基线模型,架构如图4所示。

图4:我们的自回归音视频生成方法

该模型主要组件及数据流如下:

  1. 多模态理解输入:输入包括发起者的视频、音频,以及响应者的参考图像。这些输入被送入Qwen2.5-Omni Thinker(一个冻结的多模态大模型)进行理解,输出隐藏状态和嵌入向量。参考图像也经过3D VAE编码。
  2. 自回归音视频生成器:这是一个AR Transformer。它以Qwen2.5-Omni的输出、原始音视频输入的嵌入以及参考图像的VAE潜在特征为条件,通过“下一组块(next-chunk)预测”方式,联合生成音频和视频的离散token。
    • 视频编码:使用开源3D VAE(时间步幅4,空间步幅8)将视频帧编码为连续潜在特征,再分割成patch编码为token。每个chunk对应0.5秒(在8FPS下为4帧),包含360个粗粒度视觉token。
    • 音频编码:使用CosyVoice2的音频tokenizer将原始音频编码为离散token。每个chunk包含12个音频token。
    • 位置编码:视觉token使用1D时间+2D空间位置编码;音频token使用双层1D位置编码(token在chunk内的位置和chunk在序列中的位置)。
  3. 视觉优化模块:为提升生成质量,AR生成器输出的粗粒度视觉token会送入此模块进行优化。
    • 空间Transformer:采用自回归方式,以集合(set-by-set)为单位,将粗粒度视觉token细化为更精细的视觉token(每帧从360个细化到1440个)。这个细化过程本身也是一个内循环,后续集合的生成会利用之前集合生成的潜在特征作为条件。
    • 扩散MLP:一个轻量级的3层自适应LayerNorm(AdaLN)MLP网络(非DiT)。它以空间Transformer输出的精细视觉token和带时间步的噪声为条件,通过去噪过程生成最终的高保真视频潜在特征。该设计计算效率高于基于Transformer的扩散模型。
  4. 输出与解码:生成的音频token由CosyVoice解码器转换为音频波形。生成的视频潜在特征由VAE解码器转换为视频帧。
  5. 训练策略:模型训练分三阶段:1) 仅使用单人数据进行视觉预训练(以ASR和字幕为条件生成视频);2) 音视频联合训练(目标扩展为同时生成音视频);3) 使用高质量双人对话数据进行监督微调(SFT)。训练时,在AR生成的视觉token上加入随机噪声以缓解误差累积。视觉损失使用扩散损失,音频损失使用下一组块预测的交叉熵损失。

💡 核心创新点

  1. 首个大规模音频-视觉双人交互专用数据集:针对“音频-视觉双人交互虚拟人类生成”这一明确但缺乏专用数据的新任务,构建了SpeakerVid-5M。它首次系统性地提供了大规模、高质量、对齐的“发起-响应”音视频对,填补了关键空白。相较于之前侧重单说话人头部生成(如VoxCeleb2)或通用人类视频(如OpenHumanVid)的数据集,它直接服务于交互场景。
  2. 数据集的分层分类设计:数据集不仅规模大,而且结构清晰。按交互类型分为四个分支:对话分支、单人分支、聆听分支和多轮对话分支。同时按质量分为大规模预训练子集和高质量SFT子集。这种设计能够灵活支持从预训练到微调的多种研究范式,以及2D虚拟人生成的多样化任务。
  3. 全面的多模态标注与质量评估体系:为每个片段提供了异常丰富的标注,包括结构化文本描述(来自Qwen2.5-VL)、ASR转录、3D人体姿态(DWpose)、面部/手部模糊度分数、运动分数、说话人ID等。同时,提出了系统化的多维度数据质量过滤流程(亮度、视频质量DOVER、清晰度、模糊度、音频质量),确保了数据的高质量。
  4. 配套的基准测试集与评估标准:构建了VidChatBench基准,包含500个未见过的说话人ID的测试对,并定义了六个维度的评估指标(视频质量、身份保持、对话连贯性、音视频一致性、情感对齐、音频身份保持),为后续研究提供了标准化的评测平台。

🔬 细节详述

  • 训练数据:主要来自YouTube,涵盖访谈、新闻、辩论等多种场景。原始视频15.3万个,总时长6.4万小时。经过场景分割(3-14秒)、说话人日志化(3D-Speaker)、人体检测与裁剪(YOLO)、唇音同步检查(SyncNet)和说话人ID校正(ArcFace)等预处理步骤,最终得到SpeakerVid-5M。
  • 损失函数:
    • 视觉生成部分:使用扩散损失(在Visual Optimizer的Diffusion MLP中进行去噪训练)。
    • 音频生成部分:使用下一组块预测的交叉熵损失(对生成的音频token序列进行监督)。
    • 训练策略:采用渐进式训练(三阶段:视觉预训练、音视频联合训练、高质量对话SFT)。
  • 训练策略:
    • 优化器与学习率:未在正文明确说明,但提到使用了warmup和decay策略。
    • 训练步数/轮数:未明确说明。
    • Batch size:未明确说明。
  • 关键超参数:
    • 模型大小:整个AR生成器(包括Qwen2.5-Omni)的可训练参数为0.8B(Qwen2.5-Omni被冻结)。
    • 视频分辨率与帧率:标准为480×768 @ 8 FPS。
    • Chunk定义:每chunk对应4帧(0.5秒),包含360个视觉token和12个音频token。
    • 空间Transformer细化:将每帧token从360个细化到1440个。
  • 训练硬件:
    • 视觉预训练和联合训练:128张NVIDIA L40S GPU,训练15天。
    • 高质量对话微调:32张NVIDIA A800 GPU,训练5天。
  • 推理细节:采用嵌套循环的自回归生成。外层循环逐chunk生成音视频token;内层循环在Visual Optimizer中,以集合(set-by-set)方式迭代生成精细视觉token并驱动Diffusion MLP生成最终潜在特征。推理速度在单帧生成上具有显著优势(见实验对比)。
  • 正则化/稳定训练技巧:在AR生成器训练时,对视觉token注入随机噪声(参考Valevski et al., 2024),以鼓励模型学习更鲁棒的表示,缓解误差累积,提升生成质量。

📊 实验结果

论文在自建的VidChatBench基准上评估其基线模型,评估指标包括视频质量(FID, FVD, PSNR, SSIM)、身份保持(ArcFace)、对话连贯性(CLIPdialog)、音视频一致性(Syncconf)、情感对齐(FIDEmotion)和音频身份保持(SIM-o)。

主要定量结果与消融研究(来自表2):

方法设置音频联合生成空间Transformer训练加噪FID ↓FVD ↓PSNR ↑SSIM ↑ArcFace ↑CLIPdialog ↑Syncconf ↑FIDEmotion ↓SIM-o ↑
条件生成56.8255.0615.260.620.6383.45
条件生成57.0355.1615.310.620.6302.0633.450.65
条件生成38.5334.6416.790.640.7322.4593.360.64
条件生成34.7230.4317.390.650.7582.6553.230.65
双人交互49.9747.2315.740.620.6373.48
双人交互49.8636.9015.630.620.6350.6422.2393.430.64
双人交互35.6731.2817.440.650.7490.6432.5413.330.65
双人交互32.3528.8217.550.660.7720.6432.6983.220.65

关键结论:

  1. 双人交互设置优于条件生成:在同等模型配置下,直接从双人音视频输入生成响应(Dyadic)在多项指标上优于以文本为条件生成(Conditioned),说明直接多模态输入保留了更丰富的信息。
  2. 音视频联合生成:引入音频生成(✓)不会损害视频质量(FID/FVD基本持平),并显著提升了音视频一致性(Syncconf)。
  3. 空间Transformer与训练加噪:这两个组件对视觉质量有显著提升。加入空间Transformer后,FID从49.86降至35.67;再加入训练加噪,进一步降至32.35,ArcFace从0.635提升到0.772,表明有效提升了生成质量和身份保持。

与级联管线的对比(来自表4): 论文构建了两个级联基线:Qwen2.5-omni(理解)+ CosyVoice(TTS)+ Sonic/Hallo3(驱动动画)。

方法FID ↓FVD ↓PSNR ↑SSIM ↑ArcFace ↑Syncconf ↑FIDEmotion ↓单帧推理时间 ↓手部质量 ↑
Qwen2.5-omni + CosyVoice + Sonic33.2630.5217.380.610.6922.9723.7331.43秒0.21
Qwen2.5-omni + CosyVoice + Hallo328.4327.6517.310.690.7753.3244.1545.82秒0.42
本文端到端方法32.3528.8217.550.660.7722.6983.223.17秒0.49

关键结论:

  1. 推理速度优势:本文端到端方法(3.17秒/帧)比级联方法(31-45秒/帧)快一个数量级,更适合交互场景。
  2. 情感与手势质量:端到端方法在情感对齐(FIDEmotion)和手部质量(Hand Quality)上优于更大的级联模型(如Hallo3),这归因于端到端架构保留了更多高阶语义信息,避免了中间文本转换的信息损失。
  3. 视频保真度:在FID/FVD等绝对视频质量指标上,本文方法(参数量0.8B)仍落后于使用了巨型扩散模型(Hallo3约10B参数)的级联管线,但优于参数量相当(Sonic约1.5B)的管线。

图5:我们的双人生成模型的定性结果 图5展示了定性结果,从左至右为:发起者的输入视频、参考图像、模型生成的音视频响应。可以看出生成的响应在身份、表情和音唇同步上具有一定的一致性。

⚖️ 评分理由

  • 学术质量:5.5/7:论文的核心贡献是构建了一个系统、大规模、高质量的专用数据集,技术流程扎实,标注和评估体系完备。然而,作为数据集论文,其本身的算法创新性有限。基线模型虽端到端,但并非论文核心,且在关键视频生成指标上未超越SOTA级联方法。实验充分验证了数据集的有效性和基线方法的可行性,但证据强度(如仅在自建基准上测试)相较于提出新SOTA模型的论文稍弱。
  • 选题价值:1.8/2:选题紧扣“交互虚拟人”这一前沿趋势,填补了该任务数据集的关键空白,对推动该领域研究具有明确且重要的价值,应用前景广阔。
  • 开源与复现加成:0.7/1:论文承诺并详细说明了将开源数据集(含标注)、处理代码及基准测试,复现信息极其详尽(附录包含实施细节、模型架构、标注使用指南),这对社区贡献巨大,复现门槛低。

← 返回 ICLR 2026 论文分析