📄 JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization
#音视频 #扩散模型 #Transformer #基准测试
🔥 8.5/10 | 前25% | #音视频 | #扩散模型 #Transformer | #扩散模型 #Transformer
学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Kai Liu (浙江大学, 新加坡国立大学) (*共同第一作者)
- 通讯作者:Hao Fei (新加坡国立大学)
- 作者列表:
- Kai Liu (浙江大学,新加坡国立大学) (*共同第一作者)
- Wei Li (中国科学技术大学) (*共同第一作者)
- Lai Chen (浙江大学)
- Shengqiong Wu (新加坡国立大学)
- Yanhao Zheng (浙江大学)
- Jiayi Ji (新加坡国立大学)
- Fan Zhou (浙江大学)
- Jiebo Luo (罗切斯特大学)
- Ziwei Liu (南洋理工大学)
- Hao Fei (新加坡国立大学) (†通讯作者)
- Tat-Seng Chua (新加坡国立大学)
💡 毒舌点评
论文提出了一个架构设计完整、实验验证充分的端到端音视频生成模型,其“分层时空先验估计”的思路有效提升了生成内容的同步性,配套的JavisBench基准和JavisScore指标也直指现有评估的痛点。然而,该模型的计算开销庞大(生成4秒240P视频在H100上耗时30秒),且其在更复杂、更高分辨率或更长时长场景下的泛化能力仍待验证。
🔗 开源详情
- 代码:论文明确表示代码将开源,项目主页为
https://javisverse.github.io/JavisDiT-page/。 - 模型权重:论文明确表示预训练模型将开源。
- 数据集:论文明确表示会公开JavisBench数据集及处理后的训练数据。
- Demo:论文中未提及在线演示链接。
- 复现材料:论文提供了详尽的模型架构图、训练细节(包括三阶段策略、学习率、优化器、数据集来源与规模)、超参数配置、评估设置以及消融实验设计,复现信息非常充分。
- 引用的开源项目:
- 视频骨干与VAE:OpenSora
- 音频生成与VAE:AudioLDM2
- 文本编码器:T5, ImageBind
- 对比学习框架:借鉴自SimCLR
- 其他工具:PySceneDetect, UniMatch, DBNet, FunASR, Qwen系列模型(用于数据标注和分类)
📌 核心摘要
本文旨在解决联合音视频生成(JAVG)中内容质量与跨模态同步性难以兼得的核心挑战。提出了一种基于扩散Transformer(DiT)的联合音视频生成模型JavisDiT,其核心创新在于引入了分层时空同步先验估计器(HiST-Sypo),该模块从文本条件中分层提取全局语义先验和细粒度的时空位置/时序先验,以指导视频与音频在空间和时间上的精确对齐。与已有方法(如简单的参数共享或隐空间对齐)相比,JavisDiT通过显式的细粒度先验引导和双向跨模态注意力机制,增强了音视频模态间的深层交互。实验结果表明,JavisDiT在提出的JavisBench基准(包含10,140个多事件、复杂场景的视频)上,其同步性指标JavisScore达到0.154,显著优于各类级联式和联合生成方法;在传统的Landscape和AIST++数据集上,其生成质量(如FVD为94.2)也达到了最佳水平。该工作为JAVG任务提供了更强的模型和更全面的评估框架,推动了多模态生成技术向实用化迈进。主要局限性在于模型计算复杂度高,且评估基准的分辨率与视频时长相对有限。
🏗️ 模型架构
JavisDiT是一个基于扩散Transformer的端到端联合音视频生成模型,整体架构如图2所示。模型包含视频生成分支、音频生成分支、分层时空先验估计器(HiST-Sypo Estimator)以及多模态双向交叉注意力(MM-BiCrossAttn)模块。
输入输出流程:给定文本提示s,模型并行地去噪生成视频潜在表示v和音频潜在表示a(梅尔频谱图编码)。两个分支共享相同的架构设计。
核心组件:
- 时空自注意力(ST-SelfAttn):分别对视频和音频的潜在表示在空间和时间维度上进行顺序自注意力计算,以捕获各自模态内的细粒度时空信息,同时降低计算复杂度。
- 粗粒度交叉注意力(Coarse-Grained Cross-Attn):使用T5文本编码器的嵌入作为条件,通过标准的交叉注意力注入全局语义信息(“发生了什么”)。
- 细粒度时空交叉注意力(Fine-Grained ST-CrossAttn):这是实现同步的关键。它使用从HiST-Sypo估计器获得的空间先验和时间先验作为条件,分别在空间和时间维度上进行交叉注意力计算。空间先验指导模型关注视频中产生声音的区域及对应的音频频率;时间先验则指导模型对齐音视频事件的起止时刻。
- 多模态双向交叉注意力(MM-BiCrossAttn):在经过时空先验对齐后,该模块允许视频和音频表示进行直接的跨模态信息交换,通过计算音频到视频和视频到音频的双向注意力,进一步融合双模态信息。
- 分层时空同步先验估计器(HiST-Sypo Estimator):如图3所示,这是一个独立的模块,使用4层Transformer编码器-解码器结构。它以ImageBind文本编码器的输出为输入,通过可学习的空间查询和时间查询,估计出
Ns个空间先验token和Nt个时间先验token。为建模同一文本对应的不同时空安排,估计器输出高斯分布的均值和方差,进行采样。该模块通过对比学习进行训练,目标是使估计的先验与同步的音视频对特征对齐,并与异步的负样本特征远离。

图2展示了JavisDiT的整体架构(a)和各模块的详细结构(b)。左侧为包含视频分支、音频分支、HiST-Sypo估计器和MM-BiCrossAttn的总体流程。右侧展示了ST-SelfAttn、Fine-Grained ST-CrossAttn和MM-BiCrossAttn的具体设计,其中时空先验作为交叉注意力的键值对,有效引导生成过程。

图3展示了HiST-Sypo Estimator的框架。它使用一个4层Transformer,通过空间和时间查询从文本嵌入中提取先验token,并采用对比学习进行优化,以学习从文本到时空先验的映射。
数据流:文本t -> T5编码器(粗先验)-> HiST-Sypo估计器(细先验p_s, p_t)-> 与视频/音频潜在表示在各自DiT块的Fine-Grained ST-CrossAttn中交互 -> 在MM-BiCrossAttn中进行模态间融合 -> 迭代去噪生成最终音视频。
💡 核心创新点
- 分层时空同步先验(HiST-Sypo)估计:提出了一个从文本中分层提取全局语义、空间位置和时间序列先验的模块。这解决了先前方法(如参数共享、隐空间对齐)对细粒度时空信息建模不足的问题。该先验作为显式条件注入生成过程,显著提升了音视频在空间(声源位置)和时间(事件起止)上的对齐精度。
- 基于对比学习的先验估计训练:为训练HiST-Sypo估计器,设计了一套复杂的对比学习策略,包括构造简单和困难的负样本(如通过视频遮罩、轨迹添加、音频分离/变速等增强手段),并设计了多目标损失函数(包括token级铰链损失、辅助判别损失、VA嵌入差异损失等)。这使得估计器能够学习到鲁棒且具区分性的时空先验表示。
- JavisBench基准与JavisScore指标:针对现有基准(AIST++, Landscape)场景单一、复杂度低的问题,构建了包含10,140个高质量、多事件、复杂场景视频的JavisBench数据集,并设计了5维19类的分类体系。同时,提出了更鲁棒的同步性评估指标JavisScore,它基于滑动窗口内音视频片段的相似度,并关注最低同步度的帧,更能反映复杂场景下的真实同步情况。
🔬 细节详述
- 训练数据:
- 音频预训练(阶段一):788K音频-文本对,来自AudioSet、AudioCaps、VGGSound等多个公开数据集。
- ST-Prior估计器训练(阶段二):611K文本-视频-音频三元组,主要来自MMTrail和TAVGBench数据集。
- JavisDiT训练(阶段三):611K样本,数据同上。
- 负样本构建:用于ST-Prior训练,通过在线增强(视频网格遮罩、轨迹叠加、时间移位;音频源增删、变速、插入静音等)和模型生成(AudioLDM2生成异步音频)两种方式构建。
- 损失函数:
- ST-Prior估计器:采用对比学习损失
Lcontrast(包含Ltoken,Ldisc,Lvad,Lreg)与KL散度损失Lkl的组合。 - DiT生成模型:使用Rectified Flow(
Liu et al., 2023b)作为去噪目标。
- ST-Prior估计器:采用对比学习损失
- 训练策略:三阶段训练。
- 阶段一:音频预训练。用OpenSora的视频分支权重初始化音频分支,在音频-文本数据上训练音频分支(
1.11B参数),学习率1e-4。 - 阶段二:ST-Prior训练。训练HiST-Sypo估计器(
29.3M参数),学习率1e-5。 - 阶段三:JAVG训练。冻结视频和音频分支的自注意力块及ST-Prior估计器,仅训练
ST-CrossAttn和Bi-CrossAttn模块(923.8M参数),学习率1e-4。
- 视频分支权重全程冻结,来自OpenSora。
- 使用动态时间掩码支持多种条件生成任务。
- 阶段一:音频预训练。用OpenSora的视频分支权重初始化音频分支,在音频-文本数据上训练音频分支(
- 关键超参数:总参数量
3.14B。每个分支有28个DiT块,注意力头数16,隐藏维度1152,FFN中间维度4608。ST-Prior的token数Ns=Nt=32。 - 训练硬件:阶段一使用
64个H100 GPU训练55个epoch(约64GPU天);阶段二使用8个H100 GPU训练1个epoch(约8GPU天);阶段三使用256个H100 GPU训练2个epoch(约256GPU天)。 - 推理细节:采样步数
30步,分类器引导比例7.0。推理时,视频和音频潜在表示并行采样。 - 正则化/稳定训练:未特别提及除标准技术外的技巧。
📊 实验结果
论文在提出的JavisBench和两个传统数据集(Landscape, AIST++)上进行了全面评估。
主要结果(JavisBench): 论文表1展示了在JavisBench上的主要结果,JavisDiT在生成质量(FVD, FAD)、语义一致性(CLIP, CLAP)和音视频同步性(AV-IB, JavisScore)上全面超越或持平现有方法。
| 方法 | 类型 | FVD↓ | KVD↓ | FAD↓ | CLIP↑ | CLAP↑ | AV-IB↑ | CAVP↑ | AVHScore↑ | JavisScore↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| T2A+A2V | ||||||||||
| TempoTkn | 级联 | 539.8 | 7.2 | - | 0.205 | - | 0.137 | 0.787 | 0.122 | 0.103 |
| TPoS | 级联 | 839.7 | 4.7 | - | 0.229 | - | 0.142 | 0.778 | 0.129 | 0.095 |
| T2V+V2A | ||||||||||
| See&Hear | 级联 | - | - | 7.6 | - | 0.263 | 0.160 | 0.798 | 0.143 | 0.112 |
| FoleyCftr | 级联 | - | - | 9.1 | - | 0.383 | 0.193 | 0.800 | 0.186 | 0.151 |
| T2AV | ||||||||||
| MM-Diff | 联合 | 2311.9 | 12.2 | 27.5 | 0.181 | 0.079 | 0.119 | 0.783 | 0.109 | 0.070 |
| UniVerse-1 | 联合 | 194.2 | 0.5 | 8.7 | 0.309 | 0.245 | 0.104 | 0.793 | 0.098 | 0.077 |
| JavisDiT (Ours) | 联合 | 204.1 | 1.4 | 7.2 | 0.302 | 0.391 | 0.197 | 0.801 | 0.179 | 0.154 |
传统数据集结果: 论文表2显示,在Landscape和AIST++数据集上,JavisDiT在FVD和FAD指标上也达到了最佳水平。
| 方法 | Landscape FVD↓ | Landscape KVD↓ | Landscape FAD↓ | AIST++ FVD↓ | AIST++ KVD↓ | AIST++ FAD↓ |
|---|---|---|---|---|---|---|
| MM-Diff | 332.1 | 26.6 | 9.9 | 219.6 | 49.1 | 12.3 |
| See&Hear | 326.2 | 9.2 | 12.7 | - | - | - |
| AV-DiT | 172.7 | 15.4 | 11.2 | 68.8 | 21.0 | 10.2 |
| MM-LDM | 105.0 | 8.3 | 9.1 | 105.0 | 27.9 | 10.2 |
| JavisDiT (Ours) | 94.2 | 7.8 | 8.5 | 86.7 | 19.8 | 9.6 |
消融实验: 论文表3和表4对模型设计进行了消融研究。
- 表3(模块消融):逐步添加STDiT骨干、HiST-Sypo模块和双向交叉注意力(BiCA),模型在质量(SAVQ↓)、一致性(SAVC↑)和同步性(SAVS↑)上持续提升。完整模型(STDiT+HiST-Sypo+BiCA)达到最优。
- 表4(先验设计消融):增加ST-Prior的token数量(从0到32)能持续提升性能。相比于将先验作为加法或调制条件,通过交叉注意力注入的效果最佳。
人类评估: 图8展示了人类评估结果,在100个样本上,JavisDiT在音频质量和音视频对齐方面显著优于UniVerse-1,但在视频质量上稍逊(与UniVerse-1使用更强大的视频骨干Wan-2.1有关)。
不同视频时长性能: 论文表5显示,模型生成10秒视频时,在各项指标上与4秒视频保持稳定,证明了模型对变长生成的适应性。
| 时长 | FVD↓ | FAD↓ | CLIP↑ | CLAP↑ | AVHScore↑ | JavisScore↑ |
|---|---|---|---|---|---|---|
| 4s | 241.8 | 7.3 | 0.308 | 0.382 | 0.186 | 0.153 |
| 10s | 233.8 | 7.1 | 0.307 | 0.385 | 0.183 | 0.154 |

图5展示了JavisDiT与FoleyCrafter在JavisBench不同子类别(空间构成、时间构成)上的JavisScore对比。它揭示了当前模型在处理多主体、同时发生的复杂事件时,同步性能仍有提升空间。
⚖️ 评分理由
- 学术质量:6.5/7:论文提出了针对性强、设计精巧的模型架构(HiST-Sypo),并通过严谨的对比学习进行训练,技术路径清晰正确。实验极其充分,涵盖了多数据集、多指标、消融实验和人类评估,为所提方法的有效性提供了坚实证据。创新点在于将显式的细粒度时空先验引入生成过程,并构建了更全面的评估体系。
- 选题价值:1.5/2:音视频联合生成是多模态生成领域的前沿和难点,具有巨大的应用潜力。论文直接针对“同步性”这一核心痛点,研究成果对推动该领域走向实用化有明确价值。所提出的JavisBench也为后续研究提供了更好的测试平台。
- 开源与复现加成:0.5/1:论文明确承诺开源代码、模型和数据集,并提供了从数据准备、模型配置到训练策略的极其详细的说明,可复现性信息非常完备,极大地便利了后续研究。