📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

#音视频生成 #流匹配 #扩散模型 #多模态模型

7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高

👥 作者与机构

  • 第一作者:Kai Liu, Yanhao Zheng, Kai Wang(共同第一作者)
    • Kai Liu:浙江大学,与HiThink Research有关
    • Yanhao Zheng:未明确说明机构
    • Kai Wang:多伦多大学
  • 通讯作者:Hao Fei(新加坡国立大学)
  • 作者列表:
    • Kai Liu (浙江大学, HiThink Research)
    • Yanhao Zheng (未说明具体机构)
    • Kai Wang (多伦多大学)
    • Shengqiong Wu (新加坡国立大学)
    • Rongjunchen Zhang (HiThink Research)
    • Jiebo Luo (罗切斯特大学)
    • Dimitrios Hatzinakos (多伦多大学)
    • Ziwei Liu (南洋理工大学)
    • Hao Fei (新加坡国立大学,通讯作者)
    • Tat-Seng Chua (新加坡国立大学)

💡 毒舌点评

论文的最大亮点在于提出了一个简洁且高效的统一框架(MS-MoE + TA-RoPE),显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而,所有实验仅在标准学术基准(JavisBench)上进行,缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证,其声称的“里程碑”意义有待更广泛的应用场景检验。

🔗 开源详情

  • 代码:提供代码仓库链接:https://JavisVerse.github.io/JavisDiT2-page
  • 模型权重:提供预训练模型权重。
  • 数据集:提供了用于音视频SFT的330K筛选数据集和用于DPO的25K数据集。
  • Demo:项目主页可能提供演示(未在论文文本中明确说明,但提供了链接)。
  • 复现材料:论文正文和附录详细描述了三阶段训练流程、所有超参数、数据处理方法、评估基准和指标,复现信息充分。
  • 引用的开源项目:依赖并冻结了Wan2.1(视频VAE、文本编码器)、AudioLDM2(音频VAE)、多个奖励模型(VideoAlign, AudioBox, SynchFormer, ImageBind)、以及用于数据处理的工具(FunASR, OpenSora的筛选策略)。

📌 核心摘要

  1. 要解决什么问题:现有开源的联合音频-视频生成(JAVG)模型在生成质量、时间同步性和与人类偏好对齐方面,仍落后于如Veo3等先进的商业模型。
  2. 方法核心是什么:论文提出了JavisDiT++框架,其核心包括三部分:(1) 模态特定混合专家(MS-MoE),在共享注意力层后使用独立的音频和视频FFN,以增强跨模态交互同时保持单模态质量;(2) 时间对齐旋转位置编码(TA-RoPE),通过统一的时间轴ID显式实现音频和视频token的帧级同步;(3) 音视频直接偏好优化(AV-DPO),首次将人类偏好对齐引入JAVG,通过多维度奖励模型构建偏好数据对模型进行微调。
  3. 与已有方法相比新在哪里:相比于之前复杂的双流DiT(如JavisDiT, UniVerse-1),本文设计了一个更简洁高效的统一骨干网络。TA-RoPE比ST-Prior或缝合策略提供了更精确、无额外开销的时间对齐机制。AV-DPO则是首次在JAVG任务中应用偏好优化。
  4. 主要实验结果如何:基于Wan2.1-1.3B-T2V构建的模型,在仅使用约1M公开数据训练后,在JavisBench基准上全面超越了JavisDiT和UniVerse-1。关键对比数据见下表:
模型视频质量 (FVD↓)音频质量 (FAD↓)文本一致性 (TV-IB↑)音视频一致性 (AV-IB↑)音视频同步 (JavisScore↑, DeSync↓)
JavisDiT (3.1B)204.17.20.2630.1970.154, 1.039
UniVerse-1 (6.4B)194.28.70.2720.1040.077, 0.929
Ours (2.1B)141.55.50.2820.1980.159, 0.832

表1:JavisBench上主要结果对比(数据来自论文) 5. 实际意义是什么:该工作为开源联合音视频生成提供了一个性能优异、架构简洁且可高效训练的解决方案,有望成为该领域的一个重要基准和起点。 6. 主要局限性是什么:论文作者指出的局限包括:训练数据规模(~1M)有限可能限制泛化性;模型骨干(1.3B)相对较小;依赖于参数高效微调(LoRA)而非全参数训练;在可控生成(如音乐、语音的细粒度控制)和更多跨模态任务上的扩展能力尚未探索。

🏗️ 模型架构

JavisDiT++的整体架构旨在将预训练的文本到视频(T2V)模型(Wan2.1-1.3B-T2V)扩展为联合音频视频生成模型。其核心思想是“统一处理,模态特异聚合”。

JavisDiT++ 架构图 图3:JavisDiT++ 架构示意图。视频和文本token经过嵌入后与音频token拼接,通过共享的自注意力层进行跨模态信息交互。之后,token被分离,分别送入模态特定的FFN(视频FFN和音频FFN)进行特征聚合,最后通过各自的预测头输出预测的噪声。时间对齐RoPE(TA-RoPE)作用于注意力计算中。

完整输入输出流程:

  1. 输入:文本提示,经冻结的umT5文本编码器转换为文本token;目标视频和音频分别经冻结的视频VAE(来自Wan2.1)和音频VAE(来自AudioLDM2)压缩为潜在表示。
  2. 扩散过程:在训练时,对视频和音频潜在表示添加噪声。模型输入为噪声化的视频token、音频token、文本token以及时间步信息。
  3. 模型内部:
    • 嵌入与拼接:视频和音频token通过各自的嵌入层投影到统一维度,与文本token拼接成一个序列。
    • 共享自注意力:拼接后的序列通过多个Transformer层中的自注意力模块。这是跨模态交互的主要场所,音频和视频token在此相互关注。注意力计算中应用TA-RoPE来编码位置信息。
    • 模态分离与FFN:自注意力输出后,根据token来源(视频或音频)将其拆分。视频token送入视频FFN,音频token送入音频FFN。这种设计(MS-MoE)确保了模态内部的充分建模,避免了模态间的干扰。
    • 预测:处理后的视频和音频token分别通过各自的预测头(通常是一个线性层),输出预测的噪声向量(v_θ(x_v,t,t)v_θ(x_a,t,t))。
  4. 损失计算:预测噪声与真实噪声(来自流匹配目标)计算均方误差(L2损失),如公式(2)所示。
  5. 输出(推理时):从纯噪声开始,通过求解微分方程(ODE),迭代调用上述模型进行去噪,最终生成同步的视频和音频潜在表示,再分别由解码器转换为真实的视频帧和梅尔频谱图(最终转换为波形)。

关键设计选择:

  • 统一骨干 vs 双流:与之前需要两个独立DiT并通过交叉注意力交互的方案(如JavisDiT, UniVerse-1)不同,本文采用单个DiT处理所有模态,架构更简洁,推理效率更高(表1中Runtime仅为10s,远低于JavisDiT的30s)。
  • MS-MoE:不同于将音频视频token送入同一个FFN的方案(如UniForm),也不同于复杂的动态路由MoE,本文采用确定性的、基于模态的分配。其动机是,在充分的自注意力交互后,让每个模态的特征在独立的FFN中精炼,既能提升单模态质量,又能保持高效(激活参数量与1.3B的基础模型相同,总参数增至2.1B)。

TA-RoPE的详细设计:这是实现显式时间对齐的关键。

TA-RoPE 示意图 图4:时间对齐旋转位置编码(TA-RoPE)示意图。视频token的位置ID沿(时间,高度,宽度)三个维度分配。音频token(来自梅尔频谱图)的位置ID被设计为:第一维(时间)与对齐的视频帧ID严格一致,后两维则通过偏移视频的高度H和宽度W来避免与视频token的位置ID重叠。

  • 视频token:位置ID格式为 (t, h, w),其中 t 是时间步,h, w 是空间位置。 音频token(梅尔频谱图 Ta x M):首先增加一个时间维度以匹配视频。其位置ID被定义为 ([t Tv/Ta], t + H, m + W)(公式4)。核心是确保在时间维度(第一维)上,第 i 帧的视频token与对应时间段的音频token共享相同的 t 值,从而建立显式的帧级同步。后两维的偏移保证了位置空间的唯一性,避免混淆。此设计完全通过位置ID的数学操作实现,无需物理重排token序列,因此不增加计算开销。

💡 核心创新点

  1. 模态特定混合专家(MS-MoE)架构:

    • 是什么:在统一的Transformer骨干中,音频和视频token共享自注意力层进行信息交互,然后通过确定性的路由分配给各自独立的FFN进行特征处理。
    • 之前局限:UniForm使用单一FFN处理混合token,易导致模态干扰和质量下降;双流DiT(如JavisDiT)架构复杂,参数多,训练和推理开销大。
    • 如何起作用:共享注意力确保了密集的跨模态建模;独立FFN让每个模态专注于自身的特征空间,提升了生成质量。该设计在保持与基础T2V模型相同推理计算量的前提下,显著提升了音频生成能力。
    • 收益:模型在视频质量(FVD)和音频质量(FAD)上均大幅优于基线(表1, 表2),且架构更简洁高效。
  2. 时间对齐旋转位置编码(TA-RoPE):

    • 是什么:一种修改RoPE位置编码的策略,通过设计音频和视频token的3D位置ID,使它们在时间维度上严格对齐。
    • 之前局限:JavisDiT的ST-Prior和UniVerse-1的缝合策略是隐式或附加的同步机制,可能不够精确且增加额外模块或计算开销。
    • 如何起作用:直接将音频的梅尔频谱图token的时间ID映射到与视频帧相同的ID上,在注意力计算时,模型自然能学到“同一时间步”的音频和视频token应该紧密关联。
    • 收益:实现了更精确、零额外开销的帧级同步,在DeSync(衡量时序失准)指标上显著优于基线(表1, 表3),且不增加推理延迟。
  3. 音视频直接偏好优化(AV-DPO):

    • 是什么:首次将DPO算法应用于联合音视频生成。通过多个奖励模型(评估音频质量、视频质量、音视频对齐)自动构建偏好数据对,并据此微调模型。
    • 之前局限:JAVG领域缺乏人类偏好对齐技术,生成结果可能质量高但不完全符合人类审美或语义一致性要求。
    • 如何起作用:利用模态感知的评分策略(分别对音频、视频、音视频对齐维度打分并归一化)选择优势/劣势样本对,训练模型增大优势样本的似然,减小劣势样本的似然。同时加入流匹配损失进行正则化。
    • 收益:在消融实验中(表4),AV-DPO在多数指标上带来了提升。人类评估(图9)显示,DPO版本比SFT版本更受偏好(胜率74.7%),证明了其对齐人类偏好的有效性。

🔬 细节详述

  • 训练数据:
    • 音频预训练:780K公开音频-文本对,来源包括AudioSet, AudioCaps, VGGSound, WavCaps, Clotho等(见图A2左)。
    • 音视频SFT:330K从TAVGBench筛选的高质量音视频-文本三元组。筛选过程包括:使用FunASR去除语音视频;使用美学评分、运动评分、OCR评分过滤低质量视频(见图A2右)。
    • 音视频DPO:额外25K样本(与SFT不重叠)。偏好对构建使用30K提示生成样本并加入真实样本,通过奖励模型评估后排序。
  • 损失函数:
    • 主损失:流匹配损失(公式2),即预测速度场与目标速度场(噪声-数据差)的L2距离。
    • DPO损失(公式6):一个基于隐式奖励的log-sigmoid损失,同时考虑视频和音频模态,并引入超参数 β_v, β_a 控制偏离参考模型的程度。训练时与流匹配损失结合。
  • 训练策略:
    • 三阶段训练:
      1. 音频预训练:在780K音频数据上训练,仅更新新增的音频FFN及音频嵌入/头层。学习率 1e-4,训练50 epochs。
      2. 音视频SFT:在330K音视频数据上训练,仅对模型添加LoRA模块进行微调(保留原始骨干和音频FFN参数)。学习率 1e-4,训练2 epochs。
      3. 音视频DPO:在25K偏好数据上训练,继续更新LoRA参数。学习率 1e-5,训练1 epoch。
    • 优化器:未明确说明,可能为AdamW。
    • Batch size:动态(未提供具体值)。
    • 分辨率/时长:动态训练,支持2-5秒, 240p-480p,不同宽高比。
  • 关键超参数:
    • 模型大小:总参数2.1B,激活参数1.3B(基于Wan2.1-1.3B)。
    • 骨干层数:30层Transformer,隐藏维度1536。
    • LoRA秩(r):64(消融实验图7表明此设置略优)。
    • DPO β值:β_a=3000(音频), β_v=1000(视频)(消融图A6显示音频需要较小β以更好对齐,视频需要较大β以稳定预训练先验)。
  • 训练硬件:未明确说明GPU型号和数量。给出了GPU-day数:音频预训练16 GPU-day,音视频SFT 16 GPU-day, DPO 3 GPU-day(可能基于H100)。
  • 推理细节:使用Rectified Flow的ODE求解器进行采样,具体步数未说明。支持动态分辨率和时长。
  • 正则化:DPO训练时, AV-DPO损失与流匹配损失联合优化,以防止过拟合(Hung et al., 2024)。

📊 实验结果

主要基准结果:论文在JavisBench(10,140个提示)上评估了生成240p 4秒视频的效果,对比了级联方案(T2A+A2V, T2V+V2A)和原生JAVG模型。

模型类型视频质量 (FVD↓, FAD↓)文本一致性 (TV-IB↑, TA-IB↑, CLIP↑, CLAP↑)音视频一致性 (AV-IB↑, AVHScore↑)音视频同步 (JavisScore↑, DeSync↓)推理耗时 (↓)
T2A+A2V
TempoTkn级联-, 0.0840.205, -, -, --, 0.1390.122, 1.53220s
TPoS级联-, 0.2010.229, -, -, --, 0.1240.129, 1.49319s
T2V+V2A
ReWaS级联-, 9.4-, 0.123, -, 0.2800.110, 0.1040.079, 1.07117s
FoleyC级联-, 9.1-, 0.149, -, 0.3830.193, 0.1860.151, 0.95216s
MMAudio级联-, 6.1-, 0.160, -, 0.4070.198, 0.1820.150, 0.84915s
T2AV (原生)
MM-Diff原生2311.9, 27.50.080, 0.014, 0.181, 0.0790.119, 0.1090.070, 0.8759s
JavisDiT原生204.1, 7.20.263, 0.143, 0.302, 0.3910.197, 0.1790.154, 1.03930s
UniVerse-1原生194.2, 8.70.272, 0.111, 0.309, 0.2450.104, 0.0980.077, 0.92913s
JavisDiT++ (Ours)原生141.5, 5.50.282, 0.164, 0.316, 0.4240.198, 0.1840.159, 0.83210s
表1(重复):JavisBench主要结果对比。Ours在几乎所有指标上取得最佳,特别是在视频质量(FVD)和音频质量(FAD)上取得大幅领先,同步性(DeSync)也显著优于JavisDiT和UniVerse-1,同时推理速度更快。

关键消融实验:

  1. 架构设计对比(表2):在Wan2.1-T2V上适配JAVG的三种方式。
    • Shared-DiT + LoRA:音频质量和一致性差。
    • Shared-DiT + Full-FT:严重损害视频质量。
    • MS-MoE (Ours):在保持强视频生成能力的同时,获得最好的音频质量和一致性。
架构设计FVD↓FAD↓TV-IB↑AV-IB↑JavisScore↑DeSync↓
Shared-DiT + LoRA227.66.510.2830.1270.0980.934
Shared-DiT + Full-FT269.35.660.2760.1640.1370.945
MS-MoE (Ours)221.35.510.2830.1940.1530.807
表2:架构设计消融(在JavisBench-mini上)。MS-MoE方案取得最佳平衡。
  1. 同步机制对比(表3):在基础MS-MoE模型上添加不同同步模块。
    • ST-Prior (JavisDiT) 和 FrameAttn (UniVerse-1) 能改善同步性,但增加推理延迟(6ms~18ms)。
    • TA-RoPE (Ours) 以零额外延迟实现了最佳的同步性能(DeSync最低)。组合TA-RoPE与其他模块提升微乎其微,但增加复杂度。
同步机制JavisScore↑DeSync↓推理延迟
None0.1420.9421m4s
ST-Prior0.1450.8631m10s
FrameAttn0.1240.8501m22s
TA-RoPE (Ours)0.1530.8071m4s
表3:同步机制消融(在JavisBench-mini上)。TA-RoPE效果最好且高效。
  1. AV-DPO奖励策略对比(表4):
    • 模态无关策略(Average-Micro/Macro)提升不一致或不明显。
    • 模态感知策略(Modality-Micro/Macro) 在质量、一致性和同步性上带来稳定提升。
    • 去除归一化(w/o norm)或去除真实样本(w/o gt)会降低效果。
奖励设计FVD↓FAD↓AV-IB↑JavisScore↑DeSync↓
None (baseline)221.35.510.1940.1530.807
Average-Micro199.75.280.1990.1540.810
Modality-Micro198.55.320.2010.1560.776
Modality-Micro (w/o norm)210.05.340.1970.1530.821
Modality-Micro (w/o gt)234.75.430.1970.1540.833
表4:AV-DPO奖励策略消融(在JavisBench-mini上)。模态感知策略有效。

定性对比:图6展示了与Veo-3、JavisDiT、UniVerse-1的生成对比。论文声称JavisDiT++在细节保真度、音视频一致性和同步性上更接近Veo-3的效果。

人类评估:图8显示,在100个提示的偏好测试中,JavisDiT++对JavisDiT和UniVerse-1的胜率均超过74%。图9显示,AV-DPO优化后的模型比SFT模型更受人类偏好(胜率74.7%)。

⚖️ 评分理由

  • 学术质量:5.5/7:论文提出了清晰且合理的技术方案(MS-MoE, TA-RoPE, AV-DPO),解决了联合音视频生成中的关键挑战(质量、同步、对齐)。实验设计全面,包括了主实验、丰富的消融研究和人类评估,数据可信。主要扣分点在于:1. 所有实验均在单一基准JavisBench上进行,缺乏对更多样化、更复杂场景的验证;2. 与SOTA商业模型Veo-3的差距仍较大(图2),其“state-of-the-art”主要针对开源模型;3. 核心创新(如MoE、DPO)在AI领域已较为常见,结合到本任务有一定新意,但非根本性突破。
  • 选题价值:1.5/2:联合音视频生成是AIGC领域的重要方向,有广泛的应用前景(影视、游戏、VR)。论文聚焦于缩小开源与商业模型的差距,并公开了代码和模型,对社区有实际价值。扣分点在于,该方向相对垂直,且模型在实际部署、长视频生成、复杂语义控制等方面的能力未被验证。
  • 开源与复现加成:0.5/1:论文提供了详细的复现材料:1. 代码和模型权重已公开(GitHub链接);2. 训练数据集(筛选后的TAVGBench子集)公开;3. 附录提供了极详细的超参数设置、训练细节、评估协议和消融实验设计。这极大地便利了复现和后续研究。

← 返回 ICLR 2026 论文分析