📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation
#音视频生成 #流匹配 #扩散模型 #多模态模型
✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型
学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高
👥 作者与机构
- 第一作者:Kai Liu, Yanhao Zheng, Kai Wang(共同第一作者)
- Kai Liu:浙江大学,与HiThink Research有关
- Yanhao Zheng:未明确说明机构
- Kai Wang:多伦多大学
- 通讯作者:Hao Fei(新加坡国立大学)
- 作者列表:
- Kai Liu (浙江大学, HiThink Research)
- Yanhao Zheng (未说明具体机构)
- Kai Wang (多伦多大学)
- Shengqiong Wu (新加坡国立大学)
- Rongjunchen Zhang (HiThink Research)
- Jiebo Luo (罗切斯特大学)
- Dimitrios Hatzinakos (多伦多大学)
- Ziwei Liu (南洋理工大学)
- Hao Fei (新加坡国立大学,通讯作者)
- Tat-Seng Chua (新加坡国立大学)
💡 毒舌点评
论文的最大亮点在于提出了一个简洁且高效的统一框架(MS-MoE + TA-RoPE),显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而,所有实验仅在标准学术基准(JavisBench)上进行,缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证,其声称的“里程碑”意义有待更广泛的应用场景检验。
🔗 开源详情
- 代码:提供代码仓库链接:https://JavisVerse.github.io/JavisDiT2-page
- 模型权重:提供预训练模型权重。
- 数据集:提供了用于音视频SFT的330K筛选数据集和用于DPO的25K数据集。
- Demo:项目主页可能提供演示(未在论文文本中明确说明,但提供了链接)。
- 复现材料:论文正文和附录详细描述了三阶段训练流程、所有超参数、数据处理方法、评估基准和指标,复现信息充分。
- 引用的开源项目:依赖并冻结了Wan2.1(视频VAE、文本编码器)、AudioLDM2(音频VAE)、多个奖励模型(VideoAlign, AudioBox, SynchFormer, ImageBind)、以及用于数据处理的工具(FunASR, OpenSora的筛选策略)。
📌 核心摘要
- 要解决什么问题:现有开源的联合音频-视频生成(JAVG)模型在生成质量、时间同步性和与人类偏好对齐方面,仍落后于如Veo3等先进的商业模型。
- 方法核心是什么:论文提出了JavisDiT++框架,其核心包括三部分:(1) 模态特定混合专家(MS-MoE),在共享注意力层后使用独立的音频和视频FFN,以增强跨模态交互同时保持单模态质量;(2) 时间对齐旋转位置编码(TA-RoPE),通过统一的时间轴ID显式实现音频和视频token的帧级同步;(3) 音视频直接偏好优化(AV-DPO),首次将人类偏好对齐引入JAVG,通过多维度奖励模型构建偏好数据对模型进行微调。
- 与已有方法相比新在哪里:相比于之前复杂的双流DiT(如JavisDiT, UniVerse-1),本文设计了一个更简洁高效的统一骨干网络。TA-RoPE比ST-Prior或缝合策略提供了更精确、无额外开销的时间对齐机制。AV-DPO则是首次在JAVG任务中应用偏好优化。
- 主要实验结果如何:基于Wan2.1-1.3B-T2V构建的模型,在仅使用约1M公开数据训练后,在JavisBench基准上全面超越了JavisDiT和UniVerse-1。关键对比数据见下表:
| 模型 | 视频质量 (FVD↓) | 音频质量 (FAD↓) | 文本一致性 (TV-IB↑) | 音视频一致性 (AV-IB↑) | 音视频同步 (JavisScore↑, DeSync↓) |
|---|---|---|---|---|---|
| JavisDiT (3.1B) | 204.1 | 7.2 | 0.263 | 0.197 | 0.154, 1.039 |
| UniVerse-1 (6.4B) | 194.2 | 8.7 | 0.272 | 0.104 | 0.077, 0.929 |
| Ours (2.1B) | 141.5 | 5.5 | 0.282 | 0.198 | 0.159, 0.832 |
表1:JavisBench上主要结果对比(数据来自论文) 5. 实际意义是什么:该工作为开源联合音视频生成提供了一个性能优异、架构简洁且可高效训练的解决方案,有望成为该领域的一个重要基准和起点。 6. 主要局限性是什么:论文作者指出的局限包括:训练数据规模(~1M)有限可能限制泛化性;模型骨干(1.3B)相对较小;依赖于参数高效微调(LoRA)而非全参数训练;在可控生成(如音乐、语音的细粒度控制)和更多跨模态任务上的扩展能力尚未探索。
🏗️ 模型架构
JavisDiT++的整体架构旨在将预训练的文本到视频(T2V)模型(Wan2.1-1.3B-T2V)扩展为联合音频视频生成模型。其核心思想是“统一处理,模态特异聚合”。
图3:JavisDiT++ 架构示意图。视频和文本token经过嵌入后与音频token拼接,通过共享的自注意力层进行跨模态信息交互。之后,token被分离,分别送入模态特定的FFN(视频FFN和音频FFN)进行特征聚合,最后通过各自的预测头输出预测的噪声。时间对齐RoPE(TA-RoPE)作用于注意力计算中。
完整输入输出流程:
- 输入:文本提示,经冻结的umT5文本编码器转换为文本token;目标视频和音频分别经冻结的视频VAE(来自Wan2.1)和音频VAE(来自AudioLDM2)压缩为潜在表示。
- 扩散过程:在训练时,对视频和音频潜在表示添加噪声。模型输入为噪声化的视频token、音频token、文本token以及时间步信息。
- 模型内部:
- 嵌入与拼接:视频和音频token通过各自的嵌入层投影到统一维度,与文本token拼接成一个序列。
- 共享自注意力:拼接后的序列通过多个Transformer层中的自注意力模块。这是跨模态交互的主要场所,音频和视频token在此相互关注。注意力计算中应用TA-RoPE来编码位置信息。
- 模态分离与FFN:自注意力输出后,根据token来源(视频或音频)将其拆分。视频token送入视频FFN,音频token送入音频FFN。这种设计(MS-MoE)确保了模态内部的充分建模,避免了模态间的干扰。
- 预测:处理后的视频和音频token分别通过各自的预测头(通常是一个线性层),输出预测的噪声向量(
v_θ(x_v,t,t)和v_θ(x_a,t,t))。
- 损失计算:预测噪声与真实噪声(来自流匹配目标)计算均方误差(L2损失),如公式(2)所示。
- 输出(推理时):从纯噪声开始,通过求解微分方程(ODE),迭代调用上述模型进行去噪,最终生成同步的视频和音频潜在表示,再分别由解码器转换为真实的视频帧和梅尔频谱图(最终转换为波形)。
关键设计选择:
- 统一骨干 vs 双流:与之前需要两个独立DiT并通过交叉注意力交互的方案(如JavisDiT, UniVerse-1)不同,本文采用单个DiT处理所有模态,架构更简洁,推理效率更高(表1中Runtime仅为10s,远低于JavisDiT的30s)。
- MS-MoE:不同于将音频视频token送入同一个FFN的方案(如UniForm),也不同于复杂的动态路由MoE,本文采用确定性的、基于模态的分配。其动机是,在充分的自注意力交互后,让每个模态的特征在独立的FFN中精炼,既能提升单模态质量,又能保持高效(激活参数量与1.3B的基础模型相同,总参数增至2.1B)。
TA-RoPE的详细设计:这是实现显式时间对齐的关键。
图4:时间对齐旋转位置编码(TA-RoPE)示意图。视频token的位置ID沿(时间,高度,宽度)三个维度分配。音频token(来自梅尔频谱图)的位置ID被设计为:第一维(时间)与对齐的视频帧ID严格一致,后两维则通过偏移视频的高度H和宽度W来避免与视频token的位置ID重叠。
- 视频token:位置ID格式为
(t, h, w),其中t是时间步,h, w是空间位置。 音频token(梅尔频谱图Ta x M):首先增加一个时间维度以匹配视频。其位置ID被定义为([t Tv/Ta], t + H, m + W)(公式4)。核心是确保在时间维度(第一维)上,第i帧的视频token与对应时间段的音频token共享相同的t值,从而建立显式的帧级同步。后两维的偏移保证了位置空间的唯一性,避免混淆。此设计完全通过位置ID的数学操作实现,无需物理重排token序列,因此不增加计算开销。
💡 核心创新点
模态特定混合专家(MS-MoE)架构:
- 是什么:在统一的Transformer骨干中,音频和视频token共享自注意力层进行信息交互,然后通过确定性的路由分配给各自独立的FFN进行特征处理。
- 之前局限:UniForm使用单一FFN处理混合token,易导致模态干扰和质量下降;双流DiT(如JavisDiT)架构复杂,参数多,训练和推理开销大。
- 如何起作用:共享注意力确保了密集的跨模态建模;独立FFN让每个模态专注于自身的特征空间,提升了生成质量。该设计在保持与基础T2V模型相同推理计算量的前提下,显著提升了音频生成能力。
- 收益:模型在视频质量(FVD)和音频质量(FAD)上均大幅优于基线(表1, 表2),且架构更简洁高效。
时间对齐旋转位置编码(TA-RoPE):
- 是什么:一种修改RoPE位置编码的策略,通过设计音频和视频token的3D位置ID,使它们在时间维度上严格对齐。
- 之前局限:JavisDiT的ST-Prior和UniVerse-1的缝合策略是隐式或附加的同步机制,可能不够精确且增加额外模块或计算开销。
- 如何起作用:直接将音频的梅尔频谱图token的时间ID映射到与视频帧相同的ID上,在注意力计算时,模型自然能学到“同一时间步”的音频和视频token应该紧密关联。
- 收益:实现了更精确、零额外开销的帧级同步,在DeSync(衡量时序失准)指标上显著优于基线(表1, 表3),且不增加推理延迟。
音视频直接偏好优化(AV-DPO):
- 是什么:首次将DPO算法应用于联合音视频生成。通过多个奖励模型(评估音频质量、视频质量、音视频对齐)自动构建偏好数据对,并据此微调模型。
- 之前局限:JAVG领域缺乏人类偏好对齐技术,生成结果可能质量高但不完全符合人类审美或语义一致性要求。
- 如何起作用:利用模态感知的评分策略(分别对音频、视频、音视频对齐维度打分并归一化)选择优势/劣势样本对,训练模型增大优势样本的似然,减小劣势样本的似然。同时加入流匹配损失进行正则化。
- 收益:在消融实验中(表4),AV-DPO在多数指标上带来了提升。人类评估(图9)显示,DPO版本比SFT版本更受偏好(胜率74.7%),证明了其对齐人类偏好的有效性。
🔬 细节详述
- 训练数据:
- 音频预训练:780K公开音频-文本对,来源包括AudioSet, AudioCaps, VGGSound, WavCaps, Clotho等(见图A2左)。
- 音视频SFT:330K从TAVGBench筛选的高质量音视频-文本三元组。筛选过程包括:使用FunASR去除语音视频;使用美学评分、运动评分、OCR评分过滤低质量视频(见图A2右)。
- 音视频DPO:额外25K样本(与SFT不重叠)。偏好对构建使用30K提示生成样本并加入真实样本,通过奖励模型评估后排序。
- 损失函数:
- 主损失:流匹配损失(公式2),即预测速度场与目标速度场(噪声-数据差)的L2距离。
- DPO损失(公式6):一个基于隐式奖励的log-sigmoid损失,同时考虑视频和音频模态,并引入超参数
β_v,β_a控制偏离参考模型的程度。训练时与流匹配损失结合。
- 训练策略:
- 三阶段训练:
- 音频预训练:在780K音频数据上训练,仅更新新增的音频FFN及音频嵌入/头层。学习率
1e-4,训练50 epochs。 - 音视频SFT:在330K音视频数据上训练,仅对模型添加LoRA模块进行微调(保留原始骨干和音频FFN参数)。学习率
1e-4,训练2 epochs。 - 音视频DPO:在25K偏好数据上训练,继续更新LoRA参数。学习率
1e-5,训练1 epoch。
- 音频预训练:在780K音频数据上训练,仅更新新增的音频FFN及音频嵌入/头层。学习率
- 优化器:未明确说明,可能为AdamW。
- Batch size:动态(未提供具体值)。
- 分辨率/时长:动态训练,支持2-5秒, 240p-480p,不同宽高比。
- 三阶段训练:
- 关键超参数:
- 模型大小:总参数2.1B,激活参数1.3B(基于Wan2.1-1.3B)。
- 骨干层数:30层Transformer,隐藏维度1536。
- LoRA秩(r):64(消融实验图7表明此设置略优)。
- DPO β值:
β_a=3000(音频),β_v=1000(视频)(消融图A6显示音频需要较小β以更好对齐,视频需要较大β以稳定预训练先验)。
- 训练硬件:未明确说明GPU型号和数量。给出了GPU-day数:音频预训练16 GPU-day,音视频SFT 16 GPU-day, DPO 3 GPU-day(可能基于H100)。
- 推理细节:使用Rectified Flow的ODE求解器进行采样,具体步数未说明。支持动态分辨率和时长。
- 正则化:DPO训练时, AV-DPO损失与流匹配损失联合优化,以防止过拟合(Hung et al., 2024)。
📊 实验结果
主要基准结果:论文在JavisBench(10,140个提示)上评估了生成240p 4秒视频的效果,对比了级联方案(T2A+A2V, T2V+V2A)和原生JAVG模型。
| 模型 | 类型 | 视频质量 (FVD↓, FAD↓) | 文本一致性 (TV-IB↑, TA-IB↑, CLIP↑, CLAP↑) | 音视频一致性 (AV-IB↑, AVHScore↑) | 音视频同步 (JavisScore↑, DeSync↓) | 推理耗时 (↓) |
|---|---|---|---|---|---|---|
| T2A+A2V | ||||||
| TempoTkn | 级联 | -, 0.084 | 0.205, -, -, - | -, 0.139 | 0.122, 1.532 | 20s |
| TPoS | 级联 | -, 0.201 | 0.229, -, -, - | -, 0.124 | 0.129, 1.493 | 19s |
| T2V+V2A | ||||||
| ReWaS | 级联 | -, 9.4 | -, 0.123, -, 0.280 | 0.110, 0.104 | 0.079, 1.071 | 17s |
| FoleyC | 级联 | -, 9.1 | -, 0.149, -, 0.383 | 0.193, 0.186 | 0.151, 0.952 | 16s |
| MMAudio | 级联 | -, 6.1 | -, 0.160, -, 0.407 | 0.198, 0.182 | 0.150, 0.849 | 15s |
| T2AV (原生) | ||||||
| MM-Diff | 原生 | 2311.9, 27.5 | 0.080, 0.014, 0.181, 0.079 | 0.119, 0.109 | 0.070, 0.875 | 9s |
| JavisDiT | 原生 | 204.1, 7.2 | 0.263, 0.143, 0.302, 0.391 | 0.197, 0.179 | 0.154, 1.039 | 30s |
| UniVerse-1 | 原生 | 194.2, 8.7 | 0.272, 0.111, 0.309, 0.245 | 0.104, 0.098 | 0.077, 0.929 | 13s |
| JavisDiT++ (Ours) | 原生 | 141.5, 5.5 | 0.282, 0.164, 0.316, 0.424 | 0.198, 0.184 | 0.159, 0.832 | 10s |
| 表1(重复):JavisBench主要结果对比。Ours在几乎所有指标上取得最佳,特别是在视频质量(FVD)和音频质量(FAD)上取得大幅领先,同步性(DeSync)也显著优于JavisDiT和UniVerse-1,同时推理速度更快。 |
关键消融实验:
- 架构设计对比(表2):在Wan2.1-T2V上适配JAVG的三种方式。
- Shared-DiT + LoRA:音频质量和一致性差。
- Shared-DiT + Full-FT:严重损害视频质量。
- MS-MoE (Ours):在保持强视频生成能力的同时,获得最好的音频质量和一致性。
| 架构设计 | FVD↓ | FAD↓ | TV-IB↑ | AV-IB↑ | JavisScore↑ | DeSync↓ |
|---|---|---|---|---|---|---|
| Shared-DiT + LoRA | 227.6 | 6.51 | 0.283 | 0.127 | 0.098 | 0.934 |
| Shared-DiT + Full-FT | 269.3 | 5.66 | 0.276 | 0.164 | 0.137 | 0.945 |
| MS-MoE (Ours) | 221.3 | 5.51 | 0.283 | 0.194 | 0.153 | 0.807 |
| 表2:架构设计消融(在JavisBench-mini上)。MS-MoE方案取得最佳平衡。 |
- 同步机制对比(表3):在基础MS-MoE模型上添加不同同步模块。
- ST-Prior (JavisDiT) 和 FrameAttn (UniVerse-1) 能改善同步性,但增加推理延迟(6ms~18ms)。
- TA-RoPE (Ours) 以零额外延迟实现了最佳的同步性能(DeSync最低)。组合TA-RoPE与其他模块提升微乎其微,但增加复杂度。
| 同步机制 | JavisScore↑ | DeSync↓ | 推理延迟 |
|---|---|---|---|
| None | 0.142 | 0.942 | 1m4s |
| ST-Prior | 0.145 | 0.863 | 1m10s |
| FrameAttn | 0.124 | 0.850 | 1m22s |
| TA-RoPE (Ours) | 0.153 | 0.807 | 1m4s |
| 表3:同步机制消融(在JavisBench-mini上)。TA-RoPE效果最好且高效。 |
- AV-DPO奖励策略对比(表4):
- 模态无关策略(Average-Micro/Macro)提升不一致或不明显。
- 模态感知策略(Modality-Micro/Macro) 在质量、一致性和同步性上带来稳定提升。
- 去除归一化(w/o norm)或去除真实样本(w/o gt)会降低效果。
| 奖励设计 | FVD↓ | FAD↓ | AV-IB↑ | JavisScore↑ | DeSync↓ |
|---|---|---|---|---|---|
| None (baseline) | 221.3 | 5.51 | 0.194 | 0.153 | 0.807 |
| Average-Micro | 199.7 | 5.28 | 0.199 | 0.154 | 0.810 |
| Modality-Micro | 198.5 | 5.32 | 0.201 | 0.156 | 0.776 |
| Modality-Micro (w/o norm) | 210.0 | 5.34 | 0.197 | 0.153 | 0.821 |
| Modality-Micro (w/o gt) | 234.7 | 5.43 | 0.197 | 0.154 | 0.833 |
| 表4:AV-DPO奖励策略消融(在JavisBench-mini上)。模态感知策略有效。 |
定性对比:图6展示了与Veo-3、JavisDiT、UniVerse-1的生成对比。论文声称JavisDiT++在细节保真度、音视频一致性和同步性上更接近Veo-3的效果。
人类评估:图8显示,在100个提示的偏好测试中,JavisDiT++对JavisDiT和UniVerse-1的胜率均超过74%。图9显示,AV-DPO优化后的模型比SFT模型更受人类偏好(胜率74.7%)。
⚖️ 评分理由
- 学术质量:5.5/7:论文提出了清晰且合理的技术方案(MS-MoE, TA-RoPE, AV-DPO),解决了联合音视频生成中的关键挑战(质量、同步、对齐)。实验设计全面,包括了主实验、丰富的消融研究和人类评估,数据可信。主要扣分点在于:1. 所有实验均在单一基准JavisBench上进行,缺乏对更多样化、更复杂场景的验证;2. 与SOTA商业模型Veo-3的差距仍较大(图2),其“state-of-the-art”主要针对开源模型;3. 核心创新(如MoE、DPO)在AI领域已较为常见,结合到本任务有一定新意,但非根本性突破。
- 选题价值:1.5/2:联合音视频生成是AIGC领域的重要方向,有广泛的应用前景(影视、游戏、VR)。论文聚焦于缩小开源与商业模型的差距,并公开了代码和模型,对社区有实际价值。扣分点在于,该方向相对垂直,且模型在实际部署、长视频生成、复杂语义控制等方面的能力未被验证。
- 开源与复现加成:0.5/1:论文提供了详细的复现材料:1. 代码和模型权重已公开(GitHub链接);2. 训练数据集(筛选后的TAVGBench子集)公开;3. 附录提供了极详细的超参数设置、训练细节、评估协议和消融实验设计。这极大地便利了复现和后续研究。