📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

#音视频生成 #流匹配 #扩散模型 #多模态模型

✅ 7.5/10 | 前25% | #音视频生成 | #流匹配 | #扩散模型 #多模态模型

学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高

👥 作者与机构

第一作者：Kai Liu, Yanhao Zheng, Kai Wang（共同第一作者）
- Kai Liu：浙江大学，与HiThink Research有关
- Yanhao Zheng：未明确说明机构
- Kai Wang：多伦多大学
通讯作者：Hao Fei（新加坡国立大学）
作者列表：
- Kai Liu (浙江大学, HiThink Research)
- Yanhao Zheng (未说明具体机构)
- Kai Wang (多伦多大学)
- Shengqiong Wu (新加坡国立大学)
- Rongjunchen Zhang (HiThink Research)
- Jiebo Luo (罗切斯特大学)
- Dimitrios Hatzinakos (多伦多大学)
- Ziwei Liu (南洋理工大学)
- Hao Fei (新加坡国立大学，通讯作者)
- Tat-Seng Chua (新加坡国立大学)

💡 毒舌点评

论文的最大亮点在于提出了一个简洁且高效的统一框架（MS-MoE + TA-RoPE），显著缩小了开源联合音视频生成模型与商业模型Veo3之间的差距。然而，所有实验仅在标准学术基准（JavisBench）上进行，缺乏对真实世界长尾场景、复杂语义或大规模生成能力的验证，其声称的“里程碑”意义有待更广泛的应用场景检验。

🔗 开源详情

代码：提供代码仓库链接：https://JavisVerse.github.io/JavisDiT2-page
模型权重：提供预训练模型权重。
数据集：提供了用于音视频SFT的330K筛选数据集和用于DPO的25K数据集。
Demo：项目主页可能提供演示（未在论文文本中明确说明，但提供了链接）。
复现材料：论文正文和附录详细描述了三阶段训练流程、所有超参数、数据处理方法、评估基准和指标，复现信息充分。
引用的开源项目：依赖并冻结了Wan2.1（视频VAE、文本编码器）、AudioLDM2（音频VAE）、多个奖励模型（VideoAlign, AudioBox, SynchFormer, ImageBind）、以及用于数据处理的工具（FunASR, OpenSora的筛选策略）。

📌 核心摘要

要解决什么问题：现有开源的联合音频-视频生成（JAVG）模型在生成质量、时间同步性和与人类偏好对齐方面，仍落后于如Veo3等先进的商业模型。
方法核心是什么：论文提出了JavisDiT++框架，其核心包括三部分：(1) 模态特定混合专家（MS-MoE），在共享注意力层后使用独立的音频和视频FFN，以增强跨模态交互同时保持单模态质量；(2) 时间对齐旋转位置编码（TA-RoPE），通过统一的时间轴ID显式实现音频和视频token的帧级同步；(3) 音视频直接偏好优化（AV-DPO），首次将人类偏好对齐引入JAVG，通过多维度奖励模型构建偏好数据对模型进行微调。
与已有方法相比新在哪里：相比于之前复杂的双流DiT（如JavisDiT, UniVerse-1），本文设计了一个更简洁高效的统一骨干网络。TA-RoPE比ST-Prior或缝合策略提供了更精确、无额外开销的时间对齐机制。AV-DPO则是首次在JAVG任务中应用偏好优化。
主要实验结果如何：基于Wan2.1-1.3B-T2V构建的模型，在仅使用约1M公开数据训练后，在JavisBench基准上全面超越了JavisDiT和UniVerse-1。关键对比数据见下表：

模型	视频质量 (FVD↓)	音频质量 (FAD↓)	文本一致性 (TV-IB↑)	音视频一致性 (AV-IB↑)	音视频同步 (JavisScore↑, DeSync↓)
JavisDiT (3.1B)	204.1	7.2	0.263	0.197	0.154, 1.039
UniVerse-1 (6.4B)	194.2	8.7	0.272	0.104	0.077, 0.929
Ours (2.1B)	141.5	5.5	0.282	0.198	0.159, 0.832

表1：JavisBench上主要结果对比（数据来自论文） 5. 实际意义是什么：该工作为开源联合音视频生成提供了一个性能优异、架构简洁且可高效训练的解决方案，有望成为该领域的一个重要基准和起点。 6. 主要局限性是什么：论文作者指出的局限包括：训练数据规模（~1M）有限可能限制泛化性；模型骨干（1.3B）相对较小；依赖于参数高效微调（LoRA）而非全参数训练；在可控生成（如音乐、语音的细粒度控制）和更多跨模态任务上的扩展能力尚未探索。

🏗️ 模型架构

JavisDiT++的整体架构旨在将预训练的文本到视频（T2V）模型（Wan2.1-1.3B-T2V）扩展为联合音频视频生成模型。其核心思想是“统一处理，模态特异聚合”。

JavisDiT++ 架构图图3：JavisDiT++ 架构示意图。视频和文本token经过嵌入后与音频token拼接，通过共享的自注意力层进行跨模态信息交互。之后，token被分离，分别送入模态特定的FFN（视频FFN和音频FFN）进行特征聚合，最后通过各自的预测头输出预测的噪声。时间对齐RoPE（TA-RoPE）作用于注意力计算中。

完整输入输出流程：

输入：文本提示，经冻结的umT5文本编码器转换为文本token；目标视频和音频分别经冻结的视频VAE（来自Wan2.1）和音频VAE（来自AudioLDM2）压缩为潜在表示。
扩散过程：在训练时，对视频和音频潜在表示添加噪声。模型输入为噪声化的视频token、音频token、文本token以及时间步信息。
模型内部：
- 嵌入与拼接：视频和音频token通过各自的嵌入层投影到统一维度，与文本token拼接成一个序列。
- 共享自注意力：拼接后的序列通过多个Transformer层中的自注意力模块。这是跨模态交互的主要场所，音频和视频token在此相互关注。注意力计算中应用TA-RoPE来编码位置信息。
- 模态分离与FFN：自注意力输出后，根据token来源（视频或音频）将其拆分。视频token送入视频FFN，音频token送入音频FFN。这种设计（MS-MoE）确保了模态内部的充分建模，避免了模态间的干扰。
- 预测：处理后的视频和音频token分别通过各自的预测头（通常是一个线性层），输出预测的噪声向量（v_θ(x_v,t,t) 和 v_θ(x_a,t,t)）。
损失计算：预测噪声与真实噪声（来自流匹配目标）计算均方误差（L2损失），如公式（2）所示。
输出（推理时）：从纯噪声开始，通过求解微分方程（ODE），迭代调用上述模型进行去噪，最终生成同步的视频和音频潜在表示，再分别由解码器转换为真实的视频帧和梅尔频谱图（最终转换为波形）。

关键设计选择：

统一骨干 vs 双流：与之前需要两个独立DiT并通过交叉注意力交互的方案（如JavisDiT， UniVerse-1）不同，本文采用单个DiT处理所有模态，架构更简洁，推理效率更高（表1中Runtime仅为10s，远低于JavisDiT的30s）。
MS-MoE：不同于将音频视频token送入同一个FFN的方案（如UniForm），也不同于复杂的动态路由MoE，本文采用确定性的、基于模态的分配。其动机是，在充分的自注意力交互后，让每个模态的特征在独立的FFN中精炼，既能提升单模态质量，又能保持高效（激活参数量与1.3B的基础模型相同，总参数增至2.1B）。

TA-RoPE的详细设计：这是实现显式时间对齐的关键。

TA-RoPE 示意图图4：时间对齐旋转位置编码（TA-RoPE）示意图。视频token的位置ID沿（时间，高度，宽度）三个维度分配。音频token（来自梅尔频谱图）的位置ID被设计为：第一维（时间）与对齐的视频帧ID严格一致，后两维则通过偏移视频的高度H和宽度W来避免与视频token的位置ID重叠。

视频token：位置ID格式为 (t, h, w)，其中 t 是时间步，h, w 是空间位置。音频token（梅尔频谱图 Ta x M）：首先增加一个时间维度以匹配视频。其位置ID被定义为 ([t Tv/Ta], t + H, m + W)（公式4）。核心是确保在时间维度（第一维）上，第 i 帧的视频token与对应时间段的音频token共享相同的 t 值，从而建立显式的帧级同步。后两维的偏移保证了位置空间的唯一性，避免混淆。此设计完全通过位置ID的数学操作实现，无需物理重排token序列，因此不增加计算开销。

💡 核心创新点

模态特定混合专家（MS-MoE）架构：
- 是什么：在统一的Transformer骨干中，音频和视频token共享自注意力层进行信息交互，然后通过确定性的路由分配给各自独立的FFN进行特征处理。
- 之前局限：UniForm使用单一FFN处理混合token，易导致模态干扰和质量下降；双流DiT（如JavisDiT）架构复杂，参数多，训练和推理开销大。
- 如何起作用：共享注意力确保了密集的跨模态建模；独立FFN让每个模态专注于自身的特征空间，提升了生成质量。该设计在保持与基础T2V模型相同推理计算量的前提下，显著提升了音频生成能力。
- 收益：模型在视频质量（FVD）和音频质量（FAD）上均大幅优于基线（表1，表2），且架构更简洁高效。
时间对齐旋转位置编码（TA-RoPE）：
- 是什么：一种修改RoPE位置编码的策略，通过设计音频和视频token的3D位置ID，使它们在时间维度上严格对齐。
- 之前局限：JavisDiT的ST-Prior和UniVerse-1的缝合策略是隐式或附加的同步机制，可能不够精确且增加额外模块或计算开销。
- 如何起作用：直接将音频的梅尔频谱图token的时间ID映射到与视频帧相同的ID上，在注意力计算时，模型自然能学到“同一时间步”的音频和视频token应该紧密关联。
- 收益：实现了更精确、零额外开销的帧级同步，在DeSync（衡量时序失准）指标上显著优于基线（表1，表3），且不增加推理延迟。
音视频直接偏好优化（AV-DPO）：
- 是什么：首次将DPO算法应用于联合音视频生成。通过多个奖励模型（评估音频质量、视频质量、音视频对齐）自动构建偏好数据对，并据此微调模型。
- 之前局限：JAVG领域缺乏人类偏好对齐技术，生成结果可能质量高但不完全符合人类审美或语义一致性要求。
- 如何起作用：利用模态感知的评分策略（分别对音频、视频、音视频对齐维度打分并归一化）选择优势/劣势样本对，训练模型增大优势样本的似然，减小劣势样本的似然。同时加入流匹配损失进行正则化。
- 收益：在消融实验中（表4），AV-DPO在多数指标上带来了提升。人类评估（图9）显示，DPO版本比SFT版本更受偏好（胜率74.7%），证明了其对齐人类偏好的有效性。

🔬 细节详述

训练数据：
- 音频预训练：780K公开音频-文本对，来源包括AudioSet, AudioCaps, VGGSound, WavCaps, Clotho等（见图A2左）。
- 音视频SFT：330K从TAVGBench筛选的高质量音视频-文本三元组。筛选过程包括：使用FunASR去除语音视频；使用美学评分、运动评分、OCR评分过滤低质量视频（见图A2右）。
- 音视频DPO：额外25K样本（与SFT不重叠）。偏好对构建使用30K提示生成样本并加入真实样本，通过奖励模型评估后排序。
损失函数：
- 主损失：流匹配损失（公式2），即预测速度场与目标速度场（噪声-数据差）的L2距离。
- DPO损失（公式6）：一个基于隐式奖励的log-sigmoid损失，同时考虑视频和音频模态，并引入超参数 β_v, β_a 控制偏离参考模型的程度。训练时与流匹配损失结合。
训练策略：
- 三阶段训练：
  1. 音频预训练：在780K音频数据上训练，仅更新新增的音频FFN及音频嵌入/头层。学习率 1e-4，训练50 epochs。
  2. 音视频SFT：在330K音视频数据上训练，仅对模型添加LoRA模块进行微调（保留原始骨干和音频FFN参数）。学习率 1e-4，训练2 epochs。
  3. 音视频DPO：在25K偏好数据上训练，继续更新LoRA参数。学习率 1e-5，训练1 epoch。
- 优化器：未明确说明，可能为AdamW。
- Batch size：动态（未提供具体值）。
- 分辨率/时长：动态训练，支持2-5秒， 240p-480p，不同宽高比。
关键超参数：
- 模型大小：总参数2.1B，激活参数1.3B（基于Wan2.1-1.3B）。
- 骨干层数：30层Transformer，隐藏维度1536。
- LoRA秩(r)：64（消融实验图7表明此设置略优）。
- DPO β值：β_a=3000（音频）， β_v=1000（视频）（消融图A6显示音频需要较小β以更好对齐，视频需要较大β以稳定预训练先验）。
训练硬件：未明确说明GPU型号和数量。给出了GPU-day数：音频预训练16 GPU-day，音视频SFT 16 GPU-day， DPO 3 GPU-day（可能基于H100）。
推理细节：使用Rectified Flow的ODE求解器进行采样，具体步数未说明。支持动态分辨率和时长。
正则化：DPO训练时， AV-DPO损失与流匹配损失联合优化，以防止过拟合（Hung et al., 2024）。

📊 实验结果

主要基准结果：论文在JavisBench（10,140个提示）上评估了生成240p 4秒视频的效果，对比了级联方案（T2A+A2V, T2V+V2A）和原生JAVG模型。

模型	类型	视频质量 (FVD↓, FAD↓)	文本一致性 (TV-IB↑, TA-IB↑, CLIP↑, CLAP↑)	音视频一致性 (AV-IB↑, AVHScore↑)	音视频同步 (JavisScore↑, DeSync↓)	推理耗时 (↓)
T2A+A2V
TempoTkn	级联	-, 0.084	0.205, -, -, -	-, 0.139	0.122, 1.532	20s
TPoS	级联	-, 0.201	0.229, -, -, -	-, 0.124	0.129, 1.493	19s
T2V+V2A
ReWaS	级联	-, 9.4	-, 0.123, -, 0.280	0.110, 0.104	0.079, 1.071	17s
FoleyC	级联	-, 9.1	-, 0.149, -, 0.383	0.193, 0.186	0.151, 0.952	16s
MMAudio	级联	-, 6.1	-, 0.160, -, 0.407	0.198, 0.182	0.150, 0.849	15s
T2AV (原生)
MM-Diff	原生	2311.9, 27.5	0.080, 0.014, 0.181, 0.079	0.119, 0.109	0.070, 0.875	9s
JavisDiT	原生	204.1, 7.2	0.263, 0.143, 0.302, 0.391	0.197, 0.179	0.154, 1.039	30s
UniVerse-1	原生	194.2, 8.7	0.272, 0.111, 0.309, 0.245	0.104, 0.098	0.077, 0.929	13s
JavisDiT++ (Ours)	原生	141.5, 5.5	0.282, 0.164, 0.316, 0.424	0.198, 0.184	0.159, 0.832	10s
表1（重复）：JavisBench主要结果对比。Ours在几乎所有指标上取得最佳，特别是在视频质量（FVD）和音频质量（FAD）上取得大幅领先，同步性（DeSync）也显著优于JavisDiT和UniVerse-1，同时推理速度更快。

关键消融实验：

架构设计对比（表2）：在Wan2.1-T2V上适配JAVG的三种方式。
- Shared-DiT + LoRA：音频质量和一致性差。
- Shared-DiT + Full-FT：严重损害视频质量。
- MS-MoE (Ours)：在保持强视频生成能力的同时，获得最好的音频质量和一致性。

架构设计	FVD↓	FAD↓	TV-IB↑	AV-IB↑	JavisScore↑	DeSync↓
Shared-DiT + LoRA	227.6	6.51	0.283	0.127	0.098	0.934
Shared-DiT + Full-FT	269.3	5.66	0.276	0.164	0.137	0.945
MS-MoE (Ours)	221.3	5.51	0.283	0.194	0.153	0.807
表2：架构设计消融（在JavisBench-mini上）。MS-MoE方案取得最佳平衡。

同步机制对比（表3）：在基础MS-MoE模型上添加不同同步模块。
- ST-Prior (JavisDiT) 和 FrameAttn (UniVerse-1) 能改善同步性，但增加推理延迟（6ms~18ms）。
- TA-RoPE (Ours) 以零额外延迟实现了最佳的同步性能（DeSync最低）。组合TA-RoPE与其他模块提升微乎其微，但增加复杂度。

同步机制	JavisScore↑	DeSync↓	推理延迟
None	0.142	0.942	1m4s
ST-Prior	0.145	0.863	1m10s
FrameAttn	0.124	0.850	1m22s
TA-RoPE (Ours)	0.153	0.807	1m4s
表3：同步机制消融（在JavisBench-mini上）。TA-RoPE效果最好且高效。

AV-DPO奖励策略对比（表4）：
- 模态无关策略（Average-Micro/Macro）提升不一致或不明显。
- 模态感知策略（Modality-Micro/Macro）在质量、一致性和同步性上带来稳定提升。
- 去除归一化（w/o norm）或去除真实样本（w/o gt）会降低效果。

奖励设计	FVD↓	FAD↓	AV-IB↑	JavisScore↑	DeSync↓
None (baseline)	221.3	5.51	0.194	0.153	0.807
Average-Micro	199.7	5.28	0.199	0.154	0.810
Modality-Micro	198.5	5.32	0.201	0.156	0.776
Modality-Micro (w/o norm)	210.0	5.34	0.197	0.153	0.821
Modality-Micro (w/o gt)	234.7	5.43	0.197	0.154	0.833
表4：AV-DPO奖励策略消融（在JavisBench-mini上）。模态感知策略有效。

定性对比：图6展示了与Veo-3、JavisDiT、UniVerse-1的生成对比。论文声称JavisDiT++在细节保真度、音视频一致性和同步性上更接近Veo-3的效果。

人类评估：图8显示，在100个提示的偏好测试中，JavisDiT++对JavisDiT和UniVerse-1的胜率均超过74%。图9显示，AV-DPO优化后的模型比SFT模型更受人类偏好（胜率74.7%）。

⚖️ 评分理由

学术质量：5.5/7：论文提出了清晰且合理的技术方案（MS-MoE, TA-RoPE, AV-DPO），解决了联合音视频生成中的关键挑战（质量、同步、对齐）。实验设计全面，包括了主实验、丰富的消融研究和人类评估，数据可信。主要扣分点在于：1. 所有实验均在单一基准JavisBench上进行，缺乏对更多样化、更复杂场景的验证；2. 与SOTA商业模型Veo-3的差距仍较大（图2），其“state-of-the-art”主要针对开源模型；3. 核心创新（如MoE、DPO）在AI领域已较为常见，结合到本任务有一定新意，但非根本性突破。
选题价值：1.5/2：联合音视频生成是AIGC领域的重要方向，有广泛的应用前景（影视、游戏、VR）。论文聚焦于缩小开源与商业模型的差距，并公开了代码和模型，对社区有实际价值。扣分点在于，该方向相对垂直，且模型在实际部署、长视频生成、复杂语义控制等方面的能力未被验证。
开源与复现加成：0.5/1：论文提供了详细的复现材料：1. 代码和模型权重已公开（GitHub链接）；2. 训练数据集（筛选后的TAVGBench子集）公开；3. 附录提供了极详细的超参数设置、训练细节、评估协议和消融实验设计。这极大地便利了复现和后续研究。

← 返回 ICLR 2026 论文分析

📄 JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation#

👥 作者与机构#

💡 毒舌点评#

🔗 开源详情#

📌 核心摘要#

🏗️ 模型架构#

💡 核心创新点#

🔬 细节详述#

📊 实验结果#

⚖️ 评分理由#

📎 相关论文