📄 Inference-Time Scaling for Joint Audio-Video Generation
#语音合成
6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5
✅ 6.9/10 | 前50% | #语音合成 | #语音合成 | arxiv
👥 作者与机构
- 作者:Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung
- 机构:Korea Advanced Institute of Science and Technology (KAIST), Luma AI
💡 毒舌点评
这篇论文选了一个非常实际且重要的多模态生成问题——如何在推理时提升联合音视频生成的质量,而不是单纯增加训练成本。它指出了“单一验证器黑客”这个观察很有趣,且提出的多验证器组合选择和自适应奖励加权(ARW)思路有一定工程价值。然而,论文的局限性同样明显:1) 创新性有限,核心思想(ITS, 多目标聚合)在单模态领域已有大量研究,本文更多是将现有范式“移植”到多模态场景并做了一些调参和组合实验,缺乏理论层面的突破。2) 实验虽然全面,但评估完全依赖现有的自动化指标,而这些指标本身可能无法完全捕捉人类对音频-视频同步和质量的感知,人类评估部分也过于简单。3) 所提方法的计算开销依然巨大,限制了其实际应用,论文也未能提出真正有效的效率优化方案。4) 影响力受限于领域,核心贡献在音频-视频生成,对更广泛的语音处理社区直接启示有限。
📌 核心摘要
本文首次系统研究了推理时缩放(ITS)在联合音视频生成任务中的应用。研究发现,使用单一验证器进行引导会导致性能在不同维度间不平衡,并引发“验证器黑客”现象。因此,论文论证了采用多验证器框架的必要性,并通过实验确定了最优组合(文本-视频一致性验证器 + 音频-视频同步验证器)。为有效聚合来自不同验证器的异构奖励信号,论文提出了自适应奖励加权(ARW),这是一种测试时优化算法,能够在线校准奖励尺度,无需预先知道奖励分布。在VGGSound和JavisBench-mini基准上的实验证明,该框架显著提升了生成内容的语义对齐度、感知质量和音视频同步性。
🔗 开源详情
- 代码:https://jung-jaemin.github.io/ITS-AVGen-Proj (项目主页,论文声称合成样本和代码将在此处提供,但分析时未公开具体代码仓库)。
- 模型权重:论文未提供其提出的方法(如ARW校准后的参数)的模型权重。实验使用了开源模型:
- 数据集:论文未提供其评估所用基准数据集的直接下载链接,但引用了原始数据集:
- VGGSound test set: 来源于论文
chen2020vggsound - JavisBench-mini: 来源于论文
liu2025javisdit, 具体链接:https://huggingface.co/datasets/JavisVerse/JavisBench
- VGGSound test set: 来源于论文
- Demo:未提及在线演示链接。
- 复现材料:论文在附录中提供了详细的实验设置(B)、算法伪代码(C)和消融研究(D),这些构成了复现其推理时缩放(ITS)框架的主要材料。
- 论文中引用的开源项目:
- 评估工具:
- VQAScore: https://github.com/linzhiqiu/t2v_metrics
- JavisScore (JavisBench): https://huggingface.co/datasets/JavisVerse/JavisBench
- VideoReward (VideoAlign): https://github.com/KlingTeam/VideoAlign
- VBench: https://github.com/Vchitect/VBench
- AV-align (TempoTokens): https://github.com/guyyariv/TempoTokens
- ITS算法基线:
- 评估工具:
🏗️ 方法概述和架构
论文提出的方法是一个完整的推理时优化框架,核心包括多验证器选择与ARW聚合算法。
基础模型与ITS范式:方法建立在现有的预训练联合音视频扩散模型之上(如JavisDiT, MMDisCo)。其ITS范式是为给定文本提示生成\(N\)个候选样本,然后通过一组验证器对样本进行评分,并根据聚合分数选择最佳样本。论文探索了两种搜索策略:Best-of-N(生成后一次性选择)和EvoSearch(在去噪轨迹上进行进化搜索)。
多验证器框架:
- 组件与功能:框架使用两个核心验证器:(a) VideoReward-TA (VR):一个视频奖励模型,基于人类偏好数据训练,主要评估生成的视频与文本提示的语义一致性。(b) JavisScore (JS):一个专门评估音视频细粒度同步性的分数,它利用分段音频表示来衡量事件在时间维度上的一致性。
- 组合动机:论文通过实验(表1, 2)证明,单独使用VR或JS会导致性能失衡(例如,VR提升文本一致性但对音视频对齐提升有限,反之亦然),即“验证器黑客”。因此,将两者结合(VR+JS)作为互补信号,能同时改善文本一致性和音视频对齐,实现更平衡的质量提升。论文进一步比较了其他组合(表3),发现VR+JS在两个模型和两个数据集上都取得了最佳的整体性能平衡。
- 数据流:对于每个候选样本\(x^{(i)}\),其最终聚合分数\(R^{(i)}\)的计算依赖于来自VR和JS的原始奖励值\(r_{VR}^{(i)}\)和\(r_{JS}^{(i)}\)。
自适应奖励加权 (ARW):
- 目标:解决传统聚合方法(如加权和、排名、Z-score)无法适应不同验证器奖励的尺度和方差动态变化的问题,特别是在测试时没有先验统计信息的情况下。
- 核心组件:
- 可学习校准参数:为每个验证器\(k\)引入一个可学习的尺度参数\(\sigma_k > 0\)(实际参数化为\(\sigma_k^2 = \exp(s_k)\))。聚合分数的计算公式为: \[R^{(i)} = \sum_{k=1}^{K} w_k \cdot \frac{r_k^{(i)}}{\sigma_k + \epsilon}\] 其中\(w_k\)是可选的偏好权重,\(\epsilon\)是防止除零的小常数。
- 历史缓冲区与方差估计:维护一个历史缓冲区\(\mathcal{H}_k\),积累每个验证器\(k\)在多个提示和生成步骤中观察到的奖励值。利用该缓冲区计算经验方差\(\widehat{\mathrm{Var}}(r_k)\)。
- 测试时优化目标:通过最小化以下损失函数来更新校准参数\(s_k\): \[\mathcal{L}_{ARW} = \sum_{k=1}^{K} \left( \frac{1}{2} \exp(-s_k) \widehat{\mathrm{Var}}(r_k) + \frac{1}{2} |s_k| \right)\] 第一项鼓励在高方差奖励上增大\(s_k\)(即增大\(\sigma_k\)),从而降低其在聚合分数中的权重;第二项是正则化项,防止\(s_k\)发散。该损失函数借鉴了不确定性感知多任务学习的思想。
- 实现细节:在实践中,使用轻量级优化器(如Adam, 学习率0.05)在每个生成步骤进行少量(如50次)梯度更新。在EvoSearch中,采用一种重新评分策略:在整个搜索过程中维护累积的历史缓冲区,每代结束后基于全局统计更新校准参数,并对整个搜索轨迹上的候选样本进行重新评分,以确保跨代比较的公平性。
- 输入输出:输入是多个候选样本及其被多个验证器打分的原始奖励值;输出是经过校准和聚合后的最终分数,用于样本选择。
该方法通过将多目标聚合问题转化为一个在线优化问题,实现了无需离线统计数据的、鲁棒的奖励聚合,从而引导ITS过程在多个质量维度上取得平衡改进。


💡 核心创新点
- 首次多模态ITS研究:明确将推理时缩放范式应用于联合音视频生成,填补了该领域的空白,并指出了从单模态扩展到多模态时面临的多目标平衡核心挑战。
- 多验证器必要性实证:通过实验清晰地展示了单一验证器引导的局限性(性能不平衡、验证器黑客),并系统性地评估了不同多验证器组合,确定了以文本-视频一致性为主、音频-视频同步为辅的最优组合。
- 自适应奖励加权(ARW)算法:提出了一种新颖的测试时优化算法来聚合异构奖励。其核心创新在于将奖励聚合视为一个在线优化问题,通过学习校准参数来动态调整奖励尺度,有效处理了奖励分布未知且可能随提示变化的情况,避免了对离线统计信息的依赖。
📊 实验结果
论文在两个基准(JavisBench-mini, VGGSound测试集)和两个生成模型(JavisDiT, MMDisCo)上进行了广泛实验。
主要结果:
- 多验证器框架(VR+JS)相比单一验证器引导,在保持文本一致性的同时,显著提升了音视频对齐和同步性,实现了更平衡的改进(表1, 2)。
- 与其他多验证器组合相比,VR+JS在平衡性能和效率上表现最佳(表3)。
- ARW在大多数设置下,尤其是在与EvoSearch结合时,能比基线聚合方法(加权和、排名、Min-Max、Z-score)取得更好的整体性能提升,更好地平衡了文本一致性和音视频指标(表4, 5)。
- ITS能提升视频感知质量(表6),并且随着计算预算(样本数)增加,性能单调提升(图4)。
- 人类评估显示多验证器指导在文本一致性、音视频对齐和整体质量上均优于朴素采样和单验证器指导(图5)。
关键表格数据(摘录自论文): 表4:JavisBench-mini上聚合方法性能比较(Best-of-N设置)
| 聚合方法 | VR↑ | VQA↑ | TV-IB↑ | TA-IB↑ | AV-IB↑ | AVH-Score↑ | JavisScore↑ | Text↑ | AV↑ | Overall↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| 朴素采样 | -0.478 | 0.852 | 0.275 | 0.146 | 0.209 | 0.188 | 0.161 | - | - | - |
| Rank | -0.193 | 0.882 | 0.281 | 0.160 | 0.256 | 0.233 | 0.203 | 18.73 | 24.17 | 21.06 |
| Min-Max | -0.170 | 0.885 | 0.281 | 0.162 | 0.257 | 0.234 | 0.205 | 20.36 | 24.92 | 22.32 |
| Weighted | -0.106 | 0.889 | 0.282 | 0.161 | 0.252 | 0.231 | 0.201 | 23.75 | 22.76 | 23.33 |
| Z-score | -0.213 | 0.883 | 0.281 | 0.164 | 0.267 | 0.244 | 0.214 | 18.40 | 30.15 | 23.44 |
| ARW (Ours) | -0.167 | 0.885 | 0.281 | 0.163 | 0.263 | 0.240 | 0.210 | 20.69 | 27.98 | 23.81 |
表13(附录D.5):LTX-2模型上使用ITS的性能
| 聚合方法 | VR↑ | VQA↑ | TV-IB↑ | TA-IB↑ | AV-IB↑ | AVH-Score↑ | JavisScore↑ | Text↑ | AV↑ | Overall↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| 朴素采样 | 0.503 | 0.908 | 0.277 | 0.174 | 0.262 | 0.253 | 0.222 | - | - | - |
| ARW (Ours) | 0.639 | 0.915 | 0.279 | 0.183 | 0.274 | 0.267 | 0.238 | 8.41 | 5.76 | 7.28 |


⚖️ 评分理由
- 创新性 (1.3/2):论文首次将ITS应用于音视频联合生成,问题定义明确。核心贡献在于多验证器组合的实验探索和ARW算法的提出。但整体思路(ITS + 多目标聚合)在单模态领域已有大量工作,本文更多是迁移和应用,理论创新有限。
- 技术严谨性 (1.2/1.5):方法描述清晰,实验设计相对完整。ARW算法借鉴了不确定性学习的思想,并有收敛性分析(图8)。但部分分析依赖现有指标,缺乏对ARW在更极端分布下稳定性的深入讨论;对“验证器黑客”的定义和检测主要基于性能不平衡的观察,缺乏更严格的分析。
- 实验充分性 (1.2/1.5):实验在两个模型、两个数据集上进行了,包括消融研究(表3, 7, 11, 12)、泛化性测试(表13)和人类评估(图5)。覆盖了不同ITS策略和聚合方法。不足是:人类评估规模较小(16人,每人20组),且未提供更详细的统计分析;评估指标完全依赖自动化分数,其与人类感知的相关性未验证。
- 清晰度 (1.2/1.5):论文结构清晰,逻辑连贯,图表有效地辅助了说明。附录提供了大量细节。主要问题在于部分关键公式(如ARW损失)的推导和直觉可以阐述得更清晰。
- 影响力 (0.5/1.0):研究方向(多模态生成)具有前沿性,但核心贡献局限于音视频联合生成这一特定任务。对于更广泛的语音处理社区(如语音识别、语音合成),本文的直接技术启示有限,属于间接贡献。
- 开源 (0.5/1.5):论文提供了项目主页链接(https://jung-jaemin.github.io/ITS-AVGen-Proj),并承诺提供合成样本和代码。但截至分析时,代码和完整数据集链接尚未公开。实验中引用的模型和评估工具均为开源,但非本文核心贡献。因此,开源部分仅得基础分。
- 可复现性 (0.5/1.5):论文提供了详细的实验设置(附录B)、算法伪代码(附录C, 算法1)和超参数。这有助于复现其ITS框架。但由于核心代码���数据集未公开,完全复现实验存在困难,因此可复现性得分受限。
- 工程/实践价值 (0.7/1.5):方法具有实际工程意义,为提升现有模型生成质量提供了一种无需重训的路径。ARW设计考虑了实际部署中的未知分布问题。然而,其高昂的计算开销(需要生成和评估多个候选)是实践中的主要障碍,论文对此提出的未来改进方向(如早期剪枝)尚属设想,未提供具体方案。
🚨 局限与问题
- 评估指标的可靠性:论文的评估几乎完全依赖自动化指标(VR, VQA, IB, AVH, JS, VBench)。这些指标本身的有效性,尤其是它们与人类对音视频联合质量感知的吻合度,未得到充分验证。人类评估虽然进行了,但规模和方法细节(如是否有控制、评分量表)描述不足,削弱了结论的说服力。
- 计算开销与实用性:尽管论文承认计算开销是主要局限,但提出的方法(多验证器+搜索)显著增加了推理成本(表9)。论文未提出任何实质性的效率优化方案来缓解这一问题,使得该方法在实际大规模部署中可能不切实际。
- 方法泛化性的边界:论文在JavisDiT和MMDisCo两个模型上进行了验证,甚至在附录中测试了LTX-2。然而,这两个主模型都基于扩散/流匹配范式。该方法是否适用于其他类型的生成模型(如自回归模型),或者验证器组合的最优性是否随基础模型变化,需要更多研究。
- “验证器黑客”现象的深入分析:论文观察到了单一验证器导致性能失衡的现象,但将其主要归因于“验证器黑客”。缺乏更深入的分析来区分这是由于验证器本身的缺陷、搜索算法的偏差,还是多目标优化中固有的权衡。
- ARW的理论保证:ARW通过在线优化校准参数,但缺乏对其收敛性、最优性或在非平稳奖励分布下稳定性的理论分析。其性能可能高度依赖于历史缓冲区的构建策略和优化超参数。
- 人类评估的深度:人类评估仅比较了三种设置(朴素、单验证器、多验证器),且仅报告了胜率。缺乏对生成样本更细粒度的评价(如具体缺陷类型分析)、评估者间一致性报告以及统计显著性检验。
📷 论文图片
