📄 Inference-Time Scaling for Joint Audio-Video Generation

#语音合成

6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 0.7/1.5

✅ 6.9/10 | 前50% | #语音合成 | #语音合成 | arxiv

👥 作者与机构

作者：Jaemin Jung, Kyeongha Rho, Inkyu Shin, Joon Son Chung
机构：Korea Advanced Institute of Science and Technology (KAIST), Luma AI

💡 毒舌点评

这篇论文选了一个非常实际且重要的多模态生成问题——如何在推理时提升联合音视频生成的质量，而不是单纯增加训练成本。它指出了“单一验证器黑客”这个观察很有趣，且提出的多验证器组合选择和自适应奖励加权（ARW）思路有一定工程价值。然而，论文的局限性同样明显：1) 创新性有限，核心思想（ITS，多目标聚合）在单模态领域已有大量研究，本文更多是将现有范式“移植”到多模态场景并做了一些调参和组合实验，缺乏理论层面的突破。2) 实验虽然全面，但评估完全依赖现有的自动化指标，而这些指标本身可能无法完全捕捉人类对音频-视频同步和质量的感知，人类评估部分也过于简单。3) 所提方法的计算开销依然巨大，限制了其实际应用，论文也未能提出真正有效的效率优化方案。4) 影响力受限于领域，核心贡献在音频-视频生成，对更广泛的语音处理社区直接启示有限。

📌 核心摘要

本文首次系统研究了推理时缩放（ITS）在联合音视频生成任务中的应用。研究发现，使用单一验证器进行引导会导致性能在不同维度间不平衡，并引发“验证器黑客”现象。因此，论文论证了采用多验证器框架的必要性，并通过实验确定了最优组合（文本-视频一致性验证器 + 音频-视频同步验证器）。为有效聚合来自不同验证器的异构奖励信号，论文提出了自适应奖励加权（ARW），这是一种测试时优化算法，能够在线校准奖励尺度，无需预先知道奖励分布。在VGGSound和JavisBench-mini基准上的实验证明，该框架显著提升了生成内容的语义对齐度、感知质量和音视频同步性。

🔗 开源详情

代码：https://jung-jaemin.github.io/ITS-AVGen-Proj （项目主页，论文声称合成样本和代码将在此处提供，但分析时未公开具体代码仓库）。
模型权重：论文未提供其提出的方法（如ARW校准后的参数）的模型权重。实验使用了开源模型：
- JavisDiT: https://github.com/JavisVerse/JavisDiT
- MMDisCo: https://github.com/SonyResearch/MMDisCo
- LTX-2: https://github.com/Lightricks/LTX-2
数据集：论文未提供其评估所用基准数据集的直接下载链接，但引用了原始数据集：
- VGGSound test set: 来源于论文 chen2020vggsound
- JavisBench-mini: 来源于论文 liu2025javisdit，具体链接：https://huggingface.co/datasets/JavisVerse/JavisBench
Demo：未提及在线演示链接。
复现材料：论文在附录中提供了详细的实验设置（B）、算法伪代码（C）和消融研究（D），这些构成了复现其推理时缩放（ITS）框架的主要材料。
论文中引用的开源项目：
- 评估工具：
  - VQAScore: https://github.com/linzhiqiu/t2v_metrics
  - JavisScore (JavisBench): https://huggingface.co/datasets/JavisVerse/JavisBench
  - VideoReward (VideoAlign): https://github.com/KlingTeam/VideoAlign
  - VBench: https://github.com/Vchitect/VBench
  - AV-align (TempoTokens): https://github.com/guyyariv/TempoTokens
- ITS算法基线：
  - EvoSearch: https://github.com/tinnerhrhe/EvoSearch-codes

🏗️ 方法概述和架构

论文提出的方法是一个完整的推理时优化框架，核心包括多验证器选择与ARW聚合算法。

基础模型与ITS范式：方法建立在现有的预训练联合音视频扩散模型之上（如JavisDiT， MMDisCo）。其ITS范式是为给定文本提示生成\(N\)个候选样本，然后通过一组验证器对样本进行评分，并根据聚合分数选择最佳样本。论文探索了两种搜索策略：Best-of-N（生成后一次性选择）和EvoSearch（在去噪轨迹上进行进化搜索）。
多验证器框架：
- 组件与功能：框架使用两个核心验证器：(a) VideoReward-TA (VR)：一个视频奖励模型，基于人类偏好数据训练，主要评估生成的视频与文本提示的语义一致性。(b) JavisScore (JS)：一个专门评估音视频细粒度同步性的分数，它利用分段音频表示来衡量事件在时间维度上的一致性。
- 组合动机：论文通过实验（表1， 2）证明，单独使用VR或JS会导致性能失衡（例如，VR提升文本一致性但对音视频对齐提升有限，反之亦然），即“验证器黑客”。因此，将两者结合（VR+JS）作为互补信号，能同时改善文本一致性和音视频对齐，实现更平衡的质量提升。论文进一步比较了其他组合（表3），发现VR+JS在两个模型和两个数据集上都取得了最佳的整体性能平衡。
- 数据流：对于每个候选样本\(x^{(i)}\)，其最终聚合分数\(R^{(i)}\)的计算依赖于来自VR和JS的原始奖励值\(r_{VR}^{(i)}\)和\(r_{JS}^{(i)}\)。
自适应奖励加权 (ARW)：
- 目标：解决传统聚合方法（如加权和、排名、Z-score）无法适应不同验证器奖励的尺度和方差动态变化的问题，特别是在测试时没有先验统计信息的情况下。
- 核心组件：
  - 可学习校准参数：为每个验证器\(k\)引入一个可学习的尺度参数\(\sigma_k > 0\)（实际参数化为\(\sigma_k^2 = \exp(s_k)\)）。聚合分数的计算公式为： \[R^{(i)} = \sum_{k=1}^{K} w_k \cdot \frac{r_k^{(i)}}{\sigma_k + \epsilon}\] 其中\(w_k\)是可选的偏好权重，\(\epsilon\)是防止除零的小常数。
  - 历史缓冲区与方差估计：维护一个历史缓冲区\(\mathcal{H}_k\)，积累每个验证器\(k\)在多个提示和生成步骤中观察到的奖励值。利用该缓冲区计算经验方差\(\widehat{\mathrm{Var}}(r_k)\)。
  - 测试时优化目标：通过最小化以下损失函数来更新校准参数\(s_k\)： \[\mathcal{L}_{ARW} = \sum_{k=1}^{K} \left( \frac{1}{2} \exp(-s_k) \widehat{\mathrm{Var}}(r_k) + \frac{1}{2} |s_k| \right)\] 第一项鼓励在高方差奖励上增大\(s_k\)（即增大\(\sigma_k\)），从而降低其在聚合分数中的权重；第二项是正则化项，防止\(s_k\)发散。该损失函数借鉴了不确定性感知多任务学习的思想。
- 实现细节：在实践中，使用轻量级优化器（如Adam，学习率0.05）在每个生成步骤进行少量（如50次）梯度更新。在EvoSearch中，采用一种重新评分策略：在整个搜索过程中维护累积的历史缓冲区，每代结束后基于全局统计更新校准参数，并对整个搜索轨迹上的候选样本进行重新评分，以确保跨代比较的公平性。
- 输入输出：输入是多个候选样本及其被多个验证器打分的原始奖励值；输出是经过校准和聚合后的最终分数，用于样本选择。

该方法通过将多目标聚合问题转化为一个在线优化问题，实现了无需离线统计数据的、鲁棒的奖励聚合，从而引导ITS过程在多个质量维度上取得平衡改进。

💡 核心创新点

首次多模态ITS研究：明确将推理时缩放范式应用于联合音视频生成，填补了该领域的空白，并指出了从单模态扩展到多模态时面临的多目标平衡核心挑战。
多验证器必要性实证：通过实验清晰地展示了单一验证器引导的局限性（性能不平衡、验证器黑客），并系统性地评估了不同多验证器组合，确定了以文本-视频一致性为主、音频-视频同步为辅的最优组合。
自适应奖励加权（ARW）算法：提出了一种新颖的测试时优化算法来聚合异构奖励。其核心创新在于将奖励聚合视为一个在线优化问题，通过学习校准参数来动态调整奖励尺度，有效处理了奖励分布未知且可能随提示变化的情况，避免了对离线统计信息的依赖。

📊 实验结果

论文在两个基准（JavisBench-mini， VGGSound测试集）和两个生成模型（JavisDiT， MMDisCo）上进行了广泛实验。

主要结果：

多验证器框架（VR+JS）相比单一验证器引导，在保持文本一致性的同时，显著提升了音视频对齐和同步性，实现了更平衡的改进（表1， 2）。
与其他多验证器组合相比，VR+JS在平衡性能和效率上表现最佳（表3）。
ARW在大多数设置下，尤其是在与EvoSearch结合时，能比基线聚合方法（加权和、排名、Min-Max、Z-score）取得更好的整体性能提升，更好地平衡了文本一致性和音视频指标（表4， 5）。
ITS能提升视频感知质量（表6），并且随着计算预算（样本数）增加，性能单调提升（图4）。
人类评估显示多验证器指导在文本一致性、音视频对齐和整体质量上均优于朴素采样和单验证器指导（图5）。

关键表格数据（摘录自论文）：表4：JavisBench-mini上聚合方法性能比较（Best-of-N设置）

聚合方法	VR↑	VQA↑	TV-IB↑	TA-IB↑	AV-IB↑	AVH-Score↑	JavisScore↑	Text↑	AV↑	Overall↑
朴素采样	-0.478	0.852	0.275	0.146	0.209	0.188	0.161	-	-	-
Rank	-0.193	0.882	0.281	0.160	0.256	0.233	0.203	18.73	24.17	21.06
Min-Max	-0.170	0.885	0.281	0.162	0.257	0.234	0.205	20.36	24.92	22.32
Weighted	-0.106	0.889	0.282	0.161	0.252	0.231	0.201	23.75	22.76	23.33
Z-score	-0.213	0.883	0.281	0.164	0.267	0.244	0.214	18.40	30.15	23.44
ARW (Ours)	-0.167	0.885	0.281	0.163	0.263	0.240	0.210	20.69	27.98	23.81

表13（附录D.5）：LTX-2模型上使用ITS的性能

聚合方法	VR↑	VQA↑	TV-IB↑	TA-IB↑	AV-IB↑	AVH-Score↑	JavisScore↑	Text↑	AV↑	Overall↑
朴素采样	0.503	0.908	0.277	0.174	0.262	0.253	0.222	-	-	-
ARW (Ours)	0.639	0.915	0.279	0.183	0.274	0.267	0.238	8.41	5.76	7.28

⚖️ 评分理由

创新性 (1.3/2)：论文首次将ITS应用于音视频联合生成，问题定义明确。核心贡献在于多验证器组合的实验探索和ARW算法的提出。但整体思路（ITS + 多目标聚合）在单模态领域已有大量工作，本文更多是迁移和应用，理论创新有限。
技术严谨性 (1.2/1.5)：方法描述清晰，实验设计相对完整。ARW算法借鉴了不确定性学习的思想，并有收敛性分析（图8）。但部分分析依赖现有指标，缺乏对ARW在更极端分布下稳定性的深入讨论；对“验证器黑客”的定义和检测主要基于性能不平衡的观察，缺乏更严格的分析。
实验充分性 (1.2/1.5)：实验在两个模型、两个数据集上进行了，包括消融研究（表3， 7， 11， 12）、泛化性测试（表13）和人类评估（图5）。覆盖了不同ITS策略和聚合方法。不足是：人类评估规模较小（16人，每人20组），且未提供更详细的统计分析；评估指标完全依赖自动化分数，其与人类感知的相关性未验证。
清晰度 (1.2/1.5)：论文结构清晰，逻辑连贯，图表有效地辅助了说明。附录提供了大量细节。主要问题在于部分关键公式（如ARW损失）的推导和直觉可以阐述得更清晰。
影响力 (0.5/1.0)：研究方向（多模态生成）具有前沿性，但核心贡献局限于音视频联合生成这一特定任务。对于更广泛的语音处理社区（如语音识别、语音合成），本文的直接技术启示有限，属于间接贡献。
开源 (0.5/1.5)：论文提供了项目主页链接（https://jung-jaemin.github.io/ITS-AVGen-Proj），并承诺提供合成样本和代码。但截至分析时，代码和完整数据集链接尚未公开。实验中引用的模型和评估工具均为开源，但非本文核心贡献。因此，开源部分仅得基础分。
可复现性 (0.5/1.5)：论文提供了详细的实验设置（附录B）、算法伪代码（附录C，算法1）和超参数。这有助于复现其ITS框架。但由于核心代码��数据集未公开，完全复现实验存在困难，因此可复现性得分受限。
工程/实践价值 (0.7/1.5)：方法具有实际工程意义，为提升现有模型生成质量提供了一种无需重训的路径。ARW设计考虑了实际部署中的未知分布问题。然而，其高昂的计算开销（需要生成和评估多个候选）是实践中的主要障碍，论文对此提出的未来改进方向（如早期剪枝）尚属设想，未提供具体方案。

🚨 局限与问题

评估指标的可靠性：论文的评估几乎完全依赖自动化指标（VR， VQA， IB， AVH， JS， VBench）。这些指标本身的有效性，尤其是它们与人类对音视频联合质量感知的吻合度，未得到充分验证。人类评估虽然进行了，但规模和方法细节（如是否有控制、评分量表）描述不足，削弱了结论的说服力。
计算开销与实用性：尽管论文承认计算开销是主要局限，但提出的方法（多验证器+搜索）显著增加了推理成本（表9）。论文未提出任何实质性的效率优化方案来缓解这一问题，使得该方法在实际大规模部署中可能不切实际。
方法泛化性的边界：论文在JavisDiT和MMDisCo两个模型上进行了验证，甚至在附录中测试了LTX-2。然而，这两个主模型都基于扩散/流匹配范式。该方法是否适用于其他类型的生成模型（如自回归模型），或者验证器组合的最优性是否随基础模型变化，需要更多研究。
“验证器黑客”现象的深入分析：论文观察到了单一验证器导致性能失衡的现象，但将其主要归因于“验证器黑客”。缺乏更深入的分析来区分这是由于验证器本身的缺陷、搜索算法的偏差，还是多目标优化中固有的权衡。
ARW的理论保证：ARW通过在线优化校准参数，但缺乏对其收敛性、最优性或在非平稳奖励分布下稳定性的理论分析。其性能可能高度依赖于历史缓冲区的构建策略和优化超参数。
人类评估的深度：人类评估仅比较了三种设置（朴素、单验证器、多验证器），且仅报告了胜率。缺乏对生成样本更细粒度的评价（如具体缺陷类型分析）、评估者间一致性报告以及统计显著性检验。

📷 论文图片

← 返回 2026-06-03 语音/音乐/音频论文速递

📄 Inference-Time Scaling for Joint Audio-Video Generation#

👥 作者与机构#

💡 毒舌点评#

📌 核心摘要#

🔗 开源详情#

🏗️ 方法概述和架构#

💡 核心创新点#

📊 实验结果#

⚖️ 评分理由#

🚨 局限与问题#

📷 论文图片#

📎 相关论文