📄 Do Joint Audio-Video Generation Models Understand Physics?
#基准测试 #模型评估 #音视频 #跨模态 #生成模型
✅ 7.5/10 | #基准测试 #模型评估 | arxiv
👥 作者与机构
- 第一作者:Zijun Cui (University of Texas at Dallas)
- 通讯作者:Yapeng Tian (University of Texas at Dallas)
- 作者列表:Zijun Cui (University of Texas at Dallas), Xiulong Liu (University of Washington), Hao Fang (University of Washington), Mingwei Xu (University of Washington), Jiageng Liu (University of California, Los Angeles), Zexin Xu (University of Texas at Dallas), Weiguo Pian (University of Texas at Dallas), Shijian Deng (University of Texas at Dallas), Feiyu Du (University of Texas at Dallas), Chenming Ge (University of Washington), Yapeng Tian (University of Texas at Dallas)
💡 毒舌点评
本文首次系统性地构建了评估联合音视频生成模型物理常识理解的基准AV-Phys Bench,其场景演进分类法(稳态、事件转换、环境转换)和反物理子类别设计为评估工作带来了急需的、结构化的维度。然而,其评估深度可能受限于“8秒短视频”和“纯感知物理”的框架,未能充分触及模型是否真正理解物理因果链,而非仅仅学会了感知层面的统计关联。
📌 核心摘要
- 问题:当前联合音视频生成模型在产生逼真结果的同时,是否真正理解了支配音视频信号的底层物理规律(如因果关系、一致性),还是仅编码了物理上看似合理的先验?现有评估基准缺乏对跨模态物理一致性及场景动态演进中物理常识的系统测试。
- 方法核心:提出AV-Phys Bench,一个包含321个手工制作的、基于物理原理的提示词的基准。它按场景演进方式(稳态、事件转换、环境转换)组织提示词,并针对每个提示设计包含五个评估维度(视频语义、音频语义、视频物理、音频物理、跨模态物理)的量规。同时,提出了AV-Phys Agent,一个结合多模态大语言模型(Gemini)与确定性音频数字信号处理工具的ReAct风格自动化评估器。
- 与已有方法相比新在哪里:首个聚焦于跨模态物理一致性(AV-PC)的音视频生成基准;首个系统性地将评估按场景动态演进(转换场景)进行分类;引入了反物理子类别以区分模型是真正理解物理规则还是仅编码物理先验;提出了将MLLM推理与确定性测量工具结合的可扩展评估方法。
- 主要实验结果:在对7个模型(3个专有,4个开源)的评估中发现:
- 语义到物理的性能差距:所有模型性能从语义遵守度(SA)到单模态物理常识(PC),再到跨模态物理一致性(AV-PC)递减。最强的Seedance 2.0在AV-PC上得分仅为0.750。
- 动态场景是主要难点:事件转换和环境转换类别的得分显著低于稳态类别。例如,Seedance 2.0在稳态PC得分为0.720,但在事件转换PC降至0.535。
- 专有模型显著优于开源模型:最强的开源模型LTX-2.3在V-SA(0.519)和AV-PC(0.239)上远低于专有模型。
- 反物理提示暴露能力边界:专有模型在反物理提示上的PC得分相比物理遵循提示骤降44.9%-68.5%,表明它们倾向于默认输出物理合理的结果,而非遵循反物理指令。
- AV-Phys Agent评估有效性:AV-Phys Agent与人类评分的平均一致性(0.781)高于无工具的MLLM-as-judge基线(0.719),尤其在音频相关维度提升显著。
- 实际意义:AV-Phys Bench为联合音视频生成领域提供了首个标准化的物理常识诊断工具,能明确指出当前模型的短板(动态场景、跨模态一致性),为模型改进指明方向。AV-Phys Agent提供了一个可扩展、可审计的自动化评估方案。
- 主要局限性:提示词限于英语和8秒短片段;评估采用二元(是/否)量规,可能忽略失败严重性;自动化评估器(AV-Phys Agent)的骨干模型为单一闭源模型(Gemini);基准测试主要聚焦于感知层面的物理规律,对更深层因果推理的评估有待深化。
🔗 开源详情
- 代码:https://github.com/ZijunCui02/AV-Phys-Bench
- 模型权重:论文中未提及
- 数据集:AV-Phys-Bench,获取链接:https://huggingface.co/datasets/ZijunCui/AV-Phys-Bench,样本数据:https://huggingface.co/datasets/ZijunCui/AV-Phys-Bench-Sample
- Demo:论文中未提及
- 复现材料:论文中提到所有提示词(prompts)、评分标准(rubrics)、分类规范(taxonomy specifications)和评估结果已发布在数据集链接中。详细的实验设置和代码实现见于代码仓库。
- 论文中引用的开源项目:
- LTX-2.3:https://github.com/Lightricks/LTX-Video (Apache-2.0)
- Ovi 1.1:https://github.com/character-ai/Ovi (Apache-2.0)
- JavisDiT++:https://github.com/JavisDiT/JavisDiT (Apache-2.0)
- MagiHuman:https://github.com/GAIR-NLP/daVinci-MagiHuman (Apache-2.0)
🏗️ 方法概述和架构
本文提出的是一个评估框架和基准测试系统,而非一个新的生成模型。其核心方法包括:场景演化分类法、基于物理的提示词与量规构建、人类评估流程,以及AV-Phys Agent自动化评估流水线。
整体流程概述
输入是联合音视频生成模型产生的8秒音视频片段及其对应的物理提示词。处理流程分为两条并行路径:1) 人类评估:由多名标注员根据针对该提示词量身定制的五维二元量规对片段进行独立评分,通过多数投票和严格合取规则聚合结果。2) AV-Phys Agent评估:一个两阶段的MLLM流水线,首先通过ReAct循环调用确定性工具分析片段物理属性,然后基于工具返回的证据和片段描述,对同一量规的所有条目给出“是/否”判断。输出是每个片段在每个评估维度上的通过率或一致性分数。
主要组件/模块详解
1. 场景演化分类法 (Scene-Evolution Taxonomy)
- 功能:为基准测试提供结构化、物理依据的提示词组织框架。它识别出影响音视频事件的三个核心因素:声源、作用、环境,并据此将场景分为三类。
- 内部结构:
- 稳态 (C1):声源和环境固定。包括子类别:声源材质(如金属、木材)、声源定位(立体声定位)、声音持续性(衰减、回声)。
- 事件转换 (C2):作用改变。包括子类别:声源体(如改变琴弦张力改变音高)、声源激励(如敲击力度改变响度)、声源辐射(如移动改变音高和位置)。
- 环境转换 (C3):环境改变。包括子类别:传播介质(如从空气进入水中)、封闭几何(如房间混响变化)、声音衰减(如隔音材料吸收)。
- 每个大类下都包含一个反物理子类别,用于测试模型能否在遵循提示文字描述的同时,故意违反该类别所基于的物理规律。
- 输入输出:输入是物理原理描述;输出是一组结构化的场景类别和子类别标签,用于指导提示词创作。
2. 基于物理的提示词与量规构建
- 功能:为每个评估场景创建具体、可验证的提示词-量规对。
- 内部结构:
- 提示词编写:遵循“物理增强”风格,描述一个具体场景、一个可见动作和一个可验证的声学结果。所有提示词由人工撰写,并经过伦理审查。
- 量规设计:针对每个提示词,将五维通用模板实例化为具体的二元“是/否”语句:
- 视频语义遵守度 (V-SA):所需视觉对象/事件是否出现。
- 音频语义遵守度 (A-SA):所需声音是否可听。
- 视频物理常识 (V-PC):视觉流是否符合物理规律(如运动、接触、材质行为)。
- 音频物理常识 (A-PC):音频流是否符合物理规律(如音色、衰减、传播、频率内容)。
- 跨模态物理常识 (AV-PC):音频和视频流是否与同一个底层物理事件一致。这是本基准最独特的维度,细分为因果耦合、时间耦合、空间耦合和源-身份耦合。
- 聚合规则:采用严格合取——一个片段只有在其量规下所有语句都通过时,才被视为在该维度上通过。
- 输入输出:输入是物理原则和场景类别;输出是321个提示词-量规对,包含2763条具体的二元判断语句。
3. AV-Phys Agent 自动化评估流水线
这是论文提出的核心评估技术,是一个基于ReAct范式的智能体。
- 功能:在没有人类参与的情况下,对生成的音视频片段进行物理常识评估,提供可扩展、可审计的评分。
- 内部结构:
- 骨干模型:Gemini 1.5 Pro Preview(多模态大语言模型)。
- 两阶段流程:
- 观察与工具调用阶段:模型接收视频,被要求描述片段中的视觉和听觉现象,特别是与物理相关的内容。它被提供一组确定性音频数字信号处理工具(如
dsp_loudness_contour用于测量响度、dsp_pitch_at_onsets用于测量音高、dsp_av_align用于对齐音视频事件)。根据描述和量规需求,模型自主决定调用哪些工具。工具执行后返回结构化数据(如“在2.1秒检测到响度从-20 LUFS下降到-30 LUFS”),作为证据添加到模型的“工作描述”中。 - 判定阶段:模型接收第一阶段产生的详细描述(包含工具测量结果)和片段的原始视频。基于此,对量规中的每个语句输出一个JSON格式的判定(“是”或“否”),并引用描述中的证据。
- 观察与工具调用阶段:模型接收视频,被要求描述片段中的视觉和听觉现象,特别是与物理相关的内容。它被提供一组确定性音频数字信号处理工具(如
- 工具清单:主要包括十个音频DSP工具,用于测量起始点、音高、响度、频谱特征、混响时间、立体声平衡、音视频对齐等。
- 组件间数据流与交互:这是一个循环交互过程。LLM(作为控制器)接收视频,生成行动(工具调用),环境(工具执行)返回观察结果(测量数据),LLM将观察结果整合进描述,决定下一步行动(调用另一个工具或结束并输出判定)。工具的确定性输出为LLM的“推理”提供了客观、可量化的地面真值,减少了其感知偏差。
4. 人类评估流程
- 功能:产生作为评估基准的“黄金标准”标签。
- 内部结构:10名受过训练的标注员,每名标注员分配非重叠的提示词子集。每个提示词由3名标注员独立评估。使用一个自定义Web界面,该界面匿名化模型,显示视频和对应的量规语句,标注员为每条语句给出“是/否”回答。通过多数投票解决分歧。
- 输入输出:输入是提示词、量规和模型生成的所有片段;输出是每个片段在每个维度上每个语句的人类共识标签。
架构图/流程图
图2说明:此图清晰地展示了AV-Phys Bench的构建与评估全流程。左侧(a)部分展示了从物理原则到场景分类,再到通过人机协作生成提示词和配对量规的构建流程。右侧(b)部分并列展示了两条评估流程:上方是传统的人工评估,由多名标注员对每个片段独立评分;下方是本文提出的AV-Phys Agent自动化评估流水线,它将多模态LLM与一系列确定性音视频分析工具连接,通过推理和工具调用实现可扩展的自动评分。两条流程共享相同的提示词和量规,确保了评估的一致性。
专业术语解释
- 联合音视频生成模型 (Joint Audio-Video Generation Models):能够同时生成与文本提示对应的、音视频同步的视频和音频的AI模型。
- 物理常识 (Physical Commonsense):关于物理世界如何运作的隐含知识,例如物体碰撞会发声、声音在水中传播会失真、增大压力会使声音变响等。
- 跨模态物理一致性 (Cross-Modal Physical Consistency):视频和音频两个模态所描述或暗示的必须是同一个物理世界中发生的、符合物理规律的同一事件,例如,看到敲门动作的时间点应与听到敲门声的时间点一致。
- 反物理 (Anti-AV-Physics):提示词故意要求生成违反特定物理规律但逻辑上可能的场景,用以测试模型是理解了物理规则,还是仅仅记忆了“物理上合理”的模式。
- ReAct (Reasoning and Acting):一种让大型语言模型交替进行“思考”(推理下一步该做什么)和“行动”(执行如调用工具等外部操作)的范式,使模型能利用外部工具获取信息来完成任务。
- 确定性音频测量工具 (Deterministic Audio Measurement Tools):基于传统信号处理算法(如FFT、能量计算、音高检测)的函数,给定相同的音频输入,总是输出完全相同的、可解释的数值结果(如“响度-25 LUFS”),与基于概率的神经网络输出不同。
💡 核心创新点
- 首个系统性跨模态物理一致性基准 (AV-Phys Bench):此前工作要么只评估视频物理(如PhyWorldBench),要么只评估音频物理(如PhyAVBench),要么只评估语义/时序对齐(如TAVGBench)。本文首次将音视频物理与跨模态一致性整合到一个统一框架中评估,并特别关注了场景演进动态(事件和环境转换)这一更具挑战性的场景。
- 创新的场景演化分类法与反物理设计:通过将提示按“稳态”、“事件转换”、“环境转换”分类,并系统性地加入“反物理”子类别,能够更精细地诊断模型失败的根本原因——是无法处理动态变化,还是缺乏真正的物理理解。
- AV-Phys Agent:工具增强的多模态评估器:针对MLLM作为评判时在量化物理判断(如“响度是否增加”)上的不可靠性,创造性地将其与确定性DSP工具结合。LLM负责理解任务、规划调用哪个工具、并解释工具返回的证据;工具则提供客观的物理测量。这种“LLM+工具”的范式显著提升了自动化评估与人类判断的一致性,尤其是在音频和跨模态物理维度。
📊 实验结果
本文的实验旨在验证基准的有效性和揭示当前模型的局限性。
主要基准与数据集
- 数据集:AV-Phys Bench,包含321个提示词���268个物理遵循 + 53个反物理)。
- 评估模型:3个专有模型(Seedance 2.0, Kling 3.0 Omni, Veo 3.1),4个开源模型(LTX-2.3, Ovi 1.1, JavisDiT++, MagiHuman)。
- 主要指标:五个维度的通过率(V-SA, A-SA, V-PC, A-PC, AV-PC),以及聚合指标(SA:V-SA & A-SA;PC:V-PC & A-PC & AV-PC;Both:SA & PC)。
关键实验结果表格
表2:各模型在268个物理遵循提示上的五维平均得分
| 模型 | V-SA | A-SA | V-PC | A-PC | AV-PC |
|---|---|---|---|---|---|
| 专有模型 | |||||
| Seedance 2.0 | 0.940 | 0.933 | 0.840 | 0.769 | 0.750 |
| Kling 3.0 Omni | 0.925 | 0.840 | 0.716 | 0.489 | 0.556 |
| Veo 3.1 | 0.877 | 0.854 | 0.519 | 0.425 | 0.422 |
| 开源模型 | |||||
| LTX-2.3 | 0.519 | 0.567 | 0.295 | 0.209 | 0.239 |
| Ovi 1.1 | 0.325 | 0.351 | 0.127 | 0.090 | 0.075 |
| JavisDiT++ | 0.239 | 0.325 | 0.063 | 0.086 | 0.019 |
| MagiHuman | 0.116 | 0.198 | 0.052 | 0.071 | 0.049 |
| 关键结论:所有模型在物理维度(尤其是AV-PC)上的表现显著低于语义维度。专有模型与开源模型之间存在巨大差距。开源模型存在“音频语义遵守度高于视频语义遵守度”的有趣反转。 |
表3:人类评估的各类别详细得分(聚合指标)
| 模型 | C1: 稳态 | C2: 事件转换 | C3: 环境转换 | 总体 | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SA | PC | Both | SA | PC | Both | SA | PC | Both | SA | PC | Both | |
| Seedance 2.0 | 0.932 | 0.720 | 0.703 | 0.895 | 0.535 | 0.535 | 0.859 | 0.719 | 0.719 | 0.903 | 0.660 | 0.653 |
| Kling 3.0 Omni | 0.873 | 0.492 | 0.475 | 0.721 | 0.186 | 0.186 | 0.797 | 0.281 | 0.281 | 0.806 | 0.343 | 0.336 |
| Veo 3.1 | 0.839 | 0.322 | 0.314 | 0.826 | 0.105 | 0.105 | 0.672 | 0.172 | 0.172 | 0.795 | 0.216 | 0.213 |
| LTX-2.3 | 0.424 | 0.161 | 0.136 | 0.419 | 0.023 | 0.023 | 0.344 | 0.078 | 0.078 | 0.403 | 0.097 | 0.086 |
| Ovi 1.1 | 0.203 | 0.025 | 0.017 | 0.291 | 0.012 | 0.012 | 0.109 | 0.000 | 0.000 | 0.209 | 0.015 | 0.011 |
| JavisDiT++ | 0.136 | 0.000 | 0.000 | 0.186 | 0.000 | 0.000 | 0.078 | 0.000 | 0.000 | 0.138 | 0.000 | 0.000 |
| MagiHuman | 0.110 | 0.008 | 0.008 | 0.058 | 0.000 | 0.000 | 0.078 | 0.000 | 0.000 | 0.086 | 0.004 | 0.004 |
| 关键结论:动态转换场景(C2, C3)的PC和Both得分远低于稳态场景(C1),证实了动态场景是主要难点。即使最强的Seedance 2.0,在事件转换的PC得分也仅0.535。 |
表4:自动化评估器与人类多数标签的一致性
| 方法 | V-SA | A-SA | V-PC | A-PC | AV-PC | 平均 ± 标准差 |
|---|---|---|---|---|---|---|
| MLLM-as-judge 基线 | 0.797 | 0.735 | 0.754 | 0.617 | 0.691 | 0.719 ± 0.068 |
| AV-Phys Agent | 0.817 | 0.765 | 0.796 | 0.767 | 0.760 | 0.781 ± 0.025 |
| 关键结论:AV-Phys Agent在所有维度上都优于无工具基线,平均一致性从0.719提升至0.781。提升最大的在A-PC(+0.150)和AV-PC(+0.069),验证了音频DSP工具对物理判断的关键作用。 |
表5:专有模型在反物理提示上的表现
| 模型 | 物理遵循提示PC | 反物理提示PC | 下降幅度 (%) |
|---|---|---|---|
| Seedance 2.0 | 0.660 | 0.208 | 68.5% |
| Kling 3.0 Omni | 0.343 | 0.189 | 44.9% |
| Veo 3.1 | 0.216 | 0.113 | 47.7% |
| 关键结论:最强模型Seedance 2.0在反物理提示上性能暴跌近70%,表明它倾向于输出物理合理的内容,而非严格遵循可能违反物理的指令,揭示了其生成先验的局限性。 |
实验结果相关图表
图5说明:此图展示了一个典型的“语义遵守但物理失败”案例(事件转换)。视频正确展示了从长到短敲击木琴的动作(V-SA通过),但音频播放了一段起伏的旋律,而非预期的单调上升音高(A-PC失败)。这直观说明了模型能理解并执行表面指令,但无法正确建模物体尺寸与音高之间的物理关系。
🔬 细节详述
- 训练数据:论文未提及AV-Phys Agent中MLLM的训练数据。基准测试的提示词由人工撰写,来源包括物理教科书、课堂演示和日常观察,经过去重、平衡和伦理审查。
- 损失函数:AV-Phys Agent是一个评估流水线,不涉及训练。其决策基于预训练MLLM(Gemini)的生成能力和工具返回的结果。
- 训练策略:不适用。
- 关键超参数:AV-Phys Agent使用Gemini 1.5 Pro Preview,温度设为0,最大输出令牌8192。ReAct循环最多10轮。音频工具处理采样率48kHz,单声道(立体声分析除外)。
- 训练硬件:未说明。
- 推理细节:AV-Phys Agent的判定阶段使用
response_mime_type = "application/json"强制输出JSON格式,并基于预定义的Pydantic schema进行验证。如果返回JSON不完整,会重试一次,若仍失败则缺失语句默认判定为“否”。 - 人类评估细节:10名标注员,每片段3人独立评估。使用自定义Web界面,匿名化模型。标注员被指示判断声学结果是否符合提示中描述的物理原则,而非判断主观音质。量规为二元(是/否)。
- 评估器对比细节:基线“MLLM-as-judge”仅使用判定阶段提示,没有ReAct观察阶段和工具调用,直接让MLLM基于自身感知对所有量规语句做出判断。
⚖️ 评分理由
创新性:2.5/3 评审意见:问题新颖且重要。在联合音视频生成快速发展的当下,缺乏对其物理理解能力的系统评估。本文提出的场景演化分类法、跨模态物理一致性维度以及反物理测试子类别,构成了一个结构清晰、逻辑自洽的全新评估框架。AV-Phys Agent将确定性测量与MLLM推理结合的思路,为自动化评估提供了有价值的参考。虽然基准测试本身并非生成模型创新,但其设计深度和系统性达到了领域所需。
技术严谨性:1.5/2 评审意见:基准构建和人类评估协议设计严谨。提示词编写、量规实例化、多数投票和严格合取聚合规则都保证了评估的可靠性(Fleiss’ κ达0.672)。AV-Phys Agent的设计有明确动机(解决MLLM在量化判断上的不足),工具选择合理,ReAct流程设计完整。不足在于,评估框架本身(如五维划分)是启发式的,缺乏形式化论证;另外,仅依赖8秒片段可能无法全面评估涉及复杂时间演化的物理过程。
实验充分性:1.5/2 评审意见:实验覆盖了当前主流的专有和开源模型,结果清晰地揭示了物理常识这一核心短板,结论有力。提供了详细的细分结果(按类别、按维度)和消融实验(AV-Phys Agent工具配置)。不足:1) 模型数量(7个)对于通用基准而言偏少,尤其是开源模型;2) 未报告评估的误差范围(如置信区间);3) 虽然与人类评估相关性强(r=0.934),但未深入分析AV-Phys Agent失败的具体案例和模式。
清晰度:0.8/1 评审意见:论文结构清晰,写作流畅。从问题定义、相关工作、基准设计到评估结果,逻辑链条完整。图表(如图2、图3)直观展示了方法和分类法。附录非常详尽,提供了量规实例、工具清单、完整协议等复现所需信息。符号定义一致。主要可改进处是部分术语(如“物理常识”)的定义可以更精确地区别于一般“真实性”。
影响力:0.8/1 评审意见:影响力较高。AV-Phys Bench填补了联合音视频生成领域在物理评估上的关键空白,为后续研究提供了一个标准诊断工具,有助于引导模型优化方向(如提升动态场景建模)。AV-Phys Agent的自动化评估思路可推广到其他多模态评估任务。该工作可能促进社区更关注生成模型的物理合理性,而非仅追求感知质量。
可复现性:0.8/1 评审意见:可复现性优秀。论文明确承诺并提供了数据集(HuggingFace)、评估代码(GitHub)的链接。详尽的附录(特别是K、L、M、N节)公开了评估器的完整提示词模板、工具实现细节、人类评估协议和界面截图。对于仅评估生成模型而言,这些信息已足够复现基准评估。不足:AV-Phys Agent依赖的闭源Gemini模型,严格意义上无法完全开源其决策过程。
总分:7.5/10 Overall Recommendation:Accept
🚨 局限与问题
- 论文明确承认的局限:
- 所有提示词为英语,时长限于8秒。未来工作包括扩展多语言提示和更长视频。
- 二元“是/否”量规牺牲了失败严重性信息以换取标注者间可靠性,未来可探索序数尺度。
- AV-Phys Agent的骨干模型为单一闭源模型(Gemini 1.5 Pro Preview),未来应测试更多开源/闭源多模态模型。
- 人类标注员池相对较小(10人),且非外部专家。
- 审稿人发现的潜在问题:
- 评估深度局限:当前评估主要侧重于感知层面的物理规律(如音高、响度、同步)。对于更抽象的物理理解(如牛顿力学、复杂因果链)涉及较少。模型可能通过学习大量的音视频统计关联来“通过”测试,而非真正理解物理法则。
- 提示词覆盖偏差:虽然分类法系统,但321个提示词仍是有限集合,可能无法覆盖所有物理场景。某些子类别(如环境转换中的“真空”)可能较难生成或评估。
- 自动化评估器的普适性:AV-Phys Agent的高性能高度依赖精心设计的DSP工具和特定的MLLM。在没有这些工具或换一个MLLM的情况下,性能可能显著下降。其有效性验证主要与特定人类标注员组对比,泛化性有待观察。
- “物理常识”定义的模糊性:论文将符合预设的、可测量的声学结果定义为“物理常识”,但这可能过于简化。模型是否具有更一般的物理推理能力,本基准并未直接测试。
- 反物理测试的解读:模型在反物理提示上的失败,除了说明其编码物理先验外,也可能源于提示本身难以执行(违反物理的场景可能缺乏训练数据)。需要更细致的分析来区分“不能”和“不会”。