📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation
#基准测试 #模型评估 #音视频生成 #多模态模型 #评测协议
🔥 8.1/10 | 前25% | #基准测试 | #模型评估 | #音视频生成 #多模态模型 | arxiv
学术质量 5.5/7 | 影响力 1.5/2 | 可复现性 1.1/2 | 置信度 高
👥 作者与机构
- 第一作者:Yujie Wei(复旦大学)
- 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学)
- 作者列表:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学),Kaixun Jiang(复旦大学),Zhihang Liu(阿里巴巴通义实验室),Quanhao Li(复旦大学),Zhiwu Qing(阿里巴巴通义实验室),Xiang Wang(阿里巴巴通义实验室),Zhen Xing(阿里巴巴通义实验室),Ruihang Chu(阿里巴巴通义实验室),Lingyi Hong(复旦大学),Yefei He(浙江大学),Junjie Zhou(阿里巴巴通义实验室),Junqiu Yu(复旦大学),Yang Shi(北京大学),Difan Zou(香港大学),Kai Zhu(阿里巴巴通义实验室),Shiwei Zhang(阿里巴巴通义实验室),Yingya Zhang(阿里巴巴通义实验室),Yu Liu(阿里巴巴通义实验室),Xihui Liu(香港大学),Hongming Shan(复旦大学)
💡 毒舌点评
这篇工作精准切入了多镜头音视频(MSAV)生成这一前沿任务的核心评估痛点——现有工具链在范围、多样性和评估流程上的全面缺失。其贡献在于首次构建了覆盖四维数据(视频、音频、镜头、参考条件)的系统基准,并设计了一套旨在提升鲁棒性的自适应混合评估框架,成果扎实。然而,其本质是为一个新兴领域制定“考试大纲”和“评分标准”,而非提出新的“解题思路”或“知识”,在推动生成模型核心架构创新上作用间接。更关键的是,整套评估体系严重依赖多个强大的商业/闭源基础模型(如GPT-5.4, Qwen3.5, Gemini)作为裁判或工具,这不仅抬高了使用门槛,更引入了难以量化和复现的系统性偏差风险,其评估的“元可靠性”值得商榷。
📌 核心摘要
- 要解决什么问题:当前多模态生成评估面临双重瓶颈:一是现有基准要么聚焦单镜头视频,要么在多镜头评估中音频维度缺失,且数据多样性(如电影语言、非现实场景)不足;二是评估流程僵化,对镜头分割错误敏感,且对复杂主观维度(如叙事连贯性)采用不可靠的直接VLM打分。
- 方法核心是什么:提出MSAVBench基准与自适应混合评估框架。数据层面,构建了包含286条提示(2198个镜头)的评测集,覆盖视频、音频、镜头、参考条件四维多样性,并包含长序列(最多15个镜头)与非现实场景的复杂性。评估框架层面,核心创新是两阶段设计:首先是基于VLM的智能体预处理与自校正,迭代调整镜头边界以缓解分割错误;其次是分层评分范式,根据指标特性采用专用专家模型(如DINOv2, Demucs)、基于规则的多选题评分、以及可调用外部感知工具的智能体评分。
- 与已有方法相比新在哪里:首次系统性针对多镜头音视频生成任务设计基准,填补了评估空白。在评估方法上,通过动态镜头校正和分层混合评分策略,显著区别于以往静态、单一的评估管道,提升了对复杂生成内容的评估鲁棒性与与人类判断的一致性(Spearman ρ=0.915)。
- 主要实验结果如何:对19个模型(5个闭源系统,14个分属5类别的开源管道)的系统评估揭示:闭源模型(如Seedance-2.0)整体领先;模块化开源管道(如LTX-2.3 in TI2AV模式)展现出追赶潜力;所有模型均在“导演级”控制(如镜头语言、布局一致性)和精细音视频同步上存在明显短板;“先视频后配音”范式表现最差。
- 实际意义是什么:为MSAV这一复杂生成任务提供了首个全面的评估标准和诊断工具,能够有效区分不同模型架构的优劣,引导社区关注当前模型的共性瓶颈(如联合对齐、叙事控制),并验证了模块化/智能体化生成路径的可行性,对未来研究有明确的指导价值。
- 主要局限性是什么:评估框架的核心组件(VLM裁判、感知工具)依赖外部基础模型,增加了评估成本、不确定性及复现难度;基准数据集本身未用于任何生成模型的训练,评估反映的是泛化性能;开源生态缺乏原生MSAV模型,部分基线是现有能力的拼接,可能无法代表未来架构。
🔗 开源详情
- 代码:论文中未提及代码仓库的具体链接。论文在摘要和结论中承诺“We will release the benchmark data and evaluation code to facilitate future research.”,但未在文中提供当前链接。
- 模型权重:论文中未提及(本文为评测基准论文,不发布新的生成模型权重)。
- 数据集:论文中未提及具体开源链接。数据集承诺与评估代码一同发布,但未给出当前链接。数据集名为“MSAVBench”。
- Demo:论文中未提及。
- 复现材料:论文未提供独立的训练配置或检查点。其详细的评估指标定义、数据构建流程、评估框架实现细节等已包含在论文正文及附录(A, B, C, D)中。
- 论文中引用的开源项目:(列出论文明确提及的第三方项目/工具,部分为评估所用)
- TransNet V2:视频场景分割模型,论文链接:https://github.com/soCzech/TransNetV2
- Demucs:音源分离工具,论文链接:https://github.com/facebookresearch/demucs
- DINOv2:视觉特征提取模型,论文链接:https://github.com/facebookresearch/dinov2
- CLIP:视觉-语言对齐模型,论文链接:https://github.com/openai/CLIP
- ArcFace:人脸识别模型,论文链接:https://github.com/deepinsight/insightface
- CSD-ViT-L:风格一致性评估模型,论文未提供具体链接。
- Synchformer:音视频同步评估模型,论文未提供具体链接。
- StableSyncNet:唇音同步评估模型,论文未提供具体链接。
- VAD:语音活动检测,论文未提供具体链接。
- w2v-BERT-2.0:说话人嵌入模型,论文未提供具体链接。
- Audiobox-Aesthetic:音频质量评估模型,论文未提供具体链接。
- PP-OCRv5:OCR工具,论文未提供具体链接。
- FireRedASR2-LLM:语音识别模型,论文未提供具体链接。
- Whisper-large-v3:语音识别模型,论文链接:https://github.com/openai/whisper
- Gemini 3.1 Pro:视觉语言模型(用于评估),非开源。
- Qwen3.5 / Qwen2.5-VL-32B-Instruct:视觉语言模型(用于评估),论文链接:https://github.com/QwenLM/Qwen2.5-VL
- GPT-5.4:语言模型(用于数据构建),非开源。
🏗️ 方法概述和架构
MSAVBench是一个由数据集和自适应评估框架构成的综合系统,其核心目标是为多镜头音视频生成提供可靠、全面的评测。
1. 基准数据构建(四阶段流水线)
- 阶段1:专家分类与种子构建:领域专家定义了包含动作、叙事、教程等8大类的视频内容分类体系,并细化出144个子类别。同时,构建了涵盖主题、主体、场景、风格的种子候选池,其中主体和场景被严格划分为“现实”与“非现实”两大域,为后续生成复杂、反事实的提示奠定基础。
- 阶段2:提示生成与增强:随机采样2200个种子四元组,使用GPT-5.4生成初始多镜头脚本,并提取结构化的评估元数据(如镜头数、音频类别)。随后,一个专门的提示增强模型将初始脚本重写为包含全局描述和每镜头描述的结构化脚本,并在每镜头描述中注入明确的电影语言(如镜头尺度、角度、运镜、转场、灯光),这是评估模型是否理解专业叙事指令的关键。
- 阶段3:专家标注与精炼:六位领域专家对2200条生成的脚本进行严格审查,过滤掉冗余、同质化、不自然转场或LLM幻觉内容,并手动优化描述的清晰度与合理性。最终保留286条高质量提示,总计2198个镜头,确保了基准的挑战性和质量。
- 阶段4:参考媒体收集与配对:从公开数据集中筛选并配对角色图像-音频对(覆盖现实与动漫域)和场景图像,使用Gemini 3.1 Pro进行分类标注,以匹配脚本的语义条件。最终生成一个包含68个主体图像、65段音频、32张场景图的参考子集,分配给96条提示,用于评估模型在参考条件生成(如角色一致性、语音克隆)方面的能力。
2. 自适应混合评估框架 该框架旨在解决传统静态管道对分割错误敏感、对复杂维度评估不可靠的问题,由两大核心模块组成:
- 智能体预处理与自校正:针对生成的视频,首先使用TransNet V2进行初始镜头边界检测。由于VLM直接预测边界不可靠,系统采用视觉语言模型(VLM,如Qwen3.5)对分割结果进行迭代审查。VLM通过分析片段内容,判断是否存在需要合并或分割的片段,并调用相应工具执行操作。此过程最多迭代2次,旨在缓解因镜头分割错误导致的下游评估指标失真。如果最终镜头数仍与指定数量不匹配,VLM会执行最后一次“镜头-描述对齐”,丢弃无法对齐的片段,以确保后续评估的完整性。
- 分层评分范式:摒弃了单一的VLM直接打分,根据指标的复杂性和客观性,采用三种互补的评分策略:
- 专用专家模型:用于定义明确、可量化的度量。例如,使用DINOv2和ArcFace计算跨镜头的主体外观与身份一致性;使用Demucs和MuQ评估背景音乐的连续性(节奏、风格);使用Audiobox-Aesthetic评估音频的声学与制作质量。这些模型提供高效、标准化的评估。
- 基于规则的实例级评分:针对主观性强、难以直接量化的维度(如叙事连贯性、视觉质量、相机参数遵循度)。该范式将每个评估实例转化为预定义的、与提示相关的多选题。VLM只需为这些问题选择正确答案,最终得分是正确回答的比例。这种方法比直接要求VLM输出标量分数更稳定、可解释,且能通过设计题库来锚定评估标准。
- 基于工具的智能体评分:用于评估复杂的组合属性(如跨镜头布局一致性、镜头内布局-文本对齐)。VLM在推理过程中,可以自适应地调用外部感知工具(如目标检测器、姿态估计器)来收集客观证据(例如物体边界框、骨骼关键点)。VLM随后基于这些证据进行推理并给出最终评分。这种方法增强了对复杂空间关系判断的客观性和可靠性。 所有20个评估指标最终被汇总到11个维度,计算归一化平均分,并乘以一个“镜头完成惩罚系数”(实际生成镜头数与指定镜头数的比值),得到最终的Overall Score。整个评估流程在附录中提供了详尽的指标定义、工具列表、评分映射规则和人类标注协议。
3. 架构图与流程说明
(图1)展示了MSAVBench的宏观概览。左侧表明其数据设计覆盖了视频、音频、镜头和参考条件四个正交维度,强调了数据的多样性与复杂性(包括镜头数变化、非现实场景)。右侧的评估套件对应四个评估层级(全局、跨镜头、镜头内、参考),并明确列出了三种核心评分范式:专用专家模型、基于规则的评分和基于工具的智能体评分。该图清晰地传达了基准的“全面性”与评估框架的“混合自适应”特性。
(图3)详细描绘了评估框架的具体流程。输入是生成的视频,首先经过基于VLM的“智能体预处理”模块进行镜头边界自校正。校正后的视频和镜头边界信息被传递到后续的“分层评分”模块。图中展示了针对不同层级(全局、跨镜头、镜头内)的指标,会分别调用不同的评分范式(如Rubric-based Scoring, Tool-grounded Agentic Scoring)。数据流清晰地体现了“校正-评估”的串行关系,以及评估范式根据指标特性进行的并行分工。
(图5)说明了数据构建的四个阶段。从专家定义分类体系(1)开始,到使用LLM生成和增强提示(2),再到专家进行质量审核与精炼(3),最后收集并配对参考媒体(4)。流程图明确了人类专家与AI生成工具(GPT-5.4, Gemini 3.1 Pro)在数据创建中的协作关系,强调了人工审核在保证基准质量中的关键作用。
💡 核心创新点
- 首个针对多镜头音视频生成(MSAV)的综合基准:以往基准要么聚焦单镜头,要么在多镜头中忽略音频。MSAVBench首次系统性地覆盖了从2到15个镜头的复杂叙事、同步音频、电影语言(镜头尺度、角度、转场)以及参考条件生成,并引入了现实与非现实场景的挑战性组合,填补了重要的评估空白。
- 自适应混合评估框架:不同于静态、易受分割错误影响的评估管道,MSAVBench引入了基于VLM的迭代镜头边界自校正机制。同时,它摒弃了单一的VLM直接打分模式,采用分层策略:对简单任务用专家模型,对主观任务用基于规则的多选题评分,对复杂空间任务用可调用外部工具的智能体评分。该框架在验证中展现出对不同VLM骨干(Qwen3.5, Qwen2.5-VL)的鲁棒性,并显著提升了与人类专家判断的一致性(Spearman ρ=0.915)。
- 大规模系统性模型诊断与关键洞察:对5个闭源系统和14个代表性的开源管道(分为原生单镜头AV、长视频+配音、多视频+配音等5类)进行了迄今最全面的比较。揭示了三个关键发现:开源与闭源之间存在显著性能差距但模块化路径有潜力;所有模型在“导演级”控制和精细音视频同步上存在共性瓶颈;“先视频后配音”范式不足以应对复杂MSAV生成。
📊 实验结果
主要Benchmark与结果: 论文在MSAVBench上评估了19个模型,核心结果如下表所示(表2):
| 方法 | Overall Score | Narrative Coherence | Lip Sync | Sound Attr. | AV Sync | Visual Quality |
|---|---|---|---|---|---|---|
| Closed-source | ||||||
| Seedance-2.0 | 75.92 | 0.816 | 1.52 | 0.578 | 0.14 | 0.795 |
| Wan2.7-T2V | 72.26 | 0.822 | 0.85 | 0.661 | 0.43 | 0.773 |
| Sora-2 | 71.19 | 0.852 | 1.87 | 0.568 | 0.50 | 0.792 |
| Open-source (Native AV concat) | ||||||
| LTX-2.3 (TI2AV) | 72.63 | 0.803 | 1.03 | 0.502 | 0.07 | 0.732 |
| MoVA (TI2AV) | 70.32 | 0.839 | 1.61 | 0.530 | 0.12 | 0.681 |
| Open-source (Video+Dubbing) | ||||||
| ShotStream+HunyuanFoley | 58.85 | 0.782 | 1.03 | 0.543 | 0.41 | 0.677 |
| Wan2.2+HunyuanFoley (TI2AV) | 63.42 | 0.794 | 1.19 | 0.378 | 0.43 | 0.685 |
关键发现(基于表格与图表):
- 闭源模型优势:Seedance-2.0 (75.92) 和 Wan2.7-T2V (72.26) 在Overall Score上领先,表明商业闭源系统目前综合实力更强。
- 模块化开源路径的潜力:LTX-2.3 (TI2AV) (72.63) 和 MoVA (TI2AV) (70.32) 等采用“关键帧生成+音视频生成”模块化管道的开源方法,性能接近甚至超越部分闭源系统(如HappyHorse, 71.89),证明了该路径的有效性。
- 共性短板:所有模型在精细控制上表现欠佳。例如,跨镜头布局一致性(C-Layout)得分普遍低于0.8(Seedance-2.0为0.809),相机参数遵循度(Cam.)在开源模型中普遍低于0.7(最高LTX-2.3为0.814,多数在0.6以下)。音视频同步(Sync,值越低越好)即使是最好的Seedance-2.0也仅为0.14,Sora-2则为0.50,表明联合对齐仍是难题。
- “先视频后配音”范式缺陷:采用此范式的模型(如ShotStream+HunyuanFoley)Overall Score普遍偏低(约58-63分),其WER(词错误率,值越高越差)和Lip Sync得分也明显较差。
细分场景分析:
- 镜头数影响:所有模型性能随镜头数增加而下降。例如,Wan2.2+HunyuanFoley从1-4镜头(71.8)到11-15镜头(60.1)下降11.7分,而LongLive+HunyuanFoley下降24.5分(66.1→41.6)。
- 现实 vs. 非现实场景:所有模型在非现实场景提示上得分更低。Seedance-2.0下降2.3分(76.8→74.5),JavisDiT++下降4.6分(61.0→56.4)。
评估框架验证: 如表6所示,MSAVBench的整体评分与人类专家判断的Spearman相关系数高达0.915。其提出的基于规则的评分(Instance-wise Rubric)和基于工具的评分(Tool-grounded)在叙事连贯性、跨镜头布局一致性等复杂指标上,相比直接VLM打分,相关性提升显著(例如叙事连贯性从0.600提升至0.850)。
参考条件生成(表5):
| 方法 | Img-DINO | Img-Face | Voice |
|---|---|---|---|
| Wan-R2V | 0.208 | 0.368 | 0.657 |
| HappyHorse-R2V | 0.259 | 0.244 | 0.545 |
| DreamID-Omni | 0.119 | 0.054 | 0.535 |
结果显示,开源模型DreamID-Omni在视觉保真度(Img-DINO, Img-Face)上远落后于闭源模型,但在语音保真度(Voice)上接近HappyHorse-R2V。
定性分析(图4):展示了五大反复出现的失败模式:文本渲染错误、反事实主体不匹配、音视频同步失败、布局控制失败、主体数量错误。这些案例突显了稳健MSAV生成在可控性、组合性和音视频对齐方面仍需巨大进步。
🔬 细节详述
- 训练数据:基准数据集为MSAVBench,包含286条提示,共2198个镜头。构建使用了GPT-5.4生成提示,Gemini 3.1 Pro标注参考媒体。训练数据不适用于本评估框架论文。
- 损失函数:未说明,因为本文是评估基准,不涉及模型训练。
- 训练策略:未说明。
- 关键超参数:评估框架中,镜头自校正迭代次数限制为2次。VLM裁判主要使用Qwen3.5(视觉相关)和Gemini 3.1 Pro(音频相关)。感知工具部署为FastAPI微服务。
- 训练硬件:未说明。
- 推理细节:感知工具(如检测器、嵌入模型)部署于8×A100服务器上。评估中,中间结果(如主体定位、嵌入提取、OCR、ASR)被缓存并在多个指标间复用以提高效率(C.2节)。
- 正则化或稳定训练技巧:未说明。
⚖️ 评分理由
创新性:2.0/3 论文的核心创新在于问题定义和评估方法论。针对“多镜头音视频生成”这一新兴但关键的评估空白,构建了首个系统性基准,数据设计涵盖四维多样性与复杂性。评估框架的设计(VLM驱动的镜头自校正、针对不同指标特性的分层混合评分)具有明确的工程创新和实用价值,解决了现有管道的具体痛点(如分割错误敏感、主观维度评分不可靠)。然而,其本质是“度量工具”和“评测标准”的创新,而非“生成模型”本身的算法或架构创新,因此在推动模型核心能力突破方面的新颖度有限。
技术严谨性:1.3/1.5 评估框架设计合理且考虑周全。数据构建经过多阶段、多专家审核(2200条筛选至286条),质量控制严格。自校正机制和分层评分策略有清晰的动机和实现细节(附录提供了工具列表、指标定义、评分映射)。框架对不同VLM骨干(Qwen3.5 vs Qwen2.5-VL)的鲁棒性验证增强了其可信度。然而,框架的最终可靠性严重依赖于作为裁判的多个外部基础模型(GPT-5.4, Qwen3.5, Gemini 3.1 Pro)的性能与稳定性,这些模型的误差会直接传递到评估结果中,构成一个重要的外部依赖和不确定性来源。论文虽提及此点(局限F),但未深入分析这种依赖对评估结果可能产生的系统性偏差。
实验充分性:1.4/1.5 实验非常充分。1. 评估模型覆盖全面,包含5个主流闭源系统和14个分属5类别的开源管道,具有代表性。2. 指标设计全面,涵盖全局、跨镜头、镜头内、参考四个层级共20个指标。3. 进行了多角度分析(镜头数影响、现实/非现实场景、参考生成、定性失败案例)。4. 提供了与人类判断的相关性验证(0.915)和不同评分范式的消融研究。不足在于:1. 未提供误差棒或置信区间,难以判断分数差异的统计显著性。2. “模块化开源路径”的潜力结论部分依赖于仅有的几个例子(如LTX-2.3),需更多开源模型验证。3. 对“闭源模型为何更强”的分析较浅,主要基于分数排名,缺乏对其内部技术路径的深入对比。
清晰度:0.8/1 论文结构清晰,逻辑流畅。图表(特别是图1,图3,图5)直观地展示了基准和框架的全貌。详细附录(A-F)提供了大量补充信息(数据分布、指标定义、构建细节、实验设置、伦理考量)。主要不足:1. 一些关键组件的实现细节(如自校正中VLM的具体提示词、如何判定“边界模糊”)未在正文完全披露,增加了独立复现评估框架的难度。2. 部分数学符号(如评分公式中的“shot-completion penalty coefficient”)的定义可以更形式化。
影响力:1.5/2 对音视频生成领域影响力显著。MSAVBench为评估这一前沿任务设立了首个综合标准,其发现(如模块化路径潜力、现有模型短板)能直接指导社区未来的研究方向,特别是对致力于追赶闭源系统的开源社区具有高参考价值。然而,对更广泛的语音/音频领域读者,其影响相对间接。论文的核心贡献在于建立生成内容的评估标准,而非解决语音/音频处理中的特定问题(如增强、识别、合成)。评估框架中虽然包含音频质量、同步等指标,但这些服务于对生成模型的综合评价,而非提出新的音频处理方法。因此,在面向语音/音频领域的读者时,其影响力有所局限。
开源:0.8/1.5 论文承诺将发布基准数据和评估代码,这符合高影响力基准论文的做法。然而,截至论文提交时,并未提供具体的代码仓库链接、数据下载地址或文档。对于评估框架,仅描述“将会发布”是不够的,这降低了当前的可用性和可复现性。如果后续能完整开源,则此项分数可显著提升。
可复现性:0.3/0.5 论文提供了非常详尽的附录,包括数据构建细节、指标定义、工具列表(附录B.1)、人类标注协议(附录D)等,文档充分度较高。主要缺陷在于:1. 评估框架的核心依赖于商业/闭源的VLM(Qwen3.5, Gemini 3.1 Pro)和一些未完全公开版本的工具包(如具体的目标检测模型版本),这使得他人无法完全独立复现评估结果。2. 论文未提供具体的评估脚本、配置文件或调用API的示例代码。
总分:7.5/10 (注:相比初始评分,考虑其在问题定义上的开创性和框架设计的严谨性,在创新性和技术严谨性上给予略高评价;但考虑到对外部模型的强依赖限制了可复现性,且影响力对语音/音频领域相对间接,总分调整为7.5。)
🚨 局限与问题
1. 论文明确承认的局限(附录F):
- 评估框架的部分组件依赖多模态基础模型作为裁判,可能增加大规模评估的成本。尽管论文指出框架对VLM骨干选择具有鲁棒性(表6),但成本与偏差的权衡仍需关注。
- 由于缺乏成熟的原生MSAV开源模型,部分基线(如视频生成+后期配音)是基于现有模型能力的拼接,可能无法完全代表未来的最优架构。
2. 审稿人发现的潜在问题:
- 评估的“黑箱”与元可靠性风险:整个评估框架,特别是针对复杂属性(如布局一致性、叙事连贯性)的评分,高度依赖VLM的推理能力和外部感知工具的准确性。这些组件本身可能存在偏差或错误,且其决策过程不透明。论文缺少对这些外部依赖组件本身误差的评估或讨论,即“评估的评估”缺失,使得最终分数的绝对值可靠性存疑。
- 评估的公平性与文化偏差:评估框架中使用的VLM(如Qwen3.5, Gemini)可能对某些视觉风格、文化概念或语言(如论文中包含6种语言)有固有的理解偏差,这可能影响评估的公平性。此外,用一组固定的模型(如TransNet V2)来分割所有生成视频,可能无法适应所有模型产生的、具有不同剪辑风格的输出。
- 结论的推广性与过强Claim:论文得出“模块化开源路径有潜力”的结论,主要基于对几个特定开源管道(LTX-2.3, MoVA in TI2AV模式)的评估。这一结论是否具有普遍性,需要更多不同架构的开源模型验证。另外,“先视频后配音范式不足”的结论成立,但可能过于绝对,未来更先进的音频生成模型(如HunyuanFoley)结合更复杂的同步算法,或许能改善该范式。
- 缺乏模型训练与评估的闭环:MSAVBench目前主要用作“考试”来评估现有模型,但论文未探索如何利用这些丰富的评估信号来指导生成模型的训练或微调(例如,作为奖励信号进行强化学习,或用于诊断数据增强)。这限制了其作为开发工具的价值。
- 评估成本与效率的未披露细节:论文提到中间结果缓存以提高效率,但未给出评估单条视频或整个数据集的具体时间、计算资源成本(如A100小时数)和API调用开销(如VLM调用次数和费用),这对于考虑采用该基准的社区是重要信息。