📄 LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

#基准测试 #多模态模型

6.0/10 | 前50% | #音频生成 | #基准测试 | #多模态模型 | arxiv

学术质量 6.0/7 | 影响力 6.0/2 | 可复现性 0.3/2 | 置信度 高

👥 作者与机构

作者包括Tengfei Liu, Yang Shi, Xuanyu Zhu等,来自北京大学(Peking University)、快手团队(Kling Team)、南京大学(Nanjing University)、上海交通大学(SJTU)、香港科技大学(广州)(HKUST(GZ))、上海人工智能实验室(Shanghai AI Lab)、南洋理工大学(Nanyang Technological University)、中国科学院自动化研究所(CASIA)、清华大学(Tsinghua University)。论文标注了对应的通讯作者和项目负责人,但未明确指出具体是谁。

💡 毒舌点评

这篇工作很“讨巧”。它瞄准了当前火热的“分钟级”生成赛道,做了一个看起来很全面的评估框架。但“统合”和“诊断”更多是工程上的排列组合和概念包装。真正让人眼前一亮的、关于长时序生成或音视频同步的底层理论或算法洞察几乎没有。它更像是一个给现有模型“体检”并开具详细“病历”的工具,而不是推动医学进步的新药方。依赖Gemini进行“裁判打分”是最大的阿喀琉斯之踵,这让整个评估的客观性和可重复性都打了折扣。对于音频领域的读者来说,除了作为生成对象的“音频”本身,这项工作提供的关于音频生成模型或音频理解方法的新见解极为有限。

📌 核心摘要

本文提出了LongAV-Compass,首个专注于分钟级(>60秒)音视频(AV)生成的统一评估基准。该基准覆盖了文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件生成任务,包含284个按“应用场景”和“生成复杂度”二维分类的测试用例。其核心贡献在于设计了一个分层、细粒度的诊断性评估框架,该框架结合了基于MLLM(Gemini 3.1 Pro)的自动评估与多种感知/多模态模型(DINO-v2, ArcFace, CLIP, ImageBind),并定义了超过20个评估维度,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐和音视频同步。通过对11个代表性生成系统(包括商业、开源和基于代理的模型)的全面评估,论文系统地揭示了当前模型在分钟级生成中普遍存在的瓶颈:无法同时维持事件完成度、时长连贯性、视觉质量、语义对齐和音视频同步。

🔗 开源详情

  • 代码:https://github.com/pkucs-Ltf/LongAV-Compass
  • 模型权重:论文未提供这些评估模型的权重下载链接。这些模型是第三方系统(如商业API或独立开源项目)。
  • 数据集:论文介绍了基准包含284个测试案例,但未在正文中提供独立的数据集下载链接。根据复现性计划,数据集(标注、评分等)预计将随基准一同发布,但撰写时具体链接未给出。
  • Demo:论文未提及。
  • 复现材料:论文承诺将发布评估脚本、原始MLLM JSON输出、汇总分数文件等,并记录了所有MLLM评估的模型版本和API快照时间。但具体发布链接在撰写时未提供。
  • 论文中引用的开源项目:论文引用了多个模型和基准(如VBench, T2AV-Compass, VABench, EvalCrafter等),但均未在正文中提供具体链接。

🏗️ 方法概述和架构

LongAV-Compass的方法体系是一个包含基准构建、统一标注与多维度评估的综合框架。

  1. 任务公式化:框架统一定义了三种长形式音视频生成任务。T2AV(文本到音视频):从结构化事件脚本生成分钟级音视频。I2AV(图像到音视频):基于参考图像和事件脚本生成,要求全程保持主体外观和场景属性的一致性。V2AV(视频到音视频):根据参考视频片段和续写脚本进行扩展,需保持风格、主体、时序连贯性及音视频对齐。
  2. 二维分类法与数据构建:
    • 分类轴:基准通过“应用场景”(Vlog、Content-Creator、Performance Ads、Brand Ads)和“生成复杂度”(L1-L4)两个维度组织测试用例,使难度显式化。
    • 数据构建:采用多轨流水线。T2AV用例来自真实视频转录(约60%)和LLM模板生成(约40%);I2AV用例的参考图像来自许可库,并由LLM生成配套脚本;V2AV用例由真实视频片段和LLM生成的续写脚本构成。所有用例均通过MLLM审核和人工验证进行双重质量控制。
  3. 统一标注格式:每个测试用例都包含两种耦合的表示:一个描述整体意图和结构的全局描述,以及一个分解为时序对齐子事件的事件序列。每个事件包含时间范围、动作摘要、完成标准、关键视觉元素和预期音频内容。此外,还会标注身份约束、物理约束和叙事依赖。对于I2AV和V2AV任务,会添加参考图像/视频及相关描述字段。
  4. 分层评估框架:框架避免了单一的总分,而是报告一系列互补的诊断维度,这些维度可分为五类:
    • 事件级评估:事件完成度(\(\mathbf{V}_{QA}\)),通过从事件标注构建内容导向问题,使用MLLM验证生成内容是否包含所需主体、动作和视觉细节,归一化到0-1分。
    • 片段级质量:视觉质量(VQ),从运动自然性、主体完整性、伪影控制和视觉保真度四个方面使用MLLM评估,报告1-5分。
    • 长形式连贯性:长时连续性(Cont.),评估完整视频在故事连贯性、主体一致性、场景连贯性和时间进展上的表现,报告1-5分。过渡稳定性(Trans.),通过算法检查黑帧、闪烁、重复、冻结等信号,并结合MLLM判断边界断裂,报告1-5分。
    • 全局呈现与对齐:整体呈现(Hol.),将完整视频作为成品评估风格一致性、视觉吸引力、商业完整度和整体可看性,报告1-5分。文本-视频对齐(TVAlign),使用CLIP嵌入相似度衡量视频与全局描述和事件序列的语义对齐度,报告0-1分。
    • 音频评估:针对具备音频生成能力的模型,评估三个维度:音视频同步(AVS)、音频质量(AudQ)和长时音频连贯性(AudL),均报告1-5分。
    • 任务特有评估:对于I2AV任务,增加两个指标:首帧图像锚定(\(\mathrm{IV}_{1}\)),评估生成视频开头是否保留参考图像特征;图像对齐(ImgAlign),使用CLIP计算参考图像与采样帧的相似度,衡量参考图像一致性的维持情况。
  5. 实现与公平性控制:本地模型在NVIDIA H200 GPU上推理。商业模型使用其官方API或网页界面。所有提示均源自相同的基准标注,仅进行格式适配以匹配各模型原生接口。模型的原生生成配置(分辨率、采样策略等)在可能的情况下予以保留。

图1

图2

💡 核心创新点

  1. 首创性聚焦:提出了首个专门针对分钟级(长于60秒)音视频生成的基准测试,填补了现有评估在时长上的空白。
  2. 任务统一覆盖:在一个统一的框架下,首次系统性地覆盖并支持T2AV、I2AV和V2AV三种条件模态的长时序生成评估,打破了以往基准任务碎片化的局面。
  3. 诊断性评估框架:设计了超过20个细粒度的评估维度,超越了简单的排行榜评分。框架将长视频评估分解为片段内质量、跨片段一致性和全局叙事连贯性等互补视角,旨在诊断长时序生成中的具体衰减模式,如质量衰减、一致性破坏和音视频失调。
  4. 结构化数据与分析维度:采用“应用场景-生成复杂度”二维分类法构建测试集,并通过对11个模型的评估,揭示了性能随事件复杂度增加而下降的普遍规律,以及不同模型对输入格式的敏感性差异。

📊 实验结果

论文在三种任务上对11个模型进行了全面评估,主要结果如下表所示。结论指出,当前模型无法在分钟级生成中同时保持多方面的高质量,且性能普遍随生成复杂度的增加而下降。

表 3:T2AV任务主要结果

模型音频\(\mathbf{V}_{QA}\)VQCont.Trans.Hol.TVAlignAVSAudQAudL
Seedance 2.00.90233.71164.26494.00654.11280.61833.60383.78754.1845
Kling 3.00.92743.38934.41393.85023.85420.61853.49223.60493.7713
Veo 3.10.77842.89613.13484.00323.57590.61423.34903.23873.6931
LTX 2.30.73212.28803.28883.88293.02030.62052.72782.50172.9313
Longcat0.58702.03102.07353.89072.51760.6148
Wan2.2-I2V-A14B0.59942.00462.25763.57472.67940.6123N/AN/AN/A
HunyuanVideo 1.5-I2V0.57721.97901.91994.15982.48800.6165N/AN/AN/A
Helios (14B)0.50131.93701.82943.34902.59120.6152N/AN/AN/A
Open-Sora0.24761.38541.49473.64181.56760.6161N/AN/AN/A
davinci-magihuman0.45831.71001.93062.76022.35350.61162.80632.46222.9856
VideoDirectorGPT0.52052.09901.81723.38302.45490.6155N/AN/AN/A

表 4:I2AV任务主要结果

模型音频\(\mathbf{V}_{QA}\)VQCont.Trans.Hol.TVAlign\(\mathbf{IV}_{1}\)ImgAlignAVSAudQAudL
Seedance 2.00.92043.76514.91823.96253.88640.61450.96220.90273.56693.91134.2290
Kling 3.00.89393.27604.12444.06683.85260.61820.99600.88773.50813.80324.0164
Veo 3.10.82112.92663.81834.14143.64630.61560.96850.90513.35143.44844.1221
Wan2.2-I2V-A14B0.68322.25262.53404.07622.79260.61200.96670.8999N/AN/AN/A
Longcat0.59542.06322.12774.16252.45740.61550.92270.9006
LTX 2.30.69672.11213.14413.86492.74730.61910.91220.87282.70172.53222.7940
HunyuanVideo 1.5-I2V0.59341.94251.82674.18682.38070.61530.93510.9160N/AN/AN/A
Helios (14B)0.46201.80061.81333.46782.37500.61250.91860.9202N/AN/AN/A
davinci-magihuman0.48601.65191.67343.16342.06910.61310.92230.90502.71722.42712.9160
Open-Sora0.30091.46691.30323.74761.56780.61530.91330.9184N/AN/AN/A
VideoDirectorGPT0.19761.50731.00003.39351.73780.60330.93030.9640N/AN/AN/A

表 5:V2AV任务主要结果

模型音频\(\mathbf{V}_{QA}\)VQCont.Trans.Hol.TVAlignAVSAudQAudL
Seedance 2.00.87533.83364.76363.92674.17050.97273.75914.43574.3129
Veo 3.10.80553.08691.84252.28153.36250.71003.49393.94853.2897
Helios (14B)0.48181.81972.03243.92222.22060.5191N/AN/AN/A
Longcat0.50311.89371.58093.98482.16910.3706N/AN/AN/A
Helios-Distilled0.35591.63651.45153.80921.79410.3529N/AN/AN/A

其他关键分析:

  • 人类对齐验证:在40个案例上进行的初步研究显示,LongAV-Compass的评分与人类偏好在内容保真度(相关系数0.917)、视觉质量(0.935)和长视频稳定性(0.867)上具有强相关性。
  • 输入格式敏感性:实验表明,最优的输入格式(T2AV, I2AV, V2AV)因模型而异,并非提供最多参考信息的V2AV总是最优。
  • 难度与事件数效应:随着生成复杂度(L1-L4)和事件链长度的增加,商业模型性能相对稳定,但开源模型和代理模型性能显著下降(表6, 图9)。
  • 共享失败模式:“Performance Ads”场景对所有模型最具挑战性,失败主要源于产品呈现、功能演示和多步销售点交付的执行困难,而非简单的语义对齐问题。

图3

图4

🔬 细节详述

  • 评估协议:目标输出时长至少60秒,通常在60-120秒范围。保留各模型的原生生成配置。对于需要特定提示语法或多阶段编排的模型,将基准输入转换为最接近的原生格式,同时保留事件顺序、条件语义和音频预期。不具备原生音频的模型在仅视频协议下评估。
  • 数据分布:T2AV包含128个用例(879个事件,2115个镜头),I2AV包含115个用例(807个事件,1989个镜头),V2AV包含41个用例(235个事件,731个镜头)。L2-L3难度级别占主导,V2AV由于其固有复杂性没有L1样本。
  • 评估细节:MLLM评估基于Gemini 3.1 Pro,并记录了模型版本和API快照时间以保证可追溯性。感知和多模态指标(DINO-v2, ArcFace, CLIP, ImageBind)用于提供互补的客观测量。所有MOS评分使用1-5分锚点(1=严重缺陷,5=优秀)。
  • 可复现性计划:论文承诺将发布任务标注、原始MLLM JSON输出、评估脚本和汇总分数文件,以支持审计、重算和评估轨迹重用。

⚖️ 评分理由

  1. 创新性(3分中得1.5分):创新主要体现在对评估空白的识别和一个系统化评估框架的集成上,即提出了第一个分钟级、跨X2AV任务的统一基准。然而,其底层评估理论、指标设计(如大量依赖LLM评判)并非根本性突破。对于音频领域而言,其创新性在于将音频同步和长时音频质量作为关键诊断维度纳入了长视频生成评估。
  2. 技术严谨性(1.5分中得1.0分):基准构建和评估协议设计系统且严谨,考虑了任务统一性、难度分类和多维度诊断。主要技术弱点在于对商业MLLM(Gemini)作为核心评估器的过度依赖,其主观性、稳定性和可重复性是潜在问题,论文未充分讨论偏差缓解措施。此外,V2AV任务样本量较少(41例)可能影响该部分结论的普适性。
  3. 实验充分性(1.5分中得1.2分):实验覆盖了广泛的模型类型(商业、开源、代理),进行了全��的基准测试和诊断分析(场景、难度、事件数、输入格式),并进行了初步的人类对齐验证。不足在于:1)人类验证规模较小(40案例);2)对于评估框架自身各组件的有效性(如不同MLLM的选择影响)缺乏消融研究。
  4. 清晰度(1分中得0.8分):论文结构清晰,图表丰富(如图1架构图、图6评估流程示例),任务定义和评估维度描述详细。但部分技术细节(如MLLM评估的具体提示设计)在正文中未完全展开,需参考附录。
  5. 影响力(2分中得1.0分):在音视频生成评估领域影响力显著,为社区提供了一个重要的、聚焦长时序的诊断工具,有望推动后续模型改进。然而,其核心贡献在评估框架和基准数据集,而非生成模型、生成算法或对音频生成机理的新理解。因此,对于专注于语音/音乐/音频生成技术本身的读者,该工作的直接可借鉴性有限,影响力主要体现在提供了更严格的测试标准,而非新的技术路径。故在本领域影响力维度扣分。
  6. 开源(1.5分中得1.0分):论文承诺发布基准数据集、评估脚本和原始评估结果,这有利于社区的可复现性和后续研究。代码仓库已给出。但模型权重本身并非本文贡献,且论文中引用的其他开源项目未在文中提供具体链接,部分复现材料(如最终发布的数据集)在撰写时链接尚未给出。
  7. 可复现性(0.5分中得0.3分):承诺的发布计划良好。但评估高度依赖商业API,其版本和定价可能变化,可能影响长期可复现性。记录模型版本和API快照时间是良好实践。

🚨 局限与问题

  1. 对MLLM评估器的根本性依赖:整个诊断框架的核心判断(如事件完成度、视觉质量、音频质量等MOS评分)高度依赖Gemini 3.1 Pro。这引入了主观性黑箱、API成本和版本漂移风险。论文未深入分析不同MLLM作为评判者可能带来的评分差异,也未提供稳健性验证。
  2. 基准测试用例代表性:284个用例对于覆盖“分钟级、多场景、多条件”的生成评估而言,统计效力可能不足,尤其是在细分场景(如V2AV的41个案例)下得出的结论需谨慎推广。
  3. 诊断深度与“修复”指导有限:框架擅长“诊断”长时序生成的失败模式(如身份漂移、事件崩溃),但对于如何从模型架构或训练方法上解决这些系统性瓶颈缺乏更深入的机制分析或启发。它指出了问题,但并未给出解决问题的方向。
  4. 评估公平性的潜在挑战:尽管努力适配不同模型的输入接口,但分钟级生成本身对模型能力要求极高。开源模型在达到目标时长时可能需要多段拼接,这引入了与原生支持长视频生成的商业模型在生成策略上的不平等,可能影响比较的绝对公平性。
  5. 音频评估的相对简化:尽管提出了AVS, AudQ, AudL等指标,但音频部分的评估(尤其是长时音频连贯性和音视频同步)可能同样重度依赖LLM判断,缺乏更精细的声学分析或对特定音频属性(如音乐结构、语义节奏)的深入度量。
  6. 结论的普适性:论文揭示了当前模型的瓶颈,但这些结论是基于对11个特定模型和284个特定用例的评估。随着模型快速迭代,基准本身也需要持续更新以保持其诊断有效性。

📷 论文图片

图5


← 返回 2026-05-27 语音/音乐/音频论文速递