📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models

#多模态模型 #基准测试 #多模态模型

🔥 9.7/10 | 前25% | #多模态模型 | #基准测试 | arxiv

学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度 高

👥 作者与机构

作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学、香港中文大学。

💡 毒舌点评

这篇论文旨在解决音视频生成领域一个真实存在的痛点——评估。作者们观察到现有评估方法(如VBench, VABench)的不足:要么只关注单模态,要么依赖通用的VQA模型,无法捕捉人像场景下微妙的跨模态错误。AVBench提出了一套“全自动、专有化、与人类对齐”的评估方案,其核心在于用精心设计的困难负样本对多模态大模型进行监督微调,使其成为“专业裁判”。这个思路本身是正确且有实用价值的。然而,作为审稿人,我必须指出其局限性。首先,整套方案的“全自动”高度依赖于基础模型(Qwen系列)和外部评估器(如SyncNet, DOVER++),其性能瓶颈可能转移到了这些组件上,论文对此的讨论不足。其次,虽然构建了庞大的训练集(300KK样本),但“困难负样本”的生成策略(如基于LLM的文本微扰、音视频轨道的人工偏移)在多大程度上覆盖了真实生成模型可能犯的“所有”错误,缺乏理论或更充分的实验验证。最后,论文宣称的“可微分奖励信号”潜力很吸引人,但并未提供任何在实际RLHF流程中应用的案例,更像一个远景声明。论文写作清晰,实验对比了多个主流模型,数据表格详实。但评审意见的深度可以更进一步,例如对评测器自身鲁棒性的分析(如对抗样本)、对训练集分布偏差的讨论等仍有空间。总体来说,这是一篇扎实的、解决实际问题的系统工作,但距离“终极评估框架”还有距离。

📌 核心摘要

本文介绍了AVBench,一个针对人像中心音视频生成模型的自动化评估基准。现有评估方法存在忽略细粒度人像相关性、滥用通用模型以及缺乏精确连续评分等问题。AVBench通过两个核心设计来解决:1) 提出了涵盖视觉质量、音频质量及多层跨模态一致性的十维评估指标,专门针对人像场景;2) 构建了大规模(300KK样本)且包含多样化困难负样本(如微小时移、情感错配、LLM驱动的语义突变)的训练集,通过监督微调(SFT)训练出专用的评估器。这些评估器(音视频、音频文本、视频文本)通过归一化预测概率产生连续、可微分的评分。实验表明,AVBench的自动评分与人类偏好判断高度相关(最高皮尔逊相关系数达0.9779),且在硬样本测试中能有效识别模型弱点,为评估和优化音视频生成系统提供了可靠工具。

🔗 开源详情

  • 代码:未提供代码仓库链接。
  • 模型权重:未提供模型权重链接。
  • 数据集:未提供数据集直接下载链接。论文使用了OpenHumanVid数据集构建训练集,但未提供该数据集链接。
  • Demo:提供了项目主页链接:https://yajialiang.github.io/AVBench-site/
  • 复现材料:未提及训练配置文件、检查点或可复现材料包。
  • 论文中引用的开源项目:
    • OpenHumanVid:未提供链接,仅提及名称。
    • CLAP:提供了GitHub链接。
    • ViCLIP:提供了GitHub链接。
    • ImageBind:提供了GitHub链接。
    • Qwen3-Omni:未提供链接,仅提及名称。
    • Qwen-3 Max:未提供链接,仅提及名称。
    • Qwen2.5-Omni:提供了GitHub链接。
    • Qwen2-Audio:提供了GitHub链接。
    • Whisper-large-v3:提供了GitHub链接。
    • DF_Arena:提供了GitHub链接。
    • NISQAv2:未提供链接,仅提及名称和论文引用。
    • Audiobox-Aesthetics:提供了GitHub链接。
    • DOVER++:提供了GitHub链接。
    • LAION-Aesthetics:提供了GitHub链接。
    • SyncNet:提供了项目链接。
    • LatentSync:未提供链接,仅提及名称和引用。

🏗️ 方法概述和架构

AVBench的框架建立在两个并行支柱上:高质量评测集构建与专用评估器训练。

  1. 评测集构建:

    • 评估器训练语料库:从OpenHumanVid数据集中提取30,000个(30KK)真实世界的、以人像为中心的短片段(8-12秒)。利用Qwen3-Omni模型对每个片段进行密集、多维度的自动标注,生成描述其视觉、运动和声学属性的文本。这些标注好的(视频,正确描述)对构成了用于SFT训练的正样本。
    • 测试集构建:独立收集了470条高清(≥720p)文本生成提示词。为确保多样性,采用了基于硬配额的贪心采样算法,限制任何单一属性(如语言、镜头类型)的占比不超过50%。所有提示词均经过人工验证以确保语义清晰。测试集被严格隔离,与训练语料库无重叠。此外,根据场景复杂度将测试集划分为两个层级:普通子集(N=350,场景简单,1-2人,环境稳定)和困难子集(N=120,包含重叠语音、嘈杂背景、多人互动、强烈情绪转变等挑战)。
  2. 多维困难负样本挖掘:为了生成高质量的负样本,论文设计了一套系统化的流程。

    • 跨文本模态负样本(VT/AT):针对视频文本和音频文本一致性,采用三阶段管线:a) 维度平衡策略:为每个样本从预定义的扰动分类体系中选择三个不同维度进行修改;b) 最小化LLM修改:使用Qwen-3 Max进行最小化文本改动(仅修改1-3个词),保持90%-95%的原始结构,确保正负样本形式相似但语义不同;c) 算法质量控制:使用序列匹配算法验证生成的负样本与原文的字符级相似度在[0.70, 0.995]范围内,不合格则重新生成。
    • 跨音视频模态负样本(AV):设计了三类细粒度扰动:a) 时序偏移:引入微秒级(0.2-1.0秒)和中秒级(1.0-3.0秒)偏移;b) 声学腐蚀:改变播放速度(0.8x-1.2x)、音高(±2-3个半音)、进行高通/低通滤波;c) 语义与环境失配:利用视频元数据引入矛盾,如添加重叠人声、制造说话人数不匹配、错配环境音(如室内画面配室外雨声)。
    • 详细分类体系:论文提供了详细的负样本分类表(表3,表4,表5),涵盖了从基础语义、时序、声学结构到复杂的语言、情感、因果逻辑等多个层级的错误类型。
  3. 评估器模型训练与优化:

    • 数据集:基于上述负样本挖掘策略,构建了三个平衡的数据集,分别用于音频文本(AT)、视频文本(VT)和音视频(AV)一致性评估。每个数据集包含100KK个高质量正负样本对,总计300KK样本。
    • 模型与微调:选用Qwen2.5-Omni作为VT和AV评估器的基座模型,选用Qwen2-Audio作为AT评估器的基座模型。对于AV和VT模型,仅微调其LLM部分,冻结视觉编码器和投影器;对于AT模型,还额外微调了连接器层,以弥合更大的语义鸿沟。训练采用指令遵循模板,要求模型对给定多模态内容和查询(例如,“音频是否准确匹配了视频内容?仅回答Yes或No”)仅生成一个token:“Yes”(对齐)或“No”(不对齐)。
    • 评分机制:评估器通过归一化模型输出“Yes”和“No”的概率来生成连续分数。分数\(S\)定义为模型输出“Yes”的概率除以输出“Yes”与“No”的概率之和:\(S = P(Yes) / (P(Yes) + P(No))\)。这个可微分的连续信号反映了评估器的置信度,与离散的VQA输出相比,能提供更可靠的评估。
    • 扩展评估套件:除了上述三个核心一致性评估器,AVBench还整合了唇音同步分析(使用SyncNet架构,通过LatentSync框架实现)以及六个单模态质量评估维度,包括语音内容准确度(使用Whisper-large-v3转录后计算关键词完整度、词汇准确度和幻觉得分)、语音真实性(DF-Arena)、音频质量(NISQA MOS)、音频美学(Audiobox-Aesthetics)、视频技术质量(DOVER++)和视频美学(LAION-Aesthetics)。这十个维度共同构成了完整的评估体系。

图1

图2

💡 核心创新点

  1. 首个针对人像场景的专用评估基准:明确聚焦于人像中心音视频生成,提出了涵盖跨模态一致性、语音因素、视频感知质量等十个细粒度维度,弥补了现有基准在人像场景评估上的不足。
  2. 基于大规模困难负样本的监督微调范式:系统性地构建了包含300KK样本的多维困难负样本数据集,通过SFT训练专用评估器,显著提升了模型检测细微跨模态错误的能力,超越了通用零样本模型和VQA基线。
  3. 连续可微分的评估信号:通过归一化二分类(Yes/No)预测概率,产生连续评分。这不仅更贴近人类判断的渐进性,还为将评估器作为可微分奖励信号用于强化学习(如RLHF)提供了可能。

📊 实验结果

  1. 模型评估主结果(表2):

    模型AV↑AT↑VT↑SyncNet↑SC↑DF-Arena↑NISQA↑Audiobox↑DOVER++↑Aesthetic↑
    Normal Split
    Sora 20.87130.86750.75994.905787.83910.43282.37843.175960.01254.0704
    Veo 3 Fast0.69240.83000.72356.594377.49500.30432.81913.587769.22754.9967
    Wan 2.60.82070.82270.75564.501691.55680.04413.02893.927171.64734.7790
    Kling 2.60.76260.80610.75018.102768.78440.16653.31413.808265.67865.4885
    Seedance 1.5 Pro0.65360.85540.73635.014684.92680.16023.64114.168671.72054.7373
    Hard Split
    Sora 20.93200.85750.71903.793276.79050.54982.05643.133958.15384.0434
    Veo 3 Fast0.77660.81170.69433.453570.31440.38272.33213.611367.08335.1438
    Wan 2.60.87800.84180.74823.048884.45120.04983.07264.092471.52294.7721
    Kling 2.60.88130.76020.71053.984469.06910.14693.24253.891262.99945.5033
    Seedance 1.5 Pro0.74090.86460.73983.323980.80290.20593.40934.161869.44304.7707
    • 跨模态对齐与同步:视频文本(VT)一致性是所有模型的主要瓶颈。在困难测试集中,所有模型的VT分数相比普通测试集均有所下降,表明当前模型在处理复杂提示时,遵循详细文本指令(尤其是视觉方面)的能力不足。
    • 唇音同步、语音内容与真实性:模型在同步、内容准确性和语音自然性方面表现出解耦。例如,Kling 2.6唇音同步最佳但语音真实性弱;Wan 2.6语音内容准确度最高但真实性最低;Sora 2则在自然度和内容准确性上较为均衡。
    • 技术质量与美学:Seedance 1.5 Pro在技术质量(音频质量、音频美学、视频技术质量)上领先;Kling 2.6在视频美学上表现最好。
  2. 评估器有效性(图5(a)):在困难负样本测试集上,零样本编码器(CLAP, ViCLIP, ImageBind)和未微调的基座多模态大模型(MLLM)性能接近随机猜测或有严重正向偏差。而本文的SFT评估器在三个一致性维度上准确率大幅提升:AT为0.8437,VT为0.9144,AV高达0.9817。

  3. 人类对齐验证(图6,图13,图14):AVBench自动评分与人类专家偏好的皮尔逊相关系数(图6)显示强相关性,例如SC为0.9779,VT一致性为0.9653。实例级预测准确率(图13)平均达到85.4%,SC高达98.1%。与基线对比(图14),SFT模型在VT一致性上的准确率从基座模型的47.44%提升至92.31%。

  4. 定性分析(图15-17):通过案例研究展示,基线模型难以检测说话人身份错误(AT)、人数计数错误(VT)和音视频时序偏移(AV),而AVBench的SFT评估器能正确识别并与人类判断一致。

图3

图4

🔬 细节详述

  1. 项目结构:论文明确指出AVBench框架由两个并行支柱(评测集构建与评估器训练)构成(图2),并提供了详细的数据集划分与属性分布(图3,图12)。
  2. 负样本构建的详细分类:论文用专门的表格(表3、表4、表5)极其详细地列出了音视频、视频文本、音频文本一致性负样本的分类体系、核心关注点和典型错误类型。例如,视频文本维度细化到外观、情感、计数、运动、空间关系等15个子维度;音频文本维度细化到语音属性、情感语用、声音效果、声学环境等超过20个子维度。
  3. 人类偏好预测的实例级准确率:除了模型级别的皮尔逊相关性,论文在扩展部分(9.1节,图13)详细报告了实例级(2AFC任务)的预测准确率,这是对评估器可靠性的更细粒度验证。
  4. 定性案例研究:论文提供了三个详细的图例(图15、16、17)来可视化展示评估器如何发现基线模型忽略的错误,增强了说服力。
  5. 评估器训练细节:明确了对AV/VT模型微调LLM部分,对AT模型额外微调连接器层,并解释了原因(音频文本语义鸿沟更大)。明确了评分公式 \(S = P(Yes) / (P(Yes) + P(No))\)。

⚖️ 评分理由

  1. 创新性 (2.8/3):提出了首个聚焦人像场景的音视频生成评估基准,其核心创新在于“专用SFT评估器 + 连续可微分评分”的范式。负样本构建策略系统且详细。不足在于评估框架高度依赖现有组件(Qwen, SyncNet等),且“可微分奖励”的声明缺乏实验验证。
  2. 技术严谨性 (1.4/1.5):方法描述详尽,数据构建流程清晰,实验对比了多个SOTA模型。相关性分析和准确率评估方法科学。轻微不足:未讨论评测器自身对不同类型噪声的鲁棒性,训练集分布偏差的影响未深入分析。
  3. 实验充分性 (1.3/1.5):在多个主流模型上进行了全面测试,并设计了普通/困难子集。与零样本基线和人类偏好进行了充分对比。可以改进:缺少对评估器在不同生成模型架构或不同领域(非人像)上的泛化性测试;未消融不同负样本生成策略的贡献。
  4. 清晰度 (1.0/1):论文结构清晰,图表(如架构图、相关性图)信息丰富,写作流畅。
  5. 影响力 (1.6/2):为音视频生成领域提供了一个急需的、更细粒度的评估工具,有望推动模型改进。但其核心贡献(评估基准)更偏向于工具和基础设施,对于直接从事音频/视频生成模型研发的读者价值高,但对于纯音频算法(如ASR、TTS)的读者直接相关性较弱。按照领域约束,此处适当扣分。
  6. 开源 (1.2/1.5):提供了项目主页和Demo,这是重要的积极方面。然而,论文未提供代码、模型权重、训练集的直接链接,这严重限制了其可复现性和社区直接采用。提及了使用OpenHumanVid等开源项目,但未提供具体链接。
  7. 可复现性 (0.4/0.5):由于核心数据(300KK训练集)和专用评估器模型未开源,且依赖外部商业API(如Qwen-3 Max)进行负样本生成,外部研究者要完全复现本文工作存在很大困难。

🚨 局限与问题

  1. 评估器的泛化性与黑盒性:AVBench的评估器本身也是基于特定基础模型(Qwen系列)微调而来。其性能是否依赖于该基础模型的特定偏见或能力?当应用于一个分布外的、全新架构生成的视频时,评估器的可靠性是否衰减?论文未对评估器的泛化边界进行探讨。
  2. 负样本构建的代表性:尽管负样本设计很系统,但它们本质上是基于对“常见错误”的启发式建模(如时移、文本微调)。是否存在生成模型可能犯的、但未被此分类体系覆盖的“未知错误”模式?这关乎基准的长期有效性。
  3. “可微分奖励”声明的悬空:论文反复强调其连续评分可作为RLHF的可微分奖励信号,这是一个很有吸引力的应用方向。然而,全文没有任何实验在RLHF流程中实际使用此评估器。这一声明目前仅停留在理论可能性,缺乏实证支持,有过度承诺之嫌。
  4. 人类对齐验证的局限性:人类评估部分(图6,图13)虽然相关性高,但参与评判的专家数量(4人)和评判的视频对数量未明确说明(仅知总模型数为4个家族)。评估是否覆盖了所有十个维度?人类判断标准是否与自动化指标完全一致?更大的、更多样化的评估者群体和更详尽的分析将增强说服力。
  5. 实验设计的潜在偏置:测试集的提示词是独立收集的,但评估器训练用的视频和标注均来自OpenHumanVid。虽然测试集经过了去重和人工重写,但两者是否共享相似的领域分布(如相似的拍摄风格、人物类型)?这可能导致评估器在测试集上表现优于其在完全陌生领域上的表现。
  6. 成本与效率:构建300KK训练集需要调用Qwen3-Omni进行标注和Qwen-3 Max生成负样本,这涉及显著的计算成本和API调用费用。论文未讨论此成本,也未探索是否可以用更高效的方式达到类似效果,这对于该方法的推广是一个实际考量。

📷 论文图片

图5


← 返回 2026-05-27 语音/音乐/音频论文速递