📄 AVBench: Human-Aligned and Automated Evaluation Benchmark for Audio-Video Generative Models #音频生成 #多模态模型
✅ 7/10 | 前50% | #音频生成 | #多模态模型 | arxiv
学术质量 5.3/7 | 影响力 1/2 | 可复现性 0.7/2 | 置信度 中
👥 作者与机构 论文作者:Jialiang Yang, Bin Xia, Ruihang Chu, Dingdong Wang, Wanke Xia, Zhun Mou, Tianyang Zhong, Yiting Zhao, Wenming Yang。 机构:清华大学,香港中文大学。
💡 毒舌点评 这篇论文试图为快速增长的音频-视频生成领域建立一个“急需”的自动化评估基准,其工程系统性值得肯定。然而,其核心贡献——训练的专用评估器——本质上是用一个大型模型(基于Qwen2.5-Omni)去评估其他生成模型,这引发了关于“用魔法打败魔法”的深层问题。论文声称解决了“粗糙使用通用模型”的痛点,但训练数据严重局限于OpenHumanVid这个以人类为中心的视频库,这无疑为评估器引入了强烈的归纳偏置。当面对非人类主体或更复杂的长视频时,这些评估器可能比它们试图取代的“通用模型”更加“偏科”。此外,论文在关键实验分析(如消融研究、失败案例分析)上的缺失,使其提出的10个维度和“连续分数”机制的优越性论证显得有些单薄,更像是一个精心搭建但内部黑箱的评测流水线。
📌 核心摘要 本文针对人类场景下的文本到音频-视频生成模型,提出了自动化评估基准AVBench。其核心工作包括:1) 设计了涵盖跨模态一致性与单模态质量的10个人类中心细粒度评估维度;2) 通过大规模负样本挖掘(300KK样本),对多模态大语言模型进行监督微调,训练出专门的音频-视频(AV)、音频-文本(AT)、视频-文本(VT)一致性评估器;3) 构建了包含“正常”和“困难”子集的分层测试集。实验表明,专用SFT评估器在检测细粒度不一致方面显著优于零样本基线,其自动评分与人类专家判断展现出强相关性(如AT一致性 \(\rho=0.9488\))。
🔗 开源详情 代码:未提���。 模型权重:未提供。评估器基于Qwen2.5-Omni和Qwen2-Audio微调,但微调后模型未公开。 数据集:未提供。训练数据来自OpenHumanVid,自行构建的300KK训练集及470条测试集均未公开。 Demo:未提供。 复现材料:未提供。论文描述了训练流程,但未提供代码、配置文件或检查点以支持复现。 论文中引用的开源项目(如VBench, T2AV-Compass, VABench, JointAVBench, CLAP, ViCLIP, ImageBind, SyncNet/LatentSync, Whisper, DF_Arena, NISQAv2, Audiobox-Aesthetics, DOVER++, LAION-Aesthetics, OpenHumanVid, Qwen系列)均未在文中提供具体项目链接。 🏗️ 方法概述和架构 AVBench的整体架构由两个并行支柱构成:基准测试集构建与专用自动化评估器训练。
...