📄 MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

#基准测试 #模型评估 #音视频 #生成模型 #多模态模型

6.5/10 | 前40% | #基准测试 | #模型评估 | #音视频 #生成模型 | arxiv

学术质量 5.5/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高

👥 作者与机构

  • 共同第一作者:Yujie Wei(复旦大学),Yujin Han(香港大学),Zhekai Chen(香港大学),Yongming Li(复旦大学)
  • 项目负责人:Shiwei Zhang(阿里巴巴通义实验室)
  • 通讯作者:Hongming Shan(复旦大学),Xihui Liu(香港大学)
  • 作者列表(按原文顺序):
    • Yujie Wei (1,复旦大学)
    • Yujin Han (2*,香港大学)
    • Zhekai Chen (2*,香港大学)
    • Yongming Li (1*,复旦大学)
    • Kaixun Jiang (1,复旦大学)
    • Zhihang Liu (3,阿里巴巴通义实验室)
    • Quanhao Li (1,复旦大学)
    • Zhiwu Qing (3,阿里巴巴通义实验室)
    • Xiang Wang (3,阿里巴巴通义实验室)
    • Zhen Xing (3,阿里巴巴通义实验室)
    • Ruihang Chu (3,阿里巴巴通义实验室)
    • Lingyi Hong (1,复旦大学)
    • Yefei He (4,浙江大学)
    • Junjie Zhou (3,阿里巴巴通义实验室)
    • Junqiu Yu (1,复旦大学)
    • Yang Shi (5,北京大学)
    • Difan Zou (2,香港大学)
    • Kai Zhu (3,阿里巴巴通义实验室)
    • Shiwei Zhang (3†,阿里巴巴通义实验室,项目负责人)
    • Yingya Zhang (3,阿里巴巴通义实验室)
    • Yu Liu (3,阿里巴巴通义实验室)
    • Xihui Liu (2🖂,香港大学,通讯作者)
    • Hongming Shan (1🖂,复旦大学,通讯作者)

💡 毒舌点评

亮点:论文精准切入“多镜头音视频(MSAV)生成”这一前沿评测空白,提出了首个综合性基准MSAVBench。其数据设计(四维度:视频、音频、镜头、参考)和评估框架(自校正、分层评分、工具增强代理)的系统性与前瞻性值得肯定,对19个模型的评估也提供了有价值的生态诊断。短板:论文的核心贡献在于构建一个评测“系统”和“报告”,而非提出新的生成模型或基础算法。其创新性更偏向工程设计和方法论集成,在追求算法理论突破的顶会中,原创性“硬度”不足。同时,对评估框架自身的深入分析(如不同VLM的影响、成本分析)略显仓促,对评测结果的解读存在过度泛化的风险。

📌 核心摘要

  1. 问题:视频生成正从单镜头静音向复杂的多镜头音视频(MSAV)叙事演进。如何系统、可靠地评估这类前沿模型成为核心挑战。现有基准在评估范围、数据多样性以及评估流程的鲁棒性(如对镜头分割错误敏感、复杂维度评分不可靠)方面存在显著不足。
  2. 方法核心:论文提出了MSAVBench,一个包含综合基准数据集和自适应混合评估框架的系统。数据设计围绕视频、音频、镜头、参考四个正交维度构建。评估框架引入了基于VLM的镜头边界自校正机制、用于主观维度的基于评分标准的VLM评分,以及用于复杂判断的工具增强型代理评分。
  3. 新意:相较于已有基准(表1),MSAVBench首次全面覆盖了多镜头、音视频联合、反事实、电影语言和参考条件生成等关键维度,并首次在评估流程中整合了动态自校正和代理式工具调用,以提升评估的鲁棒性和可靠性。与人类判断的Spearman相关性达到91.5%。
  4. 主要实验结果:论文对19个最先进模型进行了系统评估。关键发现包括:
    • 闭源系统(如Seedance-2.0,总体75.92分)仍显著优于开源系统,但模块化/代理式开源管线(如LTX-2.3 TI2AV,72.63分)展现出缩小差距的潜力。
    • 所有模型在“导演级”控制(如布局一致性、镜头参数遵守)和细粒度音视频同步方面表现不佳。
    • “先生成视频,后配音”的范式在复杂多镜头场景中存在严重缺陷,凸显了统一音视频架构的必要性。
  5. 实际意义:为评估日益复杂的MSAV生成模型提供了首个标准化、全面的工具,有助于诊断模型弱点,指导开源社区的发展方向,并揭示了当前技术栈的关键瓶颈(如需要统一架构而非后处理)。
  6. 主要局限性:评估框架依赖VLM作为评判者,可能引入成本和偏见;由于缺乏成熟的开源原生MSAV模型,部分基线构建采用了分阶段范式,可能无法完全代表端到端模型的真实性能。

🔗 开源详情

  • 代码:论文中承诺发布评估代码,但未提供具体链接或仓库。

  • 模型权重:论文中未提及。

  • 数据集:论文中承诺发布基准数据集(包含286个提示词及对应的参考资产),但未提供具体链接或开源协议。

  • Demo:论文中未提及。

  • 复现材料:论文附录提供了详细的模型、工具和评分映射描述,但未提供独立复现包或配置文件的链接。

  • 论文中引用的开源项目:(根据附录B.1和C.1列出,原文未提供链接)

    1. TransNet V2
    2. Synchformer
    3. DINOv2
    4. CLIP
    5. ArcFace
    6. PP-OCRv5
    7. FireRedASR2-LLM
    8. Whisper (large-v3)
    9. Audiobox-Aesthetic
    10. Demucs
    11. MuQ
    12. MIR-AIDJ All-in-one
    13. w2v-BERT-2.0
    14. CSD-ViT-L
    15. StableSyncNet
    16. Gemini 3.1 Pro
    17. Qwen3.5 / Qwen2.5-VL-32B-Instruct
    18. GPT-5.4
  • 补充链接(自动提取):

    • 代码仓库:https://github.com/snakers4/silero-vad

🏗️ 方法概述和架构

整体流程概述:MSAVBench不是一个生成模型,而是一个面向多镜头音视频(MSAV)生成任务的综合评估系统。其核心流程是:输入一个MSAV生成模型,将其在精心设计的基准数据集(MSAVBench数据集)上进行推理,生成候选视频;然后,将候选视频输入到自适应混合评估框架中,该框架首先对视频进行镜头分割和自校正预处理,接着对生成内容在多个层级(全局、跨镜头、镜头内、参考)上使用不同的评分策略(专家模型、基于评分标准的VLM评分、工具增强代理评分)进行自动化评估,最终输出一个综合分数及各维度的详细分析。

主要组件/模块详解:

  1. 基准数据集(MSAVBench数据)

    • 功能:提供用于评估的、具有挑战性和多样性的输入提示和参考资产。
    • 内部结构/实现:通过四阶段流水线构建(如图5所示):
      1. 专家驱动的分类法与四元组构建:定义8大视频内容类别(如动作、叙事、教程等)及其细分子类,结合主体、场景、视觉风格等构建“种子四元组”(theme, subject, scene, style)。
      2. 提示生成与重写:从四元组中采样,利用GPT-5.4生成初始多镜头脚本,同时提取结构化评估元数据(如镜头数、音频类别)。然后,使用一个提示增强(Prompt-Enhancement, PE)模型将这些初始脚本重写为包含详细镜头描述(景别、角度、运镜、转场、灯光等)的全局-分镜头格式脚本。
      3. 专家标注与精炼:由6位领域专家对生成的脚本进行严格审核,过滤低质量、不连贯或幻觉案例,进行精炼,最终保留286个高质量提示(含2198个镜头)。
      4. 参考媒体收集:从公开基准中采样角色图像、配对音频和场景图像,并使用VLM(Gemini 3.1 Pro)进行标注和与提示的语义对齐,最后由专家筛选,得到68张主体图像、65对音频、32张场景图像,分配至96个提示。
    • 输入输出:输入是专家设计的分类法和主题池;输出是结构化的多镜头提示集和参考媒体资产库。
  2. 自适应混合评估框架(如图3所示)

    • 功能:对生成的候选视频进行鲁棒、可靠的自动化评估。
    • 内部结构与实现:分为两大子模块: a) 基于代理的预处理与自校正: - 功能:解决生成视频镜头边界模糊或数量错误的问题,避免下游评估的误差传播。 - 实现:首先使用TransNet V2提取初始时间边界。然后,利用一个VLM(如Qwen3.5)进行迭代审查。VLM判断每个镜头是否需要合并或分割,并调用工具执行操作。该过程最多迭代两次。若最终镜头数仍不匹配,则进行镜头-描述重新对齐,丢弃未对齐的片段,以确保下游指标计算的完整性。 - 输入:生成的原始视频。 - 输出:经过镜头边界校正的视频片段序列。 b) 分层评分范式: - 功能:根据评估指标的复杂性和特性,采用不同的、最合适的评分方式。 - 实现:分为三类: 1. 专用专家模型(10个指标):用于定义明确的客观指标(如唇音同步用SyncNet/StableSyncNet、文本渲染用PP-OCRv5、音频质量用Audiobox-Aesthetic)。这些模型直接处理视频/音频片段,输出分数。 2. 基于评分标准的实例级VLM评分(5个指标):用于主观或复杂的感知维度(如叙事连贯性、视觉质量、照明/色彩一致性、镜头参数遵守)。将评估转化为针对每个视频实例的、预定义的多选题或二元问题,由VLM一次性回答,最终分数为通过率。 3. 工具增强的代理式评分(5个指标):用于需要空间推理或复杂组合判断的维度(如跨镜头布局一致性、镜头内布局-文本对齐、主体/背景一致性、主体保真度)。VLM可以适应性地调用外部感知工具(如目标检测、姿态估计、图像分割、嵌入提取工具)获取客观证据(如边界框、骨骼关键点、图像特征向量),然后基于这些证据进行推理和评分。
    • 输入:经预处理后的视频片段序列和对应的提示信息。
    • 输出:20个细分指标的分数,这些指标被合并为11个维度,最终计算出总体分数。

组件间的数据流与交互:数据流是清晰的流水线式:提示/参考资产 -> 生成模型 -> 候选视频 -> 镜头分割与自校正模块 -> 校正后的视频片段序列 -> 分层评分范式(并行调用专家模型、VLM、感知工具) -> 各维度分数 -> 总分。自校正模块的输出直接影响所有基于镜头的评估指标。分层评分范式中的VLM和感知工具之间存在交互(代理模式),VLM根据需要决定调用哪个工具获取证据。

关键设计选择及动机:

  • 设计选择1(数据设计):构建四个正交维度(视频、音频、镜头、参考)和两类复杂性(现实/非现实),动机是确保评估覆盖MSAV生成任务的各个方面和极限。
  • 设计选择2(评估框架):采用“自校正”和“分层评分”。动机是现有固定流水线对分割错误敏感且对复杂维度评分不可靠。自校正提高了鲁棒性;分层评分则在评估成本、可靠性和全面性之间取得平衡,用专用模型保证客观指标的效率,用评分标准和工具增强提升主观/复杂指标的可靠性。
  • 设计选择3(分数聚合):将20个指标聚合成11个维度(例如,将5个视觉一致性指标合并为“视觉质量”)后平均,并乘以镜头完成率惩罚系数。动机是避免重叠指标过度加权,并直接惩罚未能生成指定镜头数的模型,使总分更符合人类对“完成质量”的直觉。

架构图/流程图:

  • 图1展示了MSAVBench的全局视角:左侧是其数据维度(视频、音频、镜头、参考),右侧是评估套件的层级结构(全局、跨镜头、镜头内、参考)和混合评估策略。
  • 图3详细描绘了评估框架的流程:从生成视频输入开始,先经过“代理预处理”进行迭代式镜头自校正,然后进入“分层评分范式”,根据指标类型分流至专家模型、评分标准VLM或工具增强代理,最终汇总各层级得分。

专业术语解释:

  • MSAV (Multi-Shot Audio-Video):多镜头音视频,指包含多个连续镜头、并配有同步音频的叙事性视频。
  • Agent-based Scoring/Tool-grounded Assessment:代理式评分/工具增强评估。指让作为评判者的VLM在评分过程中,能够像“代理”一样自主决定何时以及调用哪个外部工具(如检测器、分割器、嵌入模型)来获取进行判断所需的客观数据,而不仅仅是依赖其自身的感知。
  • Instance-wise Rubrics:实例级评分标准。指不针对整个数据集设计一套固定问题,而是为每个具体的生成实例(视频)动态生成或匹配一套专门的评估问题(通常是多选题),以提高评分的一致性和可靠性。

💡 核心创新点

  1. 首个全面的MSAV生成基准:填补了多镜头、音视频联合、带参考条件生成这一前沿领域的评估空白。其数据设计覆盖了前所未有的范围(最高15个镜头、反事实场景、6种语言、丰富的电影语言),为评估模型的综合叙事能力提供了标准化、高难度的测试平台。
  2. 自适应评估框架的鲁棒性设计:
    • 镜头边界自校正机制:首次在视频生成评估中引入VLM代理驱动的迭代式镜头分割纠错,显著降低了因分割错误导致的评估失真。
    • 分层评分策略:创新性地将VLM评估与工具增强、评分标准结合。对于主观维度(如叙事),用固定问题避免VLM评分波动;对于复杂空间维度(如布局),让VLM调用检测工具获取证据后再判断,大幅提升了自动评分与人类判断的相关性。
  3. 对当前MSAV生成生态的系统性诊断:通过评估19个模型,揭示了几个关键见解:闭源与开源的差距、所有模型在导演级控制和音视频同步上的普遍短板,以及“视频优先”后配音范式的不足。这些见解直接指向了未来研究的方向(模块化代理管线、统一架构)。

📊 实验结果

论文对19个模型进行了全面评估,主要结果集中在表2、表3、表4、表5和表6。

主结果(表2):展示了所有模型在20个细分指标和最终总体得分上的表现。关键数据如下表所示:

MethodNarr. ↑Lip ↑Attr. ↑Sync ↓VQ ↑C-Layout ↑VC ↑Mus. ↑Spk. ↑I-Layout ↑Cam. ↑PQ ↑OCR ↑WER ↓Overall ↑
Closed-source commercial systems
Seedance-2.00.8161.520.5780.140.7950.8090.8080.8490.5730.8220.8016.510.7260.5475.92
Wan2.7-T2V0.8220.850.6610.430.7730.6800.8030.8800.6410.7830.6176.370.6650.4972.26
Kling-V3-T2V0.7961.020.6060.280.8010.7410.8560.8920.6570.6090.8466.380.5900.6872.25
HappyHorse0.8250.730.5790.240.8040.6320.7900.8330.6730.6280.7326.600.6890.5171.89
Sora-20.8521.870.5680.500.7920.7170.8080.8340.5200.7220.7845.640.6750.7571.19
Open-source ①: Native single-shot AV (concatenated shot-by-shot)
LTX-2.3 (TI2AV)0.8031.030.5020.070.7320.6700.7620.7670.5220.7650.8146.960.6870.4972.63
MoVA (TI2AV)0.8391.610.5300.120.6810.6260.7900.8010.4960.7460.6896.400.6800.6670.32
DaVinci+MagiHuman (TI2AV)0.7873.080.5800.070.6850.4220.8160.9570.6740.4730.5635.820.6500.8265.01
LTX-2.3 (T2AV)0.7680.960.6080.090.7540.4390.5960.7700.5620.3480.7816.940.5860.5364.40
DaVinci+MagiHuman (T2AV)0.7764.910.6540.050.6990.2670.5860.9580.6990.4940.4725.780.1640.8360.65
JavisDiT++0.8180.590.3150.660.6740.4130.4800.8140.3130.6160.5375.850.4841.0057.51
JavisGPT0.7450.420.1130.540.6330.3510.5540.7920.0970.3620.6246.090.2680.9953.95
Open-source ②: Long-video model + dubbing
LongLive + HunyuanFoley0.7830.700.2840.400.7030.5890.8570.8300.2610.2890.9566.270.3747.5558.59
Helios + HunyuanFoley0.7480.680.1380.790.6850.5830.8510.4750.6460.1510.9446.350.3801.2454.10
Open-source ③: Multi-shot video model + dubbing
ShotStream + HunyuanFoley0.7821.030.5430.410.6770.2800.7480.8620.4950.2430.5816.310.3761.0058.85
Open-source ④: Single-shot video-only model + dubbing (concatenated shot-by-shot)
Wan2.2 + HunyuanFoley (TI2AV)0.7941.190.3780.430.6850.6790.7470.8140.3140.4300.9576.080.5901.3963.42

关键发现(源自原文Table 2的四个Finding):

  1. 闭源系统(如Seedance-2.0)总体得分显著高于开源系统。开源系统中,模块化的“图像+音视频”管线(如LTX-2.3 TI2AV模式)能将性能提升至接近闭源系统的水平。
  2. 与基本的音视频保真度相比,开源模型在“导演级”结构控制和电影语言(如跨镜头布局一致性C-Layout、镜头内布局一致性I-Layout、镜头参数遵守Cam.)上显著落后于闭源系统。
  3. 细粒度的联合音视频对齐(如唇音同步Lip、声源归属Attr.、音视频同步Sync、说话人音色一致性Spk.)对所有模型来说仍是一个未解决的挑战。
  4. 替代的“视频优先,后期配音”范式(如Open-source ③和④)不适用于复杂的多镜头音视频生成,会导致严重的语音失真(高WER)和糟糕的唇音同步。

分场景分析(表3, 表4):

  • 按镜头数分(表3):所有模型在11-15镜头时性能下降。开源模型下降更剧烈,如LongLive+HunyuanFoley从1-4镜头的66.10降至11-15镜头的41.60(下降24.5分)。
  • 按现实/非现实分(表4):所有模型在非现实提示上性能下降。如Seedance-2.0从76.80降至74.50,JavisDiT++从61.00降至56.40。

参考条件生成结果(表5):评估角色和声音保真度。

MethodImg-DINO ↑Img-Face ↑Voice ↑
Wan-R2V0.2080.3680.657
HappyHorse-R2V0.2590.2440.545
DreamID-Omni0.1190.0540.535
  • 闭源Wan-R2V在图像DINO相似度(0.208)和人脸相似度(0.368)上显著优于开源DreamID-Omni(0.119, 0.054)。
  • 开源DreamID-Omni的语音保真度(0.535)已接近闭源HappyHorse-R2V(0.545)。

评估框架有效性验证(表6):验证了评估框架与人类专家判断的相关性及鲁棒性。

MetricMethodSpearman ρs ↑
OverallOurs0.915
Narrative CoherenceDirect VLM Scoring (Qwen3.5)0.600
Instance-wise Rubric (Qwen2.5-VL)0.820
Instance-wise Rubric (Qwen3.5)0.850
Cross-Shot Layout ConsistencyDirect VLM Scoring (Qwen3.5)0.429
Tool-Grounded (Qwen2.5-VL)0.732
Tool-Grounded (Qwen3.5)0.767
Intra-Shot Text-Layout AlignmentDirect VLM Scoring (Qwen3.5)0.405
Tool-Grounded (Qwen2.5-VL)0.741
Tool-Grounded (Qwen3.5)0.786
  • 与人类判断对齐:总体分数的Spearman相关性达到0.915。
  • 方法有效性:对于“叙事连贯性”,直接VLM评分相关性仅0.600,而使用实例级评分标准后提升至0.850;对于“跨镜头布局一致性”,直接评分仅0.429,使用工具增强代理评分后提升至0.767。
  • 鲁棒性:将VLM评判者从Qwen3.5替换为更小的Qwen2.5-VL-32B时,性能下降很小(如叙事连贯性从0.850降至0.820),证明框架对VLM骨干的选择不敏感。

🔬 细节详述

  • 训练数据:论文是评测基准,不涉及模型训练。基准数据构建使用了GPT-5.4生成提示,Prompt-Enhancement模型进行重写,由6名专家进行审核。参考媒体来自公开数据集(如Chen et al., 2025; Cai et al., 2024等)。
  • 损失函数:不适用。
  • 训练策略:不适用。
  • 关键超参数:
    • 镜头自校正迭代次数上限为2次。
    • VLM评判者:主要使用Qwen3.5(视觉相关)和Gemini 3.1 Pro(音频相关)。鲁棒性测试中使用Qwen2.5-VL-32B-Instruct。
  • 训练硬件:不适用。
  • 推理细节:评估框架中的感知工具部署为FastAPI微服务,运行在8×A100 GPU主机上。工具输出在案例级别缓存并跨指标复用。
  • 正则化或稳定训练技巧:不适用。

⚖️ 评分理由

创新性:2.0/3 论文的创新性在于问题定义的前瞻性和评估框架的系统性设计。它准确地定义了MSAV生成这一新兴任务,并构建了迄今最全面的基准。评估框架中提出的自校正机制和分层评分范式(特别是工具增强代理评分)是对自动化视频评估方法的有益补充。然而,其核心贡献是构建一个评测“系统”而非提出新的生成模型或核心算法,原创性主要体现在系统集成和评估方法论上,对于追求算法理论突破的顶会而言,贡献的“硬度”不足。

技术严谨性:1.0/2 技术方案设计有一定严谨性。数据构建有专家参与,评估框架融合了多种技术手段(VLM、工具调用、专用模型)以确保可靠性,并通过与人类判断的相关性验证证明了有效性。但不足在于:1)作为评测工作,其“技术深度”更多体现在工程实现和策略选择上;2)评估框架高度依赖现成的VLM和感知模型,缺乏对这些组件自身误差如何影响最终评估结论的深入分析;3)分数聚合方式(维度平均)较为简单,缺乏对维度间重要性差异的讨论。

实验充分性:1.5/2 实验覆盖了19个模型,设计了多角度分析(主结果、按镜头数分、按现实/非现实分、参考条件生成),并对评估框架本身进行了验证(相关性、鲁棒性),整体较为充分。不足在于:1)对于部分开源模型的具体构建细节(如JavisDiT++等)引用较多但未复述,依赖读者追溯;2)缺乏对评估成本(VLM调用次数、时间)的定量分析,而这对于基准的实际可用性很重要。

清晰度:1.0/1 论文写作清晰,结构完整。图表(尤其是图1、图3、图4)有效地辅助了内容阐述。附录提供了大量细节(数据分布、指标定义、构建模板),透明度高。

影响力:0.5/1 影响力中等。MSAVBench有望成为评估未来MSAV生成模型的重要参考工具,其分析结论对开源社区的发展方向具有指导意义。但由于其评测属性,其影响力更多体现在为后续研究提供标准化平台和基准数据上,而非直接推动模型技术的突破。评估方法的可迁移性有待观察。

可复现性:0.5/1 论文承诺将发布基准数据和评估代码,但截至审阅时,尚未提供具体链接或仓库。文中详细描述了数据构建流程、评估工具和指标实现,为复现提供了蓝图。然而,由于依赖闭源模型(GPT-5.4, Qwen3.5, Gemini 3.1 Pro)和多个感知工具的微服务部署,完全复现评估框架存在较高门槛。仅基于论文描述,可复现性有限。

🚨 局限与问题

  1. 论文明确承认的局限:
    • 评估框架依赖多模态基础模型作为评判者,在大规模评估时可能引入额外成本。
    • 由于缺乏成熟的开源原生MSAV模型,部分基线采用了分阶段生成范式,这可能无法完全代表未来端到端统一模型的能力。
  2. 审稿人发现的潜在问题:
    • 评估的“自我循环”风险:基准的构建(使用GPT-5.4生成提示)和部分评估(如叙事连贯性、视觉质量)依赖VLM。用VLM来设计评估VLM生成内容的问题,可能隐含着评估标准和生成偏见同源的风险,尽管有人类专家介入,但核心工具链是同质的。
    • “总体分数”的聚合权重:将所有维度平均并乘以镜头完成率惩罚,是一种简化的聚合方式。不同维度(如音视频同步 vs. 文本渲染)的重要性可能因应用场景而异,固定的平均权重可能掩盖模型在特定关键维度的严重缺陷。
    • 对开源模型分类的模糊性与敏感性:表2中对开源模型的分类虽然清晰,但同一模型在不同模式(如DaVinci+MagiHuman在T2AV和TI2AV模式下总体得分相差4.36分)下表现差异巨大,这提示基准分数对模型的具体配置和管线细节非常敏感,而论文在总结结论时可能过度概括。
    • 评估框架的效率与成本未充分讨论:评估框架涉及多个VLM调用和感知工具服务,计算成本高昂。论文附录C.2提到了成本高效设计,但未提供任何定量的成本数据(如评估一个视频的平均时间、VLM调用次数),这对用户评估基准的实际可行性至关重要。
    • 结论的强度:论文声称MSAVBench是“首个全面的基准”并实现了“高对齐”,但“全面”和“可靠”需要持续的社区验证和比较。与人类判断的相关性验证基于有限的标注(30名专家,1200对判断),其泛化性有待更大规模验证。

📷 论文图片

图1

图2

图3

图4

图5


← 返回 2026-05-20 语音/音乐/音频论文速递