📄 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following

#语音合成 #强化学习 #多任务学习

10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5

🔥 10/10 | 前10% | #语音合成 | #强化学习 | #多任务学习 | arxiv

👥 作者与机构

作者:Haitao Li(浙江大学,上海创新研究院),Tian Tan(上海交通大学),Yuguang Yang(腾讯混元),Shan Yang(腾讯混元),Xie Chen(上海交通大学,上海创新研究院) 机构:浙江大学,上海创新研究院,上海交通大学,腾讯混元

💡 毒舌点评

这篇工作立意不错,想解决音频生成评估中“打黑箱分”的痛点,把“整体判对错”拆解成“逐项查清单”。提出的动态Rubric范式思路清晰,构建的基准和语料库工作量不小,模型在自己的Benchmark上刷分效果显著。但是,细看之下,几个关键点还是让人不太放心:一是“动态”分解依赖的LLM(Qwen3-30B)本身就是个黑箱,分解质量直接决定了后续评估的上限,但论文对此缺乏深入的失败分析或敏感性研究。二是“硬负例”构造高度依赖LLM和另一个黑箱Gemini进行过滤和验证,这相当于用“魔法”检验“魔法”,过程的可靠性和可解释性存疑。三是作为奖励模型的应用实验,只在单一的InstructTTS场景(DiTAR模型)上做了初步验证,声称“显著提升”,但缺乏与标准RLHF或其他奖励建模方法的直接对比,说服力打了折扣。最后,论文宣称解决了“缺乏多领域基准”的问题,但其Benchmark的构建本身也受限于现有生成模型的能力天花板(如Mix子集全是真实样本),其评估结论的泛化性需要打个问号。总体而言,是一篇系统性较强、有一定启发性的音频评估工作,但部分环节的“自证”逻辑和实验深度还有提升空间。

📌 核心摘要

本文针对指令跟随音频生成中评估方法不足的问题(现有方法依赖LLM整体评分,缺乏可解释性和细粒度诊断能力),提出了一套完整的解决方案:1)提出了一个动态的、基于评分项(Rubric)的评估范式,能将复杂指令分解为多个可验证的二元评分项,并聚合为对齐分数;2)构建了首个跨领域(语音、声效、音乐、混合)的双语评估基准AnyAudio-Judge Bench(7920样本),特别设计了包含指令交换和属性扰动的难负例;3)构建了大规模(105K样本)的训练语料库AnyAudio-Judge Corpus,包含评分项标注和思维链推理链;4)训练了专用的评估模型AnyAudio-Judge,采用SFT+GRPO两阶段训练。实验表明,该模型在自有基准上显著优于SOTA基线(包括使用动态评分项提示的版本),在外部数据集上也表现出更强的相关性,并且作为奖励模型能有效提升下游InstructTTS任务的强化学习效果。

🔗 开源详情

  • 代码:https://github.com/CuCl-2/AnyAudio-Judge (论文摘要及第1节末尾明确提供)。
  • 模型权重:论文未提及AnyAudio-Judge评估模型权重的独立下载链接。仅指出其初始化自Qwen3-Omni-30B-A3B-Captioner,并提供了该初始化模型的链接(来自Yang et al., 2025)。
  • 数据集:论文明确指出AnyAudio-Judge Bench (7,920样本) 和 AnyAudio-Judge Corpus (105K样本) 通过上述GitHub仓库提供。
  • Demo:论文未提及在线演示链接。
  • 复现材料:论文附录(Appendix A-C)提供了所有关键的提示词模板,包括基准构建的负例构造与过滤(Tables 6-10)、指令分解与过滤(Tables 11-12)、以及评估时的两种Judge提示(Tables 13-14)。训练配置(如学习率、批大小、GPU数量、LoRA参数等)在第4.3节详细说明。这些信息应包含在上述GitHub仓库中。
  • 论文中引用的开源项目:论文引用了大量开源数据集、模型和工具,但在正文和附录中均未提供这些项目的具体链接。具体引用情况见“已有分析结果”中的列举,此处不重复。这些引用的开源项目本身是否提供链接,取决于对应论文的发布情况。

🏗️ 方法概述和架构

本文提出的方法是一个从评估范式、数据到模型的完整框架,核心架构包含三个部分:动态Rubric评估范式、大规模语料构建流水线和两阶段训练的专用评估模型。

  1. 动态Rubric评估范式:

    • 核心思想:摒弃传统对“音频-指令”对进行整体匹配(Yes/No)的评估方式,转而将其解构为一系列独立的、可验证的原子化二元评分项(rubric items),最终通过聚合这些项的结果得到最终对齐分数。
    • 流程:
      • 指令分解:给定一个音频-指令对\((a, i)\),使用一个LLM(论文中为Qwen3-30B-A3B-Instruct-2507)根据预设的结构化提示(详见附录B,Table 11),将指令\(i\)分解为\(n\)个原子化的二元问题\(\{p_1, p_2, ..., p_n\}\)。分解需遵循原子性、可验证性、忠实性等原则。分解后还会通过另一个LLM提示(Table 12)过滤掉可能存在的幻觉问题。
      • 逐项评估:评估模型对每个评分项\(p_j\),通过比较其“yes”和“no”两个答案的logits(记为\(z_j^{\text{yes}}\)和\(z_j^{\text{no}}\))来计算软满足概率:\(p_j^{\text{yes}} = \frac{\exp(z_j^{\text{yes}})}{\exp(z_j^{\text{yes}}) + \exp(z_j^{\text{no}})}\)。
      • 分数聚合:最终的对齐分数\(s\)为所有评分项“yes”概率的平均值:\(s = \frac{1}{n}\sum_{j=1}^{n} p_j^{\text{yes}}\)。分数\(s \in [0, 1]\),越接近1表示对齐越好。
    • 设计动机:这种方式将复杂的整体判断转化为多个简单的二元判断,提高了评估的敏感性(能定位具体失败点)和可解释性(每个评分项对应指令的一个具体方面)。
  2. AnyAudio-Judge Bench与Corpus构建:

    • 基准构建:为评估而设计的7920样本的Benchmark。数据涵盖语音、声效、音乐、混合四大领域,每个领域包含真实和生成样本,并构建了英语和中文的对称双语版本。其核心创新在于难负例的系统构造,主要采用两种策略:
      • 指令交换:将不同样本的指令互换,制造明显不匹配。
      • 属性扰动:使用LLM(如Qwen3-30B)对原始指令中的具体属性(如情感强度、语调、乐器、风格等)进行细微修改,模拟生成模型可能出现的细粒度失败(具体的扰动提示模板见附录A,Tables 6-8)。构造后会使用CLAP或Gemini进行质量过滤,确保负例的明确性。
    • 语料库构建:为训练而设计的105K样本的Corpus。数据与Benchmark独立。其构建关键在于精细化的标注流水线:
      • 首先对音频的原始正面描述进行指令分解(同上)。
      • 然后,将音频与原始正面描述或构造的负面描述配对。
      • 最后,使用一个文本LLM(Qwen3-30B)对比原始描述与目标描述(正面或负面),为每个评分项生成“yes/no”标签及相应的思维链(CoT)推理理由。这确保了即使在负面样本中,也能提供细粒度的正确/错误判断监督。
  3. AnyAudio-Judge模型训练:

    • 模型架构:基于Qwen3-Omni-30B-A3B-Captioner初始化,这是一个具备音频理解能力的大型多模态模型。
    • 训练目标:学习根据输入的音频和一系列分解后的评分项,输出一个JSON数组,数组中每个元素包含评分项ID、二元答案(“yes”/“no”)以及支持证据。
    • 两阶段训练流程:
      • 第一��段:监督微调:在AnyAudio-Judge Corpus上进行全参数微调(1 epoch, lr=1e-5)。目的是让模型初步掌握遵循Rubric格式输出判断和CoT理由的能力。
      • 第二阶段:组相对策略优化:在SFT后的模型基础上应用GRPO。首先在语料库上进行4次采样,过滤掉模型已能一致正确回答的样本,保留约8454个困难样本进行优化。优化目标使用由三项组成的奖励函数:
        • 格式一致性奖励(权重0.1):检查输出是否为符合要求的JSON。
        • 全局准确性奖励(权重0.2):检查根据所有评分项答案推断出的整体匹配/不匹配判断是否正确。
        • 平衡评分项准确性奖励(权重0.7):计算在金标准“yes”项和“no”项上的平均准确率,防止模型偏向预测某一类。GRPO训练使用LoRA(rank=16, alpha=32),1 epoch,lr=5e-6。
  4. 应用:

    • 评估生成器:直接使用训练好的AnyAudio-Judge模型作为评估器,对不同的InstructTTS系统(如Qwen3-TTS, MOSS-VoiceGenerator, MiMo-Audio)输出基于Rubric的对齐分数,进行排名。
    • 作为奖励模型:在InstructTTS强化学习中(以DiTAR为基础模型),将AnyAudio-Judge输出的标量对齐分数作为密集奖励信号,指导模型优化,以提升指令跟随能力。

图1

图2

💡 核心创新点

  1. 提出动态、基于评分项的评估范式:首次将动态生成的、细粒度的二元评分项系统性地引入音频指令跟随的评估中,替代了传统的整体式判断,显著提升了评估的可解释性和诊断能力。
  2. 构建首个跨领域的音频指令对齐评估基准:AnyAudio-Judge Bench是首个专门设计用于评估“判断模型”能力的基准,它系统性地覆盖了语音、声效、音乐、混合四大领域,并通过指令交换和属性扰动精心构造了难负例,填补了社区在评测此类模型上的空白。
  3. 创建大规模、带细粒度标注的训练语料库:AnyAudio-Judge Corpus提供了105K样本,不仅包含正负例对,更关键的是为每个样本提供了分解后的评分项、逐项的二元标签以及CoT推理理由,为训练细粒度对齐评估模型提供了高质量监督信号。
  4. 训练专用的评估模型并验证其作为奖励模型的效用:通过SFT+GRPO训练出AnyAudio-Judge模型,不仅在自有基准上取得SOTA,更证明了其作为密集奖励模型能有效提升下游InstructTTS任务的强化学习效果,展示了其应用价值。

📊 实验结果

论文在三个主要方面进行了实验验证:

  1. 在AnyAudio-Judge Benchmark上的性能(主要指标:ACC) 基准分为中文和英文两个子集,每个子集包含七个子集。实验对比了多种基线模型在“整体判断”和“动态评分项判断”两种提示下的表现,以及专门训练的AnyAudio-Judge模型。

表1:AnyAudio-Judge Benchmark结果(中文子集)

模型提示方式Speech-RealSpeech-GenSound-RealSound-GenMusic-RealMusic-GenMix平均
Audio-Flamingo3整体50.2550.3565.9067.6659.9759.5252.1157.97
动态评分项60.2558.9065.1768.9270.2867.3756.5063.91
MiDashengLM整体51.5852.5053.4049.5052.2248.8847.2050.75
动态评分项66.9465.5067.9075.8371.2571.1359.9068.35
Kimi-Audio-7B-Instruct整体51.0050.2052.5050.2552.0851.5049.0050.93
动态评分项81.1770.1066.8075.1769.7268.0064.9070.84
Qwen2.5-Omni-7B整体50.2550.2050.4051.2556.2553.8850.1051.76
动态评分项78.1772.1068.0075.5874.7271.6363.3071.93
Qwen3-Omni-30B-A3B-Instruct整体67.3358.1054.1057.9264.5866.7552.9060.24
动态评分项90.7578.6571.6077.3376.2575.8867.3076.82
Qwen3-Omni-30B-A3B-Captioner整体75.4264.7559.2064.0068.6170.0055.3065.33
动态评分项90.1779.5070.8076.4274.8675.7569.1076.66
Gemini-2.5-Pro整体92.3381.4069.4276.4085.6381.4773.4080.01
动态评分项90.6780.0072.0077.0079.6773.3375.5078.31
AnyAudio-Judge动态评分项93.3380.1577.9082.5092.2280.1390.6085.26

表2:AnyAudio-Judge Benchmark结果(英文子集)

模型提示方式Speech-RealSpeech-GenSound-RealSound-GenMusic-RealMusic-GenMix平均
Audio-Flamingo3整体48.8751.2663.7867.5869.3264.7851.6559.61
动态评分项59.0058.4067.6068.4270.9767.7557.2064.19
MiDashengLM整体48.5848.9550.2051.3350.5650.7547.6049.71
动态评分项64.9263.6069.0074.7572.7870.6359.9067.94
Kimi-Audio-7B-Instruct整体50.2550.1551.3049.5850.8350.3848.6050.16
动态评分项80.0869.1568.0074.0070.4268.2565.8070.81
Qwen2.5-Omni-7B整体50.2550.2050.4051.2556.2553.8850.1051.76
动态评分项77.2569.9067.4076.2577.0871.3766.4072.24
Qwen3-Omni-30B-A3B-Instruct整体65.4258.4554.1058.7568.6170.2552.5061.15
动态评分项88.9277.8573.3078.9278.8977.3866.1077.34
Qwen3-Omni-30B-A3B-Captioner整体70.4661.7060.4066.5867.9270.7551.9064.24
动态评分项88.5077.3572.1078.4278.3376.0066.7076.77
Gemini-2.5-Pro整体91.2279.2070.2372.6083.2578.8769.8077.72
动态评分项89.0077.6771.6776.0079.3376.1971.0077.27
AnyAudio-Judge动态评分项91.4278.8578.7084.6791.2579.8786.4084.45

关键发现:

  • 范式有效性:对于几乎所有基线模型,使用“动态评分项”提示都比“整体判断”提示带来显著的平均准确率提升,证明了该评估范式本身的优越性。
  • 模型优势:经过专门训练的AnyAudio-Judge模型在中文和英文子集上均取得了最佳平均准确率(85.26% 和 84.45%),尤其在Sound-Gen, Music-Real, Mix等需要细粒度判断的子集上优势明显。
  • 与强大基线的对比:AnyAudio-Judge超越了强大的商业模型Gemini-2.5-Pro(尤其在Mix子集上提升显著),并远超其初始化模型Qwen3-Omni-30B-A3B-Captioner的动态评分项版本。
  1. 在外部数据集PAM上的泛化性能 评估AnyAudio-Judge作为奖励模型或评分器与人类偏好的相关性。

表3:PAM数据集上的相关性结果

方法/模型PAM (LCC ��)PAM (SRCC ↑)PAM (KTAU ↑)CLAPScore
CLAPScore0.4720.4770.337
AQAScore (Qwen2.5-Omni-3B)0.5400.5600.410
AQAScore (Qwen2.5-Omni-7B)0.5180.5890.429
AQAScore (AF3)0.4960.5380.383
AQAScore (AF3-Think)0.5820.5870.419
AQAScore (AF3-Chat)0.3810.4350.337
AnyAudio-Judge0.6140.6010.435

关键发现:AnyAudio-Judge在Pearson (LCC)、Spearman (SRCC) 和 Kendall’s Tau (KTAU) 三个相关性指标上均取得了最高分,表明其提供的评估分数与人类偏好具有更强的一致性。

  1. 消融研究 验证评估范式和训练阶段的贡献。

表4:评估与训练策略消融研究

方法中文ACC英文ACC
整体判断65.3364.24
动态评分项76.6676.77
+ SFT84.0283.78
+ SFT + GRPO85.2684.45

关键发现:

  • 从“整体判断”切换到“动态评分项”评估范式带来了最大的单步性能飞跃(约12-13个百分点)。
  • SFT阶段进一步提升了性能(约7个百分点),使模型学会格式和基本判断。
  • GRPO阶段在SFT基础上带来约1.2个百分点的额外提升,说明强化学习对处理困难样本、提升上限仍有帮助。
  1. 作为奖励模型的应用 在InstructTTS强化学习中,���AnyAudio-Judge分数为奖励优化DiTAR模型。结果显示(图5),奖励值在训练过程中稳步上升,表明模型学会了满足更多的评分项。在InstructTTSEval基准上的评估(图6)显示,经过AnyAudio-Judge奖励优化的模型在人类偏好和Gemini评分上均优于基线模型。

图3

图4

⚖️ 评分理由

  • 创新性 (1.8/2):论文提出的“动态Rubric评估范式”是清晰且有价值的创新,将音频-文本对齐评估从模糊的整体判断推进到可解释的细粒度项目验证。首个专门针对“音频评估模型”的Benchmark和带CoT的训练语料库的构建,填补了领域空白,系统性工作扎实。
  • 技术严谨性 (1.4/1.5):方法框架完整,从范式设计、数据构建到模型训练均有详细描述。技术路线合理(SFT+GRPO)。轻微扣分在于:1)核心的“动态分解”步骤依赖外部LLM,其稳定性和偏差未充分分析;2)Benchmark和语料库构造中多次使用Gemini和CLAP进行过滤,引入了隐性的外部依赖和潜在偏差,对最终评估结果的“纯净性”有一定影响。
  • 实验充分性 (1.5/1.5):实验设计非常全面,充分证明了工作的各个主张:1)在自有Benchmark上验证了模型性能和新范式优势;2)在外部PAM数据集上验证了泛化性;3)通过消融研究拆解了各组件贡献;4)展示了作为奖励模型的下游应用价值。表格数据完整,对比基线丰富(包括不同规模模型、商业模型及同模型不同提示)。
  • 清晰度 (1.4/1.5):论文整体结构清晰,问题定义、方法、实验逻辑连贯。附录提供了所有关键提示词模板,极大增强了透明度和可复现性。轻微不足是方法部分(第4节)的某些细节(如GRPO的奖励函数各项权重)可以更早或更强调地引入。
  • 影响力 (1.4/1.5):工作直接针对音频生成领域的一个关键痛点——评估,提出的框架和工具有潜力成为该领域的标准评估和训练组件。作为奖励模型的应用连接了评估与生成,扩大了影响力。扣分点在于,其影响力目前主要局限于音频领域(尤其是TTS),向更广泛多模态评估的迁移需要后续工作证明。
  • 开源 (1.3/1.5):论文承诺开源代码、基准和语料库(提供了GitHub链接),这是非常积极的。但根据当前信息,模型权重(AnyAudio-Judge)本身未明确承诺开源,而仅提到初始化模型Qwen3-Omni-30B-A3B-Captioner的链接。开源内容的完整性(如是否包含训练好的评估模型)需等待实际发布验证。
  • 可复现性 (1.2/1.5):由于提供了详细的提示词、训练超参数(lr, batch size, GPU数量等)和开源代码仓库(假设发布内容完整),复现论文核心实验(评估和训练)的可行性很高。不确定性主要来自对开源仓库内容完整性及外部依赖(如CLAP, Gemini)的潜在要求。
  • 工程/实践价值 (1.3/1.5):提出的评估范式和模型具有很高的实用价值,可直接用于音频生成系统的开发和评测流程。作为奖励模型集成到RLHF训练中,为提升生成质量提供了新工具。工程实现细节(如两阶段训练)清晰,易于落地。扣分点是其评估过程需要先进行指令分解(调用一次LLM),增加了评估的延迟和成本。

🚨 局限与问题

  1. 对指令分解质量的强依赖:动态Rubric范式的有效性完全取决于第一步指令分解的质量。论文指出“imperfect decomposition may miss implicit constraints or split a single attribute too finely”,但未深入分析分解错误(如遗漏关键属性、分解过度)对最终评估分数的影响程度,也未提出检测或修复分解错误的方法。这是该范式最根本的脆弱性。
  2. 评估复杂性增加:虽然提供了细粒度信息,但评估过程从单次判断变为需要生成数十个评分项并逐个评估,显著增加了计算开销和推理时间。论文承认了“额外的推理时间”,但未量化其与基线方法的成本对比,也未探讨在实际部署中(如在线评估)的可行性。
  3. 训练和评估的隐性偏差:Benchmark和语料库的构建重度依赖现有的LLM(Qwen3-30B, Gemini)进行负例构造、质量过滤和标注。这意味着“评估者”的训练数据本身就携带了这些“被评估者”(LLM)的偏见和局限性,可能导致评估模型难以真正识别这些LLM特有的、但在其他生成器中可能不同的失败模式。
  4. 奖励模型验证的局限性:作为奖励模型的应用仅在单一的InstructTTS任务(DiTAR模型)上进行了验证。虽然结果积极,但未与标准的RLHF奖励建模方法(如基于Bradley-Terry模型的偏好学习)进行直接对比。其作为密集奖励信号的优势(相比二元偏好)也缺乏更全面的论证。
  5. 基准的天花板效应:AnyAudio-Judge Bench的“Mix”子集完全由真实样本构成,且“Speech-Gen”、“Sound-Gen”等子集依赖于特定一代生成模型(如AudioGen, MusicGen)的输出。这可能导致基准对评估模型性能的反映受限于当前生成技术的水平,随着生成模型快速进步,基准可能需要更新或扩展。

📷 论文图片

图5


← 返回 2026-06-03 语音/音乐/音频论文速递