📄 AnyAudio-Judge: A Dynamic Rubric-Based Benchmark and Evaluator for Audio Instruction Following
#语音合成 #强化学习 #多任务学习
10/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.3/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5
🔥 10/10 | 前10% | #语音合成 | #强化学习 | #多任务学习 | arxiv
👥 作者与机构
作者:Haitao Li(浙江大学,上海创新研究院),Tian Tan(上海交通大学),Yuguang Yang(腾讯混元),Shan Yang(腾讯混元),Xie Chen(上海交通大学,上海创新研究院) 机构:浙江大学,上海创新研究院,上海交通大学,腾讯混元
💡 毒舌点评
这篇工作立意不错,想解决音频生成评估中“打黑箱分”的痛点,把“整体判对错”拆解成“逐项查清单”。提出的动态Rubric范式思路清晰,构建的基准和语料库工作量不小,模型在自己的Benchmark上刷分效果显著。但是,细看之下,几个关键点还是让人不太放心:一是“动态”分解依赖的LLM(Qwen3-30B)本身就是个黑箱,分解质量直接决定了后续评估的上限,但论文对此缺乏深入的失败分析或敏感性研究。二是“硬负例”构造高度依赖LLM和另一个黑箱Gemini进行过滤和验证,这相当于用“魔法”检验“魔法”,过程的可靠性和可解释性存疑。三是作为奖励模型的应用实验,只在单一的InstructTTS场景(DiTAR模型)上做了初步验证,声称“显著提升”,但缺乏与标准RLHF或其他奖励建模方法的直接对比,说服力打了折扣。最后,论文宣称解决了“缺乏多领域基准”的问题,但其Benchmark的构建本身也受限于现有生成模型的能力天花板(如Mix子集全是真实样本),其评估结论的泛化性需要打个问号。总体而言,是一篇系统性较强、有一定启发性的音频评估工作,但部分环节的“自证”逻辑和实验深度还有提升空间。
📌 核心摘要
本文针对指令跟随音频生成中评估方法不足的问题(现有方法依赖LLM整体评分,缺乏可解释性和细粒度诊断能力),提出了一套完整的解决方案:1)提出了一个动态的、基于评分项(Rubric)的评估范式,能将复杂指令分解为多个可验证的二元评分项,并聚合为对齐分数;2)构建了首个跨领域(语音、声效、音乐、混合)的双语评估基准AnyAudio-Judge Bench(7920样本),特别设计了包含指令交换和属性扰动的难负例;3)构建了大规模(105K样本)的训练语料库AnyAudio-Judge Corpus,包含评分项标注和思维链推理链;4)训练了专用的评估模型AnyAudio-Judge,采用SFT+GRPO两阶段训练。实验表明,该模型在自有基准上显著优于SOTA基线(包括使用动态评分项提示的版本),在外部数据集上也表现出更强的相关性,并且作为奖励模型能有效提升下游InstructTTS任务的强化学习效果。
🔗 开源详情
- 代码:https://github.com/CuCl-2/AnyAudio-Judge (论文摘要及第1节末尾明确提供)。
- 模型权重:论文未提及AnyAudio-Judge评估模型权重的独立下载链接。仅指出其初始化自
Qwen3-Omni-30B-A3B-Captioner,并提供了该初始化模型的链接(来自Yang et al., 2025)。 - 数据集:论文明确指出AnyAudio-Judge Bench (7,920样本) 和 AnyAudio-Judge Corpus (105K样本) 通过上述GitHub仓库提供。
- Demo:论文未提及在线演示链接。
- 复现材料:论文附录(Appendix A-C)提供了所有关键的提示词模板,包括基准构建的负例构造与过滤(Tables 6-10)、指令分解与过滤(Tables 11-12)、以及评估时的两种Judge提示(Tables 13-14)。训练配置(如学习率、批大小、GPU数量、LoRA参数等)在第4.3节详细说明。这些信息应包含在上述GitHub仓库中。
- 论文中引用的开源项目:论文引用了大量开源数据集、模型和工具,但在正文和附录中均未提供这些项目的具体链接。具体引用情况见“已有分析结果”中的列举,此处不重复。这些引用的开源项目本身是否提供链接,取决于对应论文的发布情况。
🏗️ 方法概述和架构
本文提出的方法是一个从评估范式、数据到模型的完整框架,核心架构包含三个部分:动态Rubric评估范式、大规模语料构建流水线和两阶段训练的专用评估模型。
动态Rubric评估范式:
- 核心思想:摒弃传统对“音频-指令”对进行整体匹配(Yes/No)的评估方式,转而将其解构为一系列独立的、可验证的原子化二元评分项(rubric items),最终通过聚合这些项的结果得到最终对齐分数。
- 流程:
- 指令分解:给定一个音频-指令对\((a, i)\),使用一个LLM(论文中为Qwen3-30B-A3B-Instruct-2507)根据预设的结构化提示(详见附录B,Table 11),将指令\(i\)分解为\(n\)个原子化的二元问题\(\{p_1, p_2, ..., p_n\}\)。分解需遵循原子性、可验证性、忠实性等原则。分解后还会通过另一个LLM提示(Table 12)过滤掉可能存在的幻觉问题。
- 逐项评估:评估模型对每个评分项\(p_j\),通过比较其“yes”和“no”两个答案的logits(记为\(z_j^{\text{yes}}\)和\(z_j^{\text{no}}\))来计算软满足概率:\(p_j^{\text{yes}} = \frac{\exp(z_j^{\text{yes}})}{\exp(z_j^{\text{yes}}) + \exp(z_j^{\text{no}})}\)。
- 分数聚合:最终的对齐分数\(s\)为所有评分项“yes”概率的平均值:\(s = \frac{1}{n}\sum_{j=1}^{n} p_j^{\text{yes}}\)。分数\(s \in [0, 1]\),越接近1表示对齐越好。
- 设计动机:这种方式将复杂的整体判断转化为多个简单的二元判断,提高了评估的敏感性(能定位具体失败点)和可解释性(每个评分项对应指令的一个具体方面)。
AnyAudio-Judge Bench与Corpus构建:
- 基准构建:为评估而设计的7920样本的Benchmark。数据涵盖语音、声效、音乐、混合四大领域,每个领域包含真实和生成样本,并构建了英语和中文的对称双语版本。其核心创新在于难负例的系统构造,主要采用两种策略:
- 指令交换:将不同样本的指令互换,制造明显不匹配。
- 属性扰动:使用LLM(如Qwen3-30B)对原始指令中的具体属性(如情感强度、语调、乐器、风格等)进行细微修改,模拟生成模型可能出现的细粒度失败(具体的扰动提示模板见附录A,Tables 6-8)。构造后会使用CLAP或Gemini进行质量过滤,确保负例的明确性。
- 语料库构建:为训练而设计的105K样本的Corpus。数据与Benchmark独立。其构建关键在于精细化的标注流水线:
- 首先对音频的原始正面描述进行指令分解(同上)。
- 然后,将音频与原始正面描述或构造的负面描述配对。
- 最后,使用一个文本LLM(Qwen3-30B)对比原始描述与目标描述(正面或负面),为每个评分项生成“yes/no”标签及相应的思维链(CoT)推理理由。这确保了即使在负面样本中,也能提供细粒度的正确/错误判断监督。
- 基准构建:为评估而设计的7920样本的Benchmark。数据涵盖语音、声效、音乐、混合四大领域,每个领域包含真实和生成样本,并构建了英语和中文的对称双语版本。其核心创新在于难负例的系统构造,主要采用两种策略:
AnyAudio-Judge模型训练:
- 模型架构:基于
Qwen3-Omni-30B-A3B-Captioner初始化,这是一个具备音频理解能力的大型多模态模型。 - 训练目标:学习根据输入的音频和一系列分解后的评分项,输出一个JSON数组,数组中每个元素包含评分项ID、二元答案(“yes”/“no”)以及支持证据。
- 两阶段训练流程:
- 第一��段:监督微调:在AnyAudio-Judge Corpus上进行全参数微调(1 epoch, lr=1e-5)。目的是让模型初步掌握遵循Rubric格式输出判断和CoT理由的能力。
- 第二阶段:组相对策略优化:在SFT后的模型基础上应用GRPO。首先在语料库上进行4次采样,过滤掉模型已能一致正确回答的样本,保留约8454个困难样本进行优化。优化目标使用由三项组成的奖励函数:
- 格式一致性奖励(权重0.1):检查输出是否为符合要求的JSON。
- 全局准确性奖励(权重0.2):检查根据所有评分项答案推断出的整体匹配/不匹配判断是否正确。
- 平衡评分项准确性奖励(权重0.7):计算在金标准“yes”项和“no”项上的平均准确率,防止模型偏向预测某一类。GRPO训练使用LoRA(rank=16, alpha=32),1 epoch,lr=5e-6。
- 模型架构:基于
应用:
- 评估生成器:直接使用训练好的AnyAudio-Judge模型作为评估器,对不同的InstructTTS系统(如Qwen3-TTS, MOSS-VoiceGenerator, MiMo-Audio)输出基于Rubric的对齐分数,进行排名。
- 作为奖励模型:在InstructTTS强化学习中(以DiTAR为基础模型),将AnyAudio-Judge输出的标量对齐分数作为密集奖励信号,指导模型优化,以提升指令跟随能力。


💡 核心创新点
- 提出动态、基于评分项的评估范式:首次将动态生成的、细粒度的二元评分项系统性地引入音频指令跟随的评估中,替代了传统的整体式判断,显著提升了评估的可解释性和诊断能力。
- 构建首个跨领域的音频指令对齐评估基准:AnyAudio-Judge Bench是首个专门设计用于评估“判断模型”能力的基准,它系统性地覆盖了语音、声效、音乐、混合四大领域,并通过指令交换和属性扰动精心构造了难负例,填补了社区在评测此类模型上的空白。
- 创建大规模、带细粒度标注的训练语料库:AnyAudio-Judge Corpus提供了105K样本,不仅包含正负例对,更关键的是为每个样本提供了分解后的评分项、逐项的二元标签以及CoT推理理由,为训练细粒度对齐评估模型提供了高质量监督信号。
- 训练专用的评估模型并验证其作为奖励模型的效用:通过SFT+GRPO训练出AnyAudio-Judge模型,不仅在自有基准上取得SOTA,更证明了其作为密集奖励模型能有效提升下游InstructTTS任务的强化学习效果,展示了其应用价值。
📊 实验结果
论文在三个主要方面进行了实验验证:
- 在AnyAudio-Judge Benchmark上的性能(主要指标:ACC) 基准分为中文和英文两个子集,每个子集包含七个子集。实验对比了多种基线模型在“整体判断”和“动态评分项判断”两种提示下的表现,以及专门训练的AnyAudio-Judge模型。
表1:AnyAudio-Judge Benchmark结果(中文子集)
| 模型 | 提示方式 | Speech-Real | Speech-Gen | Sound-Real | Sound-Gen | Music-Real | Music-Gen | Mix | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Audio-Flamingo3 | 整体 | 50.25 | 50.35 | 65.90 | 67.66 | 59.97 | 59.52 | 52.11 | 57.97 |
| 动态评分项 | 60.25 | 58.90 | 65.17 | 68.92 | 70.28 | 67.37 | 56.50 | 63.91 | |
| MiDashengLM | 整体 | 51.58 | 52.50 | 53.40 | 49.50 | 52.22 | 48.88 | 47.20 | 50.75 |
| 动态评分项 | 66.94 | 65.50 | 67.90 | 75.83 | 71.25 | 71.13 | 59.90 | 68.35 | |
| Kimi-Audio-7B-Instruct | 整体 | 51.00 | 50.20 | 52.50 | 50.25 | 52.08 | 51.50 | 49.00 | 50.93 |
| 动态评分项 | 81.17 | 70.10 | 66.80 | 75.17 | 69.72 | 68.00 | 64.90 | 70.84 | |
| Qwen2.5-Omni-7B | 整体 | 50.25 | 50.20 | 50.40 | 51.25 | 56.25 | 53.88 | 50.10 | 51.76 |
| 动态评分项 | 78.17 | 72.10 | 68.00 | 75.58 | 74.72 | 71.63 | 63.30 | 71.93 | |
| Qwen3-Omni-30B-A3B-Instruct | 整体 | 67.33 | 58.10 | 54.10 | 57.92 | 64.58 | 66.75 | 52.90 | 60.24 |
| 动态评分项 | 90.75 | 78.65 | 71.60 | 77.33 | 76.25 | 75.88 | 67.30 | 76.82 | |
| Qwen3-Omni-30B-A3B-Captioner | 整体 | 75.42 | 64.75 | 59.20 | 64.00 | 68.61 | 70.00 | 55.30 | 65.33 |
| 动态评分项 | 90.17 | 79.50 | 70.80 | 76.42 | 74.86 | 75.75 | 69.10 | 76.66 | |
| Gemini-2.5-Pro | 整体 | 92.33 | 81.40 | 69.42 | 76.40 | 85.63 | 81.47 | 73.40 | 80.01 |
| 动态评分项 | 90.67 | 80.00 | 72.00 | 77.00 | 79.67 | 73.33 | 75.50 | 78.31 | |
| AnyAudio-Judge | 动态评分项 | 93.33 | 80.15 | 77.90 | 82.50 | 92.22 | 80.13 | 90.60 | 85.26 |
表2:AnyAudio-Judge Benchmark结果(英文子集)
| 模型 | 提示方式 | Speech-Real | Speech-Gen | Sound-Real | Sound-Gen | Music-Real | Music-Gen | Mix | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Audio-Flamingo3 | 整体 | 48.87 | 51.26 | 63.78 | 67.58 | 69.32 | 64.78 | 51.65 | 59.61 |
| 动态评分项 | 59.00 | 58.40 | 67.60 | 68.42 | 70.97 | 67.75 | 57.20 | 64.19 | |
| MiDashengLM | 整体 | 48.58 | 48.95 | 50.20 | 51.33 | 50.56 | 50.75 | 47.60 | 49.71 |
| 动态评分项 | 64.92 | 63.60 | 69.00 | 74.75 | 72.78 | 70.63 | 59.90 | 67.94 | |
| Kimi-Audio-7B-Instruct | 整体 | 50.25 | 50.15 | 51.30 | 49.58 | 50.83 | 50.38 | 48.60 | 50.16 |
| 动态评分项 | 80.08 | 69.15 | 68.00 | 74.00 | 70.42 | 68.25 | 65.80 | 70.81 | |
| Qwen2.5-Omni-7B | 整体 | 50.25 | 50.20 | 50.40 | 51.25 | 56.25 | 53.88 | 50.10 | 51.76 |
| 动态评分项 | 77.25 | 69.90 | 67.40 | 76.25 | 77.08 | 71.37 | 66.40 | 72.24 | |
| Qwen3-Omni-30B-A3B-Instruct | 整体 | 65.42 | 58.45 | 54.10 | 58.75 | 68.61 | 70.25 | 52.50 | 61.15 |
| 动态评分项 | 88.92 | 77.85 | 73.30 | 78.92 | 78.89 | 77.38 | 66.10 | 77.34 | |
| Qwen3-Omni-30B-A3B-Captioner | 整体 | 70.46 | 61.70 | 60.40 | 66.58 | 67.92 | 70.75 | 51.90 | 64.24 |
| 动态评分项 | 88.50 | 77.35 | 72.10 | 78.42 | 78.33 | 76.00 | 66.70 | 76.77 | |
| Gemini-2.5-Pro | 整体 | 91.22 | 79.20 | 70.23 | 72.60 | 83.25 | 78.87 | 69.80 | 77.72 |
| 动态评分项 | 89.00 | 77.67 | 71.67 | 76.00 | 79.33 | 76.19 | 71.00 | 77.27 | |
| AnyAudio-Judge | 动态评分项 | 91.42 | 78.85 | 78.70 | 84.67 | 91.25 | 79.87 | 86.40 | 84.45 |
关键发现:
- 范式有效性:对于几乎所有基线模型,使用“动态评分项”提示都比“整体判断”提示带来显著的平均准确率提升,证明了该评估范式本身的优越性。
- 模型优势:经过专门训练的AnyAudio-Judge模型在中文和英文子集上均取得了最佳平均准确率(85.26% 和 84.45%),尤其在Sound-Gen, Music-Real, Mix等需要细粒度判断的子集上优势明显。
- 与强大基线的对比:AnyAudio-Judge超越了强大的商业模型Gemini-2.5-Pro(尤其在Mix子集上提升显著),并远超其初始化模型Qwen3-Omni-30B-A3B-Captioner的动态评分项版本。
- 在外部数据集PAM上的泛化性能 评估AnyAudio-Judge作为奖励模型或评分器与人类偏好的相关性。
表3:PAM数据集上的相关性结果
| 方法/模型 | PAM (LCC ��) | PAM (SRCC ↑) | PAM (KTAU ↑) | CLAPScore |
|---|---|---|---|---|
| CLAPScore | 0.472 | 0.477 | 0.337 | |
| AQAScore (Qwen2.5-Omni-3B) | 0.540 | 0.560 | 0.410 | |
| AQAScore (Qwen2.5-Omni-7B) | 0.518 | 0.589 | 0.429 | |
| AQAScore (AF3) | 0.496 | 0.538 | 0.383 | |
| AQAScore (AF3-Think) | 0.582 | 0.587 | 0.419 | |
| AQAScore (AF3-Chat) | 0.381 | 0.435 | 0.337 | |
| AnyAudio-Judge | 0.614 | 0.601 | 0.435 |
关键发现:AnyAudio-Judge在Pearson (LCC)、Spearman (SRCC) 和 Kendall’s Tau (KTAU) 三个相关性指标上均取得了最高分,表明其提供的评估分数与人类偏好具有更强的一致性。
- 消融研究 验证评估范式和训练阶段的贡献。
表4:评估与训练策略消融研究
| 方法 | 中文ACC | 英文ACC |
|---|---|---|
| 整体判断 | 65.33 | 64.24 |
| 动态评分项 | 76.66 | 76.77 |
| + SFT | 84.02 | 83.78 |
| + SFT + GRPO | 85.26 | 84.45 |
关键发现:
- 从“整体判断”切换到“动态评分项”评估范式带来了最大的单步性能飞跃(约12-13个百分点)。
- SFT阶段进一步提升了性能(约7个百分点),使模型学会格式和基本判断。
- GRPO阶段在SFT基础上带来约1.2个百分点的额外提升,说明强化学习对处理困难样本、提升上限仍有帮助。
- 作为奖励模型的应用 在InstructTTS强化学习中,���AnyAudio-Judge分数为奖励优化DiTAR模型。结果显示(图5),奖励值在训练过程中稳步上升,表明模型学会了满足更多的评分项。在InstructTTSEval基准上的评估(图6)显示,经过AnyAudio-Judge奖励优化的模型在人类偏好和Gemini评分上均优于基线模型。


⚖️ 评分理由
- 创新性 (1.8/2):论文提出的“动态Rubric评估范式”是清晰且有价值的创新,将音频-文本对齐评估从模糊的整体判断推进到可解释的细粒度项目验证。首个专门针对“音频评估模型”的Benchmark和带CoT的训练语料库的构建,填补了领域空白,系统性工作扎实。
- 技术严谨性 (1.4/1.5):方法框架完整,从范式设计、数据构建到模型训练均有详细描述。技术路线合理(SFT+GRPO)。轻微扣分在于:1)核心的“动态分解”步骤依赖外部LLM,其稳定性和偏差未充分分析;2)Benchmark和语料库构造中多次使用Gemini和CLAP进行过滤,引入了隐性的外部依赖和潜在偏差,对最终评估结果的“纯净性”有一定影响。
- 实验充分性 (1.5/1.5):实验设计非常全面,充分证明了工作的各个主张:1)在自有Benchmark上验证了模型性能和新范式优势;2)在外部PAM数据集上验证了泛化性;3)通过消融研究拆解了各组件贡献;4)展示了作为奖励模型的下游应用价值。表格数据完整,对比基线丰富(包括不同规模模型、商业模型及同模型不同提示)。
- 清晰度 (1.4/1.5):论文整体结构清晰,问题定义、方法、实验逻辑连贯。附录提供了所有关键提示词模板,极大增强了透明度和可复现性。轻微不足是方法部分(第4节)的某些细节(如GRPO的奖励函数各项权重)可以更早或更强调地引入。
- 影响力 (1.4/1.5):工作直接针对音频生成领域的一个关键痛点——评估,提出的框架和工具有潜力成为该领域的标准评估和训练组件。作为奖励模型的应用连接了评估与生成,扩大了影响力。扣分点在于,其影响力目前主要局限于音频领域(尤其是TTS),向更广泛多模态评估的迁移需要后续工作证明。
- 开源 (1.3/1.5):论文承诺开源代码、基准和语料库(提供了GitHub链接),这是非常积极的。但根据当前信息,模型权重(AnyAudio-Judge)本身未明确承诺开源,而仅提到初始化模型
Qwen3-Omni-30B-A3B-Captioner的链接。开源内容的完整性(如是否包含训练好的评估模型)需等待实际发布验证。 - 可复现性 (1.2/1.5):由于提供了详细的提示词、训练超参数(lr, batch size, GPU数量等)和开源代码仓库(假设发布内容完整),复现论文核心实验(评估和训练)的可行性很高。不确定性主要来自对开源仓库内容完整性及外部依赖(如CLAP, Gemini)的潜在要求。
- 工程/实践价值 (1.3/1.5):提出的评估范式和模型具有很高的实用价值,可直接用于音频生成系统的开发和评测流程。作为奖励模型集成到RLHF训练中,为提升生成质量提供了新工具。工程实现细节(如两阶段训练)清晰,易于落地。扣分点是其评估过程需要先进行指令分解(调用一次LLM),增加了评估的延迟和成本。
🚨 局限与问题
- 对指令分解质量的强依赖:动态Rubric范式的有效性完全取决于第一步指令分解的质量。论文指出“imperfect decomposition may miss implicit constraints or split a single attribute too finely”,但未深入分析分解错误(如遗漏关键属性、分解过度)对最终评估分数的影响程度,也未提出检测或修复分解错误的方法。这是该范式最根本的脆弱性。
- 评估复杂性增加:虽然提供了细粒度信息,但评估过程从单次判断变为需要生成数十个评分项并逐个评估,显著增加了计算开销和推理时间。论文承认了“额外的推理时间”,但未量化其与基线方法的成本对比,也未探讨在实际部署中(如在线评估)的可行性。
- 训练和评估的隐性偏差:Benchmark和语料库的构建重度依赖现有的LLM(Qwen3-30B, Gemini)进行负例构造、质量过滤和标注。这意味着“评估者”的训练数据本身就携带了这些“被评估者”(LLM)的偏见和局限性,可能导致评估模型难以真正识别这些LLM特有的、但在其他生成器中可能不同的失败模式。
- 奖励模型验证的局限性:作为奖励模型的应用仅在单一的InstructTTS任务(DiTAR模型)上进行了验证。虽然结果积极,但未与标准的RLHF奖励建模方法(如基于Bradley-Terry模型的偏好学习)进行直接对比。其作为密集奖励信号的优势(相比二元偏好)也缺乏更全面的论证。
- 基准的天花板效应:AnyAudio-Judge Bench的“Mix”子集完全由真实样本构成,且“Speech-Gen”、“Sound-Gen”等子集依赖于特定一代生成模型(如AudioGen, MusicGen)的输出。这可能导致基准对评估模型性能的反映受限于当前生成技术的水平,随着生成模型快速进步,基准可能需要更新或扩展。
📷 论文图片
