📄 PitchBench: Measuring Pitch Hearing in Audio-Language Models
#基准测试
🔥 9.7/10 | 前25% | #基准测试 | #基准测试 | arxiv
学术质量 6/7 | 影响力 1.8/2 | 可复现性 1.9/2 | 置信度 高
👥 作者与机构
Milan Liessens Dujardin (University of California, Berkeley), Song-Ze Yu (University of California, Berkeley), Craver Corbyn Thomas-Smith (Thoughtful Lab), David M. Chan (University of California, Berkeley), Karina Nguyen (Thoughtful Lab)。Equal contribution。
💡 毒舌点评
这篇论文指出了一个实际存在的问题(ALMs音高感知评估的缺失),并设计了一个系统化的解决方案(PitchBench)。其价值在于“诊断”而非“宣称”——它并不声称模型已经很好或很坏,而是提供了一套工具来精确测量它们到底能听到什么、不能听到什么。主要弱点在于其诊断工具本身(合成数据)的“生态效度”存疑,以及评估的模型可能并非当下最顶尖的系统,这使得部分结论的时效性和普适性打折扣。然而,其开源和模块化的设计为未来研究铺平了道路,这在很大程度上弥补了上述不足。
📌 核心摘要
本文介绍了PitchBench,一个用于系统测量音频语言模型(ALMs)音高感知能力的评估套件。该基准包含28个实验,分解为三个层级:原子音高感知(单音识别)、上下文音高感知(在序列、和弦及各种声学条件下)和旋律音高感知(在复调织体中追踪旋律线)。通过评估6个前沿ALMs(Gemini 3.1 Pro, Gemini 3 Flash, GPT-4o audio, Qwen-3.5 Omni Plus, Qwen-3.5 Omni Flash, Audio Flamingo Next Instruct),研究发现当前模型的音高感知能力普遍不可靠且脆弱。性能在不同音源、音符时长和记谱格式之间差异巨大,且对轻微的声学变换(如失谐)极为敏感。在最具挑战性的多声部旋律识别任务(F1, F2)上,所有模型准确率均为零。论文同时开源了生成数据和评估的Python包。
🔗 开源详情
- 代码:https://github.com/vaclisinc/PitchBench
- 模型权重:未提供(评估的是外部模型Gemini, GPT-4o, Qwen-Omni, Audio Flamingo)
- 数据集:PitchBench 数据集,链接为 https://huggingface.co/datasets/pitchbench-authors/PitchBench
- Demo:未提及
- 复现材料:论文提到一个匿名代码库作为补充材料随论文提交,用于复现所有实验,但未提供具体下载链接。正式开源代码见上述GitHub链接。
🏗️ 方法概述和架构
PitchBench的核心架构是一个分层、模块化的评估框架和与之配套的、完全确定性的数据生成管道。
评估框架(三层实验设计):
- 层级1:原子音高感知:评估模型识别孤立单音的能力。包含3组实验:
A1:在全音域内(MIDI 29-89),对19种音源(4种合成波形+15种MIDI乐器)渲染的单音进行识别。模型需在MIDI、科学音高记谱法(SPN)、唱名(DoReMi)、频率(Hz)四种格式中给出答案。A2:在响度变化(-30dBFS至+6dBFS)下测试单音识别。A3:在时长变化(50ms至60s)下测试单音识别。
- 层级2:上下文音高感知:评估音高在时间、结构和声学变化背景下的识别能力。包含4组实验(B, C, D, E):
B(时间定位):共5个子实验(B1-B5)。测试在静默中定位音高(B1)、在特定时间戳查询音高(B2)、报告单音起止时间(B3)、在干扰音中定位目标音起止(B4)以及报告序列中所有音符起止(B5)。B3-B5要求时间戳精确到250ms内。C(同时发声的音高):共4个子实验(C1-C4)。测试和弦音符计数(C1)、双音音程识别(C2)、和弦性质分类(C3)以及完整枚举和弦内所有音高(C4)。D(序列音高任务):共8个子实验(D1-D8)。测试序列音符计数(D1)、二元高低判断(D2)、离散旋律轮廓(D3)、连续音高轨迹描述(D4)、音高排序(D5)、序列音程识别(D6)、带语言参考的音高识别(D7,分为D7a拼接音频和D7b分离音频两种模态)以及完整序列音高转录(D8)。E(声学变化):共6个子实验(E1-E6)。测试在音频效果(E1:高通/低通、失真、混响等)、背景噪声(E2:白噪、人群声、雨声等,信噪比变化)、谐波饱和(E3)、时间拉伸(E4)、颤音(E5)和失谐(E6)条件下识别音高的鲁棒性。
- 层级3:旋律音高感知:评估在复调背景下追踪旋律的能力。
F1:在2-3个合成旋律声部同时播放时,转录指定的声部(通过音区标识)。F2:转录巴赫四声部众赞歌中的指定声部(女高、女中、男高、男低),使用music21语料库渲染。
数据生成管道:
- 确定性生成:所有刺激均由
pitchbenchPython包通过固定随机种子和配置文件确定性生成,确保完全可复现。 - 音源库:包含19种音源,通过
FluidSynth渲染MIDI,并通过Pedalboard库应用各类音频效果。 - 记谱格式:为避免模型偏向单一记谱体系,每个需要音高标签的任务均接受四种等价表示:MIDI(整数)、SPN(如
F#4)、DoReMi(如fa#)、Hz(如369.99)。评分时,模型以任何一种格式正确给出答案即算对。 - 评估指标:主要指标为准确率(Accuracy)。对于序列任务(如
D8)采用位置精确匹配;对于集合任务(如C4)采用集合精确匹配;对于时间任务采用容差匹配(±250ms)。


💡 核心创新点
- 填补关键评估空白:明确提出并系统化评估了现有ALMs基准中被忽略的底层感知能力——音高感知。这超越了以往通过高层任务(如流派分类)间接推断音高理解能力的局限。
- 分层诊断性评估框架:创新性地将音高感知分解为“原子-上下文-旋律”三个渐进层次和28个细粒度实验。这种设计能够精确定位模型失败于感知链条的哪个环节(是无法识别单音,还是无法处理时序/复调干扰),提供了比单一分数更丰富的诊断信息。
- 全面控制的声学变量与开源工具:系统化地控制了音源、响度、时长、效果、噪声、记谱格式等多个影响因素。同时,作为完整开源Python包发布(包含生成、评估、配置),极大提升了研究的可复现性和可扩展性。
📊 实验结果
主实验结果(表1:PitchBench Results): 论文评估了6个模型在28个实验上的准确率(%)。
| Group | Task | AF-next-instruct | Gemini 3.1 Pro | Gemini 3 Flash | GPT-4o audio | Qwen-3.5 omni plus | Qwen-3.5 omni flash |
|---|---|---|---|---|---|---|---|
| A | a1 Pitch ID | 35.9 | 14.9 | 6.0 | 6.1 | 91.6 | 75.1 |
| a2 Loudness | 43.0 | 22.5 | 23.0 | 14.5 | 90.5 | 71.5 | |
| a3 Duration | 29.5 | 20.0 | 21.0 | 13.8 | 74.8 | 61.0 | |
| B | b1 Silence | 5.6 | 25.6 | 21.3 | 14.6 | 90.0 | 75.6 |
| b2 At Time | 10.0 | 17.3 | 16.7 | 10.7 | 77.3 | 56.7 | |
| b3 Time Pitch | 0.0 | 0.0 | 2.5 | 0.8 | 13.1 | 9.4 | |
| b4 Time Spec. | 0.0 | 0.0 | 1.7 | 0.0 | 20.0 | 2.5 | |
| b5 Time Multi. | 0.0 | 0.0 | 0.0 | 0.0 | 30.0 | 2.5 | |
| C | c1 Count | 13.6 | 46.5 | 39.9 | 3.1 | 9.7 | 20.2 |
| c2 Interval | 7.8 | 6.9 | 9.1 | 5.2 | 9.1 | 11.2 | |
| c3 Quality | 9.9 | 13.0 | 10.4 | 10.9 | 13.0 | 13.0 | |
| c4 Chord P. | 0.0 | 1.5 | 0.0 | 0.0 | 15.6 | 12.8 | |
| D | d1 Seq. Count | 26.4 | 51.4 | 25.0 | 20.0 | 82.1 | 78.6 |
| d2 High/Low | 50.0 | 63.6 | 50.8 | 50.0 | 65.2 | 57.6 | |
| d3 Contour D. | 0.0 | 15.0 | 0.0 | 0.0 | 15.6 | 12.8 | |
| d4 Contour C. | 0.0 | 43.8 | 35.4 | 3.1 | 51.9 | 17.5 | |
| d5 Rank | 4.2 | 5.0 | 0.0 | 1.7 | 20.0 | 2.5 | |
| d6 Seq. Int. | 3.8 | 19.5 | 5.1 | 3.0 | 15.7 | 5.5 | |
| d7 Ref. Pitch | 13.9 | 58.5 | 35.4 | 14.6 | 96.2 | 76.9 | |
| d8 Seq. Pitch | 0.0 | 0.0 | 0.0 | 0.0 | 55.0 | 2.9 | |
| E | e1 Effects | 35.0 | 21.3 | 19.6 | 12.9 | 86.7 | 55.8 |
| e2 Background | 12.1 | 4.2 | 14.2 | 12.1 | 42.9 | 22.9 | |
| e3 Saturation | 45.0 | 14.2 | 24.2 | 10.8 | 86.7 | 69.2 | |
| e4 Stretch | 34.9 | 18.2 | 9.4 | 10.4 | 88.5 | 79.2 | |
| e5 Vibrato | 24.4 | 2.5 | 3.1 | 3.8 | 65.6 | 39.4 | |
| e6 Off Pitch | 23.8 | 12.5 | 13.8 | 11.3 | 22.5 | 30.0 | |
| F | f1 Atonal | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| f2 Tonal | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 | |
| Mean | 15.4 | 17.8 | 14.0 | 8.4 | 47.7 | 34.2 |
关键发现:
- 模型分层明显:
Qwen-3.5 Omni Plus(均值47.7%)显著领先,尤其在结构化任务(如d7 Ref. Pitch达96.2%)上表现突出。Qwen-3.5 Omni Flash(34.2%)次之。其他模型均低于20%。 - 普遍脆弱性:即使最好的模型,在面对复调旋律(
F1/F2,全0分)、同时发声的音高识别(C组)、时间定位(B组部分)等任务时也表现极差。 - 格式效应:模型对不同记谱格式的响应可靠性不同(见图4)。例如,Qwen模型在SPN格式下表现更好。
- A4偏差:分析显示,多个模型(如GPT-4o)对A4(440Hz)音高的识别存在异常偏好(图3),可能源于训练文本数据的偏见。
- MCQ膨胀效应:多选格式(Table 3)会大幅虚假提升弱模型的性能(如Gemini 3.1 Pro从7.1%升至45.8%),而对强模型(Qwen Plus)几乎无影响,这证实了开放式评估的必要性。
- 声学鲁棒性分析:表2显示,失谐(
e6)对模型是灾难性的(Qwen Plus从90.5%骤降至14.7%),表明模型可能将音高量化到最近的半音。短时长(50ms)同样导致性能崩溃。


🔬 细节详述
- 模型偏差与训练数据关联:论文发现的A4偏好(图3水平亮线)和对SPN格式的响应差异(图4),强有力地表明模型的“音高感知”输出并非纯粹从音频信号中得出,而是受到了其文本训练数据中符号化音高表示(如A4=440Hz)的深刻影响。这是一种感知-生成偏差的混合体。
- 任务难度与评估协议:
F1/F2任务的零分结果具有双重意义:一方面揭示了当前ALMs在复调听辨上的能力鸿沟;另一方面也引发思考——完全精确的单音转录要求是否在当前技术下过于严苛?这可能是评估协议本身设计的一个“压力测试”,而非绝对的能力下限。 - 相对音高的潜力:实验
d7(提供参考音)为几乎所有模型(Audio Flamingo除外)带来了显著性能提升。这暗示许多ALMs可能具备某种程度的相对音高感知能力,即基于关系的编码比绝对类别更稳定。这为未来模型改进指明了一个可能的路径。
⚖️ 评分理由
- 创新性 (2.5/3):在ALMs评估领域,系统性地提出并实现针对底层感知能力(音高)的分层诊断基准,是一个明确且重要的贡献。其创新在于“解构”与“诊断”,而非提出新的模型架构。扣分点在于其核心思想(控制变量评估感知能力)在计算机视觉等领域已有先例。
- 技术严谨性 (1.4/1.5):实验设计系统且严谨。控制变量全面(音源、声学条件、输出格式),层次结构清晰,统计指标明确。评估协议设计合理(如允许四种格式回答)。轻微扣分在于对“完全匹配”评分标准在某些任务(如复杂旋律转录)上的严苛性未做更深入的讨论。
- 实验充分性 (1.2/1.5):评估了6个代表性模型,覆盖了主要商业和开源系统。提供了丰富的细粒度分析(热图、格式对比、鲁棒性表格)。不足在于:1) 模型可能并非发布时绝对最新的(如未提及某些更新版本);2) 未对模型架构差异进行更深入的消融分析以解释性能差距。
- 清晰度 (0.9/1):论文结构清晰,对基准的定义、分层逻辑、实验设计描述详尽。图表(图1,2,3,4,表1,2,3)直观且信息量大。方法部分尤为清晰。轻微扣分在于部分实验(如B3-B5)的时间戳格式和评分细节需要仔细阅读附录才能完全理解。
- 影响力 (1.8/2):对音频多模态社区具有明确且直接的实践价值,为评估和诊断ALMs的音乐感知能力提供了标准工具。其开源性质有助于快速被社区采纳。影响力受限于其聚焦于“音高”这一相对狭隘的感知维度,且结论主要适用于当前以英文和西方音乐体系为主的模型。
- 开源 (1.4/1.5):提供了完整的开源Python包、数据集生成代码和实验配置,复现性极高。论文明确列出了GitHub和HuggingFace链接。未提供模型权重是合理的(评估外部模型)。轻微扣分在于补充材料中提到的“匿名代码库”与正式GitHub仓库的关系未完全厘清。
- 可复现性 (0.5/0.5):数据生成完全确定性,配置文件和种子固定,文档齐全,理论上任何人可以精确复现所有实验结果。满分。
🚨 局限与问题
- 生态效度局限:基准完全依赖于合成刺激(General MIDI音色)。尽管控制精确,但无法反映真实音乐录音中复杂的谐波结构、音色变化、演奏法(如滑音、揉弦)以及环境声学特性。模型在真实音乐应用中的表现可能与此基准结果存在差距。
- 评估模型时效性:论文评估的模型版本(如GPT-4o audio preview)可能在发表后已更新。基准未能涵盖所有最新发布的前沿系统(如可能更新的Claude Audio版本),结论的时效性可能受限。
- 极端任务的效度争议:
F1/F2(多声部转录)任务的全零结果,虽然揭示了当前模型的缺陷,但也可能暗示该任务对于当前基于自回归范式的ALMs而言,在任务定义(要求逐音符精确转录)和输入上下文长度限制上过于严苛,其作���“区分性”评估的效度值得商榷。 - 归因分析不足:论文观察到不同模型行为差异巨大(如对A4的偏好、对不同格式的响应),但主要将其归因为“训练数据的先验”。缺乏更深入的分析,例如对比模型架构、训练数据组成(是否包含乐理文本)与具体偏差模式的相关性,这限制了结论的指导意义。
- 结论的适度性:论文结论“Current ALMs do not yet possess stable pitch perception”是基于特定基准、特定模型版本、特定任务设计的。若不加限定地解读,可能过于绝对。应强调是在PitchBench的评估条件下,且针对的是合成刺激和特定任务。