📄 An Asymmetric Formula for Interval Consonance and its Relation to Harmonic Coincidence

#音乐信息检索

8.0/10

🔥 8.0/10 | 前25% | #音乐信息检索 | #音乐信息检索 | arxiv

👥 作者与机构

David De Roure, Department of Engineering Science, University of Oxford, Oxford, UK; Centre for Practice & Research in Science & Music (PRiSM), Royal Northern College of Music, Manchester, UK

💡 毒舌点评

这篇“工作笔记”本质上是一篇披着数论外衣的音乐理论随笔,优雅、简洁,充满了数学的美感,但其对“感知”的宣称更像是一种事后解释而非预测模型。它成功地将Euler的公式从一个美学评判工具,重新包装成了一个(在离散假设下)有物理(声学巧合)和认知(两阶段假设)解释的模型。最大的优点是它将几个世纪以来关于音程和谐性的直觉(伽利略、拉莫、欧拉)用现代的算术语言漂亮地统一起来,并且开源了全部代码。最大的问题是,它声称的“与人类感知的卓越相关性”完全建立在一个包含13个数据点、且未经统计检验的小数据集上——这在顶会审稿人眼中几乎等同于玩具实验。那个“两阶段感知假设”写得引人入胜,但本质上是无法证伪的哲学遐想,缺乏任何直接的心理声学实验验证。最后,将13个区间排序的相关性作为核心评估指标,其统计效力低得可怜,但论文对此却缺乏必要的审慎。这是一篇出色的理论探索,但若声称其对“感知”或“声学”有实质性洞察,则显得证据不足。

📌 核心摘要

本文提出一个简单非对称算术公式 \(f(p/q) = p + \Omega^(q)\) 来量化音乐音程的不和谐度,其中 \(p, q\) 为互质整数,\(p>q\)\(\Omega^(n)\) 为 Euler 的质数加权函数。该公式在13个标准西方音程的人类不和谐度排序数据上,达到了与 \(\max(p,q)\) 相同的最优 Spearman 秩相关系数(\(\rho=0.989\)),并解决了 Euler Gradus 公式(\(G(p/q)=1+\Omega^(p)+\Omega^(q)\))中无法区分的某些音程对(如大三度/大六度)。论文的核心贡献在于理论层面:1) 证明了在离散调和模型(谐波为整数索引、计数均匀)下,Gradus 等价于一个以 \(\Omega^(n)\) 为权重的加权谐波巧合计数,从而将 Euler 的算术模型与 Galileo 的物理脉冲巧合模型在数学上联系起来;2) 提出了一个推测性的两阶段感知解释(低音确立谐波上下文,高音作为序列中的部分被识别),为非对称性提供心理学动机;3) 建立了一个定性的部分拍音容忍度模型,推导出容忍度半宽 \(\Delta_{\mathrm{tol}} \approx \frac{1730\tau}{p \cdot f_0}\)(单位:音分),将公式中的项 \(p\) 与对失谐的声学敏感度联系起来,并为等程调律(12-TET)的可接受性提供了算术解释;4) 由公式自然生成一个互质整数三角形 \(T(n,k)=n+\Omega^(k)\),并提议将其作为 OEIS 序列。

🔗 开源详情

  • 代码:https://github.com/davidderoure/gradus (包含 Python, PARI/GP, Mathematica 实现,可复现所有表格、图表和 OEIS 序列)
  • 模型权重:未提及
  • 数据集:未提供链接,但引用了标准公开数据集 Krumhansl (1990)。
  • Demo:未提及
  • 复现材料:论文在附录 A 提供了生成所有结果和图表的完整代码。
  • 论文中引用的开源项目:未提及

🏗️ 方法概述和架构

论文的方法是纯理论性和分析性的,主要包含五个相互关联的数学与概念组件,旨在建立音程不和谐度的算术度量体系。

  1. 基础算术工具:完全加性函数 \(\Omega^*(n) = \sum_{i} e_i(p_i - 1)\),其中 \(n = \prod p_i^{e_i}\)。它衡量整数 \(n\) 的质因数分解的“质数复杂度”。对于音程比 \(p/q\),这是核心度量的基本构件。

  2. 离散调和模型与 Gradus 的重新解释:这是连接算术与声学的关键桥梁。论文建立了一个理想化模型:假设声音的谐波系列是离散的、整数索引的、均匀计数的,且存在一个固定的谐波截断水平 \(M\)。在此模型下,对于频率比为 \(p:q\) 的两个音,第 \(m\) 次谐波巧合发生在频率 \(m p f_0\)(对于低音是第 \(mp\) 次谐波,对于高音是第 \(mq\) 次谐波)。通过为每个谐波分配权重 \(w(n)=\Omega^(n)\),并利用 \(\Omega^\) 的完全加性(\(\Omega^(mn)=\Omega^(m)+\Omega^(n)\)),论文推导出加权巧合总分 \(\text{Score} = M \cdot (\Omega^(p) + \Omega^*(q)) + 2C(M) = M \cdot (G(p/q) - 1) + 2C(M)\),其中 \(C(M)\) 是与 \(p,q\) 无关的常数。这证明在该模型假设下,Euler 的 Gradus 公式 \(G(p/q)\) 等价于一个加权谐波巧合计数。论文强调,这是一个数学上的重新解释,而非声称 Euler 本人的动机。

  3. 非对称公式 \(f(p/q) = p + \Omega^(q)\):这是论文提出的新核心度量。它有意打破了 Euler 公式的对称性,将分子 \(p\)(代表音程中高音的音高)和分母 \(q\)(代表低音的音高)用不同的方式处理:高音的贡献就是其部分序数 \(p\) 本身(可能关联到识别其作为谐波系列中第 \(p\) 项的认知成本),而低音的贡献是其质数复杂度 \(\Omega^(q)\)(可能关联到从低音推导出隐含基频的计算成本)。这个分解为后续的两阶段感知假设提供了算术基础。

  4. 互质整数三角形 \(T(n, k)\):这是 \(f(p/q)\) 在互质整数对上的自然推广。定义 \(T(n, k) = n + \Omega^*(k)\),其中 \(1 \leq k \leq n\)\(\gcd(n, k)=1\)。这构成了一个二维的整数阵列,其结构属性(如行和、最大值、最小值)值得数论研究。最右侧的对角线 \(T(n, n-1)\) 对应于“超比例”音程 \(n/(n-1)\)(如八度 2/1,五度 3/2 等)的非对称不和谐度值。

  5. 部分拍音容忍度模型:这是一个将算术公式与声学粗糙度感知连接起来的定性模型。它从失谐 \(\Delta\)(音分)导致第 \(m\) 次巧合部分(频率 \(m p f_0\))产生拍音 \(\beta_m \approx m p f_0 \cdot (\ln 2 / 1200) \cdot |\Delta|\)(Hz)出发。假设感知容忍阈值为 \(\tau\) Hz(例如,低于粗糙感起始点),并主要考虑第一次巧合(\(m=1\)),则推导出容忍度半宽 \(\Delta_{\mathrm{tol}}(p/q, f_0) \approx \frac{1730 \tau}{p \cdot f_0}\) 音分。这个公式表明容忍度与 \(p\)(即 \(f(p/q)\) 中的分子项)成反比。论文通过计算不同 \(\tau\) 值下标准音程的容忍度,并与 12-TET 的偏差比较,论证了算术复杂度高的音程(如三度、六度)在声学上更脆弱,从而解释了 12-TET 保留了鲁棒的五度/四度,却扭曲了脆弱的三度/六度。

这些组件层层递进:从基础算术(\(\Omega^*\))和理想化声学模型(谐波巧合)出发,建立经典公式(Gradus)的新解释;提出改进的新公式(\(f\));新公式生成有趣的组合结构(三角形);最后通过容忍度模型,将新公式中的核心算术项(\(p\))与关键的声学感知特性(容忍度)定量地联系起来,完成了从纯算术到感知声学的理论闭环。

图1

图2

💡 核心创新点

  1. 非对称算术公式:提出 \(f(p/q) = p + \Omega^(q)\)。核心创新在于打破了 Euler Gradus 的对称性,用更简单的项 \(p\) 替换了分子项 \(\Omega^(p)\),同时在小数据集上保持了最优的相关性。这引入了“音程中高音与低音感知角色不同”的算术表达。
  2. Gradus 的谐波巧合重释:在离散调和模型下,严格证明了 Gradus 公式等价于以 \(\Omega^*(n)\) 为权重的谐波巧合计数。这为古老的 Euler 公式提供了新的物理声学解释,并建立了与更早的 Galileo 脉冲模型的数学联系。
  3. 算术-声学连接:通过部分拍音容忍度模型,建立了 \(f(p/q)\) 中分子项 \(p\) 与音程对失谐的声学敏感度(容忍度 \(\propto 1/p\))之间的定量关系。这为算术度量提供了潜在的声学解释,并为评估等程调律等调音系统提供了理论框架。
  4. 互质整数三角形 \(T(n,k)\):从公式自然衍生出的组合结构,及其对角线序列 \(T(n, n-1)\),并提议为 OEIS 序列。这拓展了公式的数学趣味和应用范围。
  5. 两阶段感知假说:提出了一个富有启发性的、将公式分解为“低音上下文建立成本(\(\Omega^*(q)\))”和“高音部分识别成本(\(p\))”的心理学解释,尽管它是推测性的。

📊 实验结果

论文的“实验”主要是将提出的算术度量与一个现成的人类不和谐度排序数据集进行 Spearman 秩相关分析。核心结果是所有公式的相关系数比较。

表 1(直接来自原文):13个标准音程的不和谐度值与人类排序

音程比例\(\mathrm{G}(p/q)\)\(f(p/q)\)\(\max(p,q)\)\(\mathrm{H}(p/q)\)人类排序
Unison1/111111
Octave2/122222
Fifth3/244363
Fourth4/3564124
Major third5/4775205
Minor third6/58106306
Major sixth5/3775157
Minor sixth8/58128408
Major second9/88129729
Minor seventh9/591394510
Major seventh15/810181512011
Minor second16/1511221624012
Tritone45/32145045144013

Spearman \(\rho\) 对比人类排序:

  • \(\mathrm{G}(p/q)\) (Euler Gradus): 0.979
  • \(f(p/q)\): 0.989
  • \(\max(p,q)\): 0.989
  • \(\mathrm{H}(p/q)\) (Tenney height): 0.978

主要发现:1) \(f\)\(\max\) 达到了并列最高的相关系数。2) \(f\) 在解决平局方面表现最佳:Gradus 在大三度/大六度(G=7)以及小三度/小六度/大二度(G=8)存在平局;\(f\) 解决了三连平,但引入了小六度/大二度(f=12)的二连平;\(max\) 在大三度/大六度(max=5)和大二度/小七度(max=9)存在平局。3) \(f\)\(max\) 为不和谐的四音度(tritone, 45/32)赋予了远高于 Gradus 的值(f=50, max=45 vs G=14),更强调了其极端性。

论文进一步分析了各公式的动态范围、对称性、区间反转处理、与 Tenney 高度的对比,以及在标准音分邻域内的公式值分布(图1)。图1显示,在以标准音分为中心的 \(\pm 15\) 音分容忍带内,没有���母 \(\le 32\) 的竞争有理数,支持了标准音分的孤立性。\(f\) 的梯度比 Gradus 更陡峭。

表 2(来自原文):标准音分附近的最近竞争分数及其引起的公式值跳跃

音程标准音分竞争音分误差 (¢)\(\Delta G\)\(\Delta f\)\(\Delta \max\)
Major second9/864/572+19+72+55
Minor third6/577/642+15+73+71
Major third5/476/613+74+129+71
Fourth4/383/624+109+108+79
Tritone45/3252/371+37+38+7
Fifth3/294/635+54+100+91
Minor sixth8/5101/632+103+99+93
Major sixth5/3103/623+127+127+98
Minor seventh9/516/910+7+7
Major seventh15/8118/631+60+110+103

容忍度模型的结果(图2,图3,图4)显示:在 \(f_0=220\) Hz(A3)处,12-TET 对五度/四度的偏差(2¢)远低于所有容忍阈值(\(\tau=4,8,15\) Hz),而对三度/六度/七度的偏差(14-16¢)则接近或超过严格的容忍阈值。容忍度 \(\Delta_{\mathrm{tol}} \propto 1/p\),因此 \(p\) 较小的五度/四度鲁棒,\(p\) 较大的三度/六度脆弱。模型还预测了容忍度的寄存依赖性(图4):高音区容忍度更窄,ET三度在高音区可能听起来更粗糙。

图3

图4

🔬 细节详述

  • 评分理由:

    • 创新性 (1.8/2):非对称公式本身虽简单,但将 Gradus 重新解释为谐波巧合计数,并连接容忍度模型,构成了一个从算术到声学的连贯理论框架,具有很好的原创性和洞察力。
    • 技术严谨性 (1.3/1.5):在离散调和模型下的数学推导(如谐波巧合分数的计算)是精确的。容忍度模型的推导虽然基于简化假设(如主要考虑第一次巧合),但逻辑清晰,定性结论合理。主要不足在于两阶段感知假设是纯推测,缺乏任何计算或实验证据支持。
    • 实验充分性 (0.5/2):实验验证严重不足。所有相关性分析基于一个包含仅13个数据点、来自特定文化群体(受过训练的西方听众)的单一数据集。缺乏统计显著性检验,无法判断相关系数差异(0.989 vs 0.979)是否可靠。没有在新数据集上的泛化验证,也没有任何心理声学实验来验证两阶段假设或容忍度模型的具体预测。
    • 清晰度 (1.4/1.5):论文写作极其清晰,逻辑流畅,从历史背景到新方法,再到比较、扩展和模型,层层递进。数学符号定义明确,图表有效辅助说明。
    • 影响力 (1.2/2):对音乐理论、数论和音乐信息检索社区有明确价值。为音程复杂度提供了新的分析视角和工具。但受限于薄弱的实验基础,其作为“感知模型”的宣称说服力不足,可能影响更广泛的心理声学社区接受度。
    • 开源 (1.5/1.5):提供了完整、可用的代码实现(Python, PARI/GP, Mathematica),并托管在GitHub上,极大提升了可复现性和他人探索的可能性。
    • 可复现性 (1.0/1.5):得益于开源代码,论文中所有算术计算结果均可完全复现。但“可复现性”还涉及实验部分,由于实验设计过于简单且数据集未提供链接(虽然引用了标准数据集),完整复现其“实验”部分存在困难。
    • 工程/实践价值 (0.6/1):公式简单,易于计算和嵌入到音乐分析软件中。容忍度模型为评估调音系统提供了理论依据。但作为实际的声音合成或音高校准的实用算法,其有效性和必要性有待在大规模应用中验证。
  • 局限与问题:

    1. 实验证据极度薄弱:核心结论建立在13个数据点的排序相关上,这在统计上缺乏功效,无法支持诸如“\(f\) 优于 Gradus”这类强结论。缺乏在更大多样化数据集(如非西方音乐、不同音色、绝对音高而非相对音程)上的验证。
    2. 感知假设缺乏验证:两阶段感知假设(Section 7)是论文的亮点,但完全是推测性的。没有任何实验(如通过操纵寄存或音色来分离“低音复杂度”和“高音部分高度”的效应)来验证其心理现实性。
    3. 容忍度模型的局限性:模型是定性的,依赖于未校准的参数(\(\tau\) 值)。其推导假设谐波系列无限延伸且均匀计数,忽略了实际声音频谱的衰减和截止,以及内谐波性(inharmonicity)。模型预测的 \(1/p\) 依赖性是否精确,需要心理声学实验的检验。
    4. 适用范围狭窄:工作主要局限于 5-limit 音程(质因数仅含2,3,5)。对于包含7, 11, 13等更高质数的音程(如某些民间音乐或微分音乐),公式的适用性和排序的感知有效性完全未知。
    5. 平局问题的权衡:\(f\) 虽然解决了 Gradus 的某些平局,但引入了新的平局(如小六度与大二度),且对于大三度/大六度的平局,它与 \(\max\) 一样无能为力。这暗示在当前算术框架内,这一特定区分可能是根本性的困难。
    6. 对称性选择的任意性:非对称公式中将分子替换为 \(p\),分母保留 \(\Omega^(q)\) 的具体选择,缺乏第一性原理的推导。论文承认其他替代方案(如 \(p + \log q\))结构上合理,但 \(\Omega^\) 的选择主要基于其对特定小数据集的拟合度。
    7. 动态范围解读的模糊性:\(f\) 为不和谐的四音度赋予极高的值(50),这反映了算术特性,但论文也承认,对于人类整体感知而言,这种极端动态范围是否“正确”难以从排序数据中判断。

开源详情

  • 代码:https://github.com/davidderoure/gradus (包含 Python, PARI/GP, Mathematica 实现,可复现所有表格、图表和 OEIS 序列)
  • 模型权重:未提及
  • 数据集:未提供链接,但引用了标准公开数据集 Krumhansl (1990)。
  • Demo:未提及
  • 复现材料:论文在附录 A 提供了生成所有结果和图表的完整代码。
  • 论文中引用的开源项目:未提及

← 返回 2026-06-16 语音/音乐/音频论文速递