ICASSP 2026 - 音频质量评估

1 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇Deepaq: A Perceptual Audio Quality Metric Based on Foundatio7.5分前25%

📋 论文详情

🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型

👥 作者与机构

  • 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)
  • 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)
  • 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构)

💡 毒舌点评

亮点:成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务,并证明了其在泛化到音源分离等未见过失真上的强大潜力,结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。
短板:整个训练完全依赖非公开的内部音乐数据集,复现难度极高;虽然使用了弱监督标签,但核心标签仍来自ViSQOL,本质上是在“蒸馏”一个已有指标的判断,其能否真正超越“老师”在未见场景的极限存疑。

📌 核心摘要

  1. 解决的问题:通用音频(涵盖音乐、语音等)的质量评估缺乏既精确又鲁棒的客观指标,尤其面对编码失真和音源分离失真时,现有方法(如ViSQOL, PEAQ)的表现各有短板。主观评测成本高昂,而基础模型在质量评估任务上的潜力尚未充分挖掘。
  2. 方法核心:提出DeePAQ,以预训练音乐基础模型MERT为骨干网络。通过弱监督学习方式,利用ViSQOL计算的MOS分数和编码码率作为替代标签构建排序三元组,采用改进的Rank-n-Contrast (RnC)损失函数对模型进行微调,使其学到的嵌入空间能有效反映音频的失真程度。为适应有限数据,采用了LoRA(低秩适配)技术进行高效微调。推理时,计算测试音频与参考音频嵌入的欧氏距离,并通过三次多项式映射得到预测分数。
  3. 与已有方法的新颖之处:首次将弱监督学习(替代标签)、度量学习(RnC损失) 和LoRA微调这三者相结合,并应用于基于音乐基础模型的通用音频质量评估。相比依赖手工特征或专用神经网络的传统指标(PEAQ等),以及简单微调基础模型的方法,该组合在数据稀缺下更有效、更稳定。
  4. 主要实验结果:在涵盖音频编码和音源分离的9个独立听测集上进行评估。所提的全参考模型在整体相关性上达到最优,PCC为0.924,SRCC为0.889,优于最强基线2f-model(0.924/0.889附近)和ViSQOL等。尤其在处理训练中未见的音源分离失真时,表现显著优于其他指标。具体结果见下表(关键数据节选):
测试集指标ViSQOL v32f-modelHAAQI提出的全参考模型
IgorC96MultiformatPCC0.9390.9310.8990.954
SRCC0.8630.8720.8070.848
ODAQ-OverallPCC0.7010.8630.5720.916
SRCC0.7630.8140.5480.868
Source Separation OverallPCC0.6460.9530.8830.919
SRCC0.8080.8810.6560.787
Overall (所有测试)PCC---0.924
SRCC---0.889

(注:表格整理自论文Table 1,数值已乘以1000还原。)

  1. 实际意义:提供了一种更接近人类感知、且泛化能力更强的音频质量自动评估工具,有望提升音频编解码器、音源分离算法等的开发与优化效率。
  2. 主要局限性:模型训练完全依赖非公开的内部数据集,外部研究者无法复现。对音源分离任务的评估显示,其相关性虽高但SRCC有所下降,且完全依赖一个“干净”的参考信号,实际应用中可能受限。