Optimal Transport Audio Distance with Learned Riemannian Ground Metrics
📄 Optimal Transport Audio Distance with Learned Riemannian Ground Metrics #音频质量评估 #最优传输 #模型评估 #开源工具 ✅ 7.0/10 | 前10% | #音频质量评估 | #最优传输 | #模型评估 #开源工具 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Wonwoo Jeong (Sogang University) 通讯作者:Wonwoo Jeong (Sogang University) 作者列表:Wonwoo Jeong (Sogang University) 💡 毒舌点评 亮点:论文构建了一个扎实的理论框架(将FAD解耦为“成本原语”和“耦合原语”两个受约束的原语),并通过系统的消融实验(2x2因子分解)和开源工具(otadtk)将理论落地,说服力较强。实验设计严谨,覆盖了从理论极限(精确OT)到实用方案(Sinkhorn),并在八个编码器上验证了结论的普适性。 短板:方法本质上是在现有冻结编码器之上学习一个轻量适配器,其上限严重受限于上游表征质量(如EnCodec案例所示,MOS相关性在每个指标下都很弱)。此外,论文的核心理论贡献(定理1)严格针对“秩-1”污染,这是一种特定的理想化故障模式;其预测的有效秩衰减效应在真实世界复杂、多模态的伪影下的表现,需要进一步验证。 📌 核心摘要 这篇论文旨在解决当前主导的音频生成评估指标Fréchet Audio Distance (FAD)在检测稀有但严重的质量缺陷(如尖锐噪声、重复片段)时存在的结构性缺陷。作者从最优传输理论出发,指出FAD作为2-Wasserstein距离的受限替代品,在“成本原语”(使用冻结编码器的欧氏距离,存在感知不变集)和“耦合原语”(使用高斯拟合,会通过谱相关因子稀释秩-1异常值的信号)上均存在限制。为此,论文提出了Optimal Transport Audio Distance (OTAD),通过两个核心机制进行纠正:1)一个残差Riemannian适配器,学习局部度量以逃离编码器不变性;2)使用熵正则化的Sinkhorn最优传输作为耦合。实验证明,在八个编码器上,仅更换耦合方式(Sinkhorn)对秩-1异常值的敏感度就比FAD高1.9至3.6倍。在DCASE 2023 Task 7的人类MOS评分相关性上,OTAD(使用g_agnostic适配器)在系统级和逐类别粒度上均优于FAD和KAD,但在EnCodec编码器上所有指标均失效。作为离散传输计划的内在优势,OTAD还能提供AUROC ≥ 0.86的样本级诊断能力,这是标量或核聚合指标在结构上无法提供的。 🔗 开源详情 代码: ...