Optimal Transport Audio Distance with Learned Riemannian Ground Metrics

📄 Optimal Transport Audio Distance with Learned Riemannian Ground Metrics #音频质量评估 #最优传输 #模型评估 #开源工具 ✅ 7.0/10 | 前10% | #音频质量评估 | #最优传输 | #模型评估 #开源工具 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Wonwoo Jeong (Sogang University) 通讯作者:Wonwoo Jeong (Sogang University) 作者列表:Wonwoo Jeong (Sogang University) 💡 毒舌点评 亮点:论文构建了一个扎实的理论框架(将FAD解耦为“成本原语”和“耦合原语”两个受约束的原语),并通过系统的消融实验(2x2因子分解)和开源工具(otadtk)将理论落地,说服力较强。实验设计严谨,覆盖了从理论极限(精确OT)到实用方案(Sinkhorn),并在八个编码器上验证了结论的普适性。 短板:方法本质上是在现有冻结编码器之上学习一个轻量适配器,其上限严重受限于上游表征质量(如EnCodec案例所示,MOS相关性在每个指标下都很弱)。此外,论文的核心理论贡献(定理1)严格针对“秩-1”污染,这是一种特定的理想化故障模式;其预测的有效秩衰减效应在真实世界复杂、多模态的伪影下的表现,需要进一步验证。 📌 核心摘要 这篇论文旨在解决当前主导的音频生成评估指标Fréchet Audio Distance (FAD)在检测稀有但严重的质量缺陷(如尖锐噪声、重复片段)时存在的结构性缺陷。作者从最优传输理论出发,指出FAD作为2-Wasserstein距离的受限替代品,在“成本原语”(使用冻结编码器的欧氏距离,存在感知不变集)和“耦合原语”(使用高斯拟合,会通过谱相关因子稀释秩-1异常值的信号)上均存在限制。为此,论文提出了Optimal Transport Audio Distance (OTAD),通过两个核心机制进行纠正:1)一个残差Riemannian适配器,学习局部度量以逃离编码器不变性;2)使用熵正则化的Sinkhorn最优传输作为耦合。实验证明,在八个编码器上,仅更换耦合方式(Sinkhorn)对秩-1异常值的敏感度就比FAD高1.9至3.6倍。在DCASE 2023 Task 7的人类MOS评分相关性上,OTAD(使用g_agnostic适配器)在系统级和逐类别粒度上均优于FAD和KAD,但在EnCodec编码器上所有指标均失效。作为离散传输计划的内在优势,OTAD还能提供AUROC ≥ 0.86的样本级诊断能力,这是标量或核聚合指标在结构上无法提供的。 🔗 开源详情 代码: ...

2026-05-08 · 更新于 2026-05-19 · 6 min · 1097 words

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Leying Zhang(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 通讯作者:Yanmin Qian(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 作者列表: Leying Zhang(上海交通大学) Bowen Shi(独立研究者,美国) Haibin Wu(独立研究者,美国) Bach Viet Do(独立研究者,美国) Yanmin Qian(上海交通大学) 💡 毒舌点评 这篇论文把“指令跟随”从聊天机器人玩出了新花样,成功让一个3B参数的LLM学会了听声辨器,成为一个跨领域的全能“音频考官”,实验结果全面碾压了各种老牌打分模型和通用多模态大模型,实用性拉满。不过,它的“超能力”似乎建立在对训练数据分布的高度适应上,一旦遇到像语速评估这种对时序动态要求苛刻的任务,就立马“打回原形”,暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要 要解决的问题:随着生成式音频模型的快速发展,现有评估方法(传统客观指标或通用多模态大模型)在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。 方法核心:提出JASTIN框架,将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器(PE-A-Frame-base)+ 轻量级可训练音频适配器 + 微调的大语言模型(Llama-3.2-3B)。通过交错的对话模板输入,将自然语言评估指令与音频特征一起输入LLM,直接生成数值评分。 与已有方法相比新在哪里: 统一泛化:单个模型可零样本处理语音、音乐、音效等24种评估任务,无需任务特定重训练。 创新的数据准备管道:采用多源(人工标注、伪标签、代理任务数据)、多任务、多校准(动态评分范围、语义反转)、多描述(LLM驱动重述) 的异构数据增强策略,极大提升了模型对指令和评估标准的理解与鲁棒性。 指令鲁棒性与人类中心对齐:模型能灵活适应评分规则和标定的变化,同时对同义指令保持稳定输出,其预测结果与人类主观评分的相关性达到了新的SOTA水平。 主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上,JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线(包括专用评估模型、通用MLLM和传统指标)。例如,在QualiSpeech的失真(Dist.)指标上,JASTIN的PCC达到0.561,而第二好的专用模型QualiSpeech仅为0.518。 在跨领域AES数据集(语音、音效、音乐)上,JASTIN性能与专用的AES模型相当或更优,例如在语音质量(PQ)指标上PCC达0.707(AES模型为0.730),在音乐内容享受度(CE)上PCC达0.749(超过AES的0.748)。 在域外(OOD)任务(音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS)上,JASTIN显著超越所有通用大模型(如Gemini-3-Pro, Qwen3-Omni),证明了其出色的零样本泛化能力。例如,在音乐文本对齐(M-TA)任务上,JASTIN的PCC为0.487,而Gemini-3-Pro仅为0.175。 实际意义:提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样,用自然语言定义评估任务和标准,无需为每个新任务收集数据或训练专用模型,极大降低了音频质量评估的门槛和成本。 主要局限性: 在时间敏感任务(如语速评估)上表现不佳,相关系数很低,与大多数基线模型一样,揭示了当前LLM架构在精细时序动态感知上的共同弱点。 在处理高度专业化或美学驱动的音频领域(如ASMR)时,模型可能因内部语音质量先验知识而产生误判,将高保真的耳语误认为音频伪影。 仅支持单音频评分,尚不支持多音频比较或参考音频评估。 🔗 开源详情 代码:https://github.com/vivian556123/Jastin 模型权重: 音频编码器基础模型:https://huggingface.co/facebook/pe-a-frame-base (论文中引用的第三方预训练模型,非Jastin自训练权重) 语言模型骨干:https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct (论文中引用的第三方预训练模型,非Jastin自训练权重) Jastin模型本身的训练权重:论文中未提及下载链接或开源权重。 数据集:论文中提及用于训练的多源数据集,但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo:论文中未提及。 复现材料:论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置(如使用8个A100 GPU,训练6000步等),但未提供训练好的检查点(checkpoint)。 论文中引用的开源项目: 模型: PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集(部分提及): ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称:BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。 完整任务列表:在论文的补充材料中提及,链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示,旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

2026-05-07 · 更新于 2026-05-19 · 2 min · 418 words

Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

📄 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning #音频质量评估 #弱监督学习 #度量学习 #音频大模型 #LoRA微调 ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 亮点:成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务,并证明了其在泛化到音源分离等未见过失真上的强大潜力,结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。 短板:整个训练完全依赖非公开的内部音乐数据集,复现难度极高;虽然使用了弱监督标签,但核心标签仍来自ViSQOL,本质上是在“蒸馏”一个已有指标的判断,其能否真正超越“老师”在未见场景的极限存疑。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 400 words

ICASSP 2026 - 音频质量评估 论文列表

ICASSP 2026 - 音频质量评估 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundatio 7.5分 前25% 📋 论文详情 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 209 words