音频质量评估

A Diagnostic Evaluation Framework for AI-Generated Cover Songs Using Music-Theoretic and Acoustic Features

📄 A Diagnostic Evaluation Framework for AI-Generated Cover Songs Using Music-Theoretic and Acoustic Features 标签：#音频质量评估 #可解释性 #基准测试 #音频理解 #Transformer 8.0/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 0.7/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 🔥 8.0/10 | 前25% | 文档类型：数据集与基准 | 评分置信度：高 | #音频质量评估 | #可解释性 | #基准测试 #音频理解 | arxiv 👥 作者与机构第一作者：Yingxin Liang（Hangzhou Xiaoying Innovation Technology Co., Ltd. (Rythmix AI)）通讯作者：Yingxin Liang（Hangzhou Xiaoying Innovation Technology Co., Ltd. (Rythmix AI)）作者列表：Yingxin Liang（Hangzhou Xiaoying Innovation Technology Co., Ltd. (Rythmix AI)） 💡 毒舌点评亮点：针对AI翻唱这一特定且实用的任务，提出了一个基于音乐理论、具备诊断性的多维评估框架，将“调性稳定”与“和声正确”解耦分析的洞察具有启发性，为模型调试指明了具体方向。框架设计合理，标注协议要求提供时间戳错误描述，提升了可审计性。然而，整篇工作的核心支撑——其基准验证——存在根本性缺陷：仅30个样本、5首源歌曲、单一专家标注，导致所有统计分析（特征相关性、规则系统验证）的效力几乎为零，结论只能停留在“初步探索”的层面。文中展示的很多“趋势”（如LLR的相关性）很可能源于随机波动，而声称的“诊断框架”的有效性缺乏可靠数据支撑。这是一个典型的方法论贡献被其薄弱的实验验证所拖累的案例。 ...

Towards a reproducible cross-venue method for quantifying crowd noise in stadiums

📄 Towards a reproducible cross-venue method for quantifying crowd noise in stadiums 标签：#音频质量评估 #理论分析 #音频理解 #Transformer #模型评估 5.4/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.4/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 📝 5.4/10 | 后50% | 文档类型：方法研究 | 评分置信度：高 | #音频质量评估 | #Transformer | #理论分析 #音频理解 | arxiv 👥 作者与机构第一作者：Alejandro Osses（Eindhoven University of Technology）通讯作者：未说明作者列表：Alejandro Osses（Eindhoven University of Technology）、Bente Ackermans（Eindhoven University of Technology）、Helmer Nuijens（Eindhoven University of Technology）、Rick Scholte（Eindhoven University of Technology） 💡 毒舌点评论文精准地狙击了体育界“最响体育场”纪录背后的声学乱象，从峰值读数、位置选择到仪器饱和，批判得体无完肤，展现了扎实的声学标准功底。然而，这份出色的“诊断书”开出的“药方”——一套完整的测量框架，却完全未经临床验证。全文就像一份没有临床试验的严谨标准草案，其有效性全靠理论推演和一张进球时刻的说明性图表支撑，说服力大打折扣。一个旨在提升“可复现性”的方法，自身却缺乏任何可复现的实验数据集或案例，这本身就是一种深刻的讽刺。 ...

HARP: Harmonic-Aware Residual Partitioning for Neural Audio Codecs

📄 HARP: Harmonic-Aware Residual Partitioning for Neural Audio Codecs 标签：#音频编码 #音频质量评估 #对抗训练 #高效推理 #音频理解 9.6/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 9.6/10 | 前10% | 文档类型：方法研究 | 评分置信度：高 | #音频编码 | #对抗训练 | #音频质量评估 #高效推理 | arxiv 👥 作者与机构第一作者：Qiaoyu Yang（Georgia Institute of Technology, Atlanta, United States）通讯作者：未说明作者列表：Qiaoyu Yang（Georgia Institute of Technology, Atlanta, United States）、Lixing He（The Chinese University of Hong Kong, Hong Kong, China）、Binyue Deng（Tencent Music Entertainment, Shenzhen, China）、Weifeng Zhao（未说明） 💡 毒舌点评论文提出了一个优雅而高效的“训练时改造，推理时无痕”方案，将频率感知注入通用的RVQ架构，解决了频谱纠缠和截断质量不可预测的实际痛点，工程价值很高。然而，其分组策略和高斯权重初始化仍带有启发式色彩（例如，训练后Group 0和1的中心均收敛到~228 Hz，未实现预设的频带划分），且实验基线相对单薄（主要与DAC和BSCodec对比），缺乏与近期其他非架构修改方法（如MUFFIN、SNAC）的直接比较，使得其优越性的说服力略有折扣。 ...

What does the model actually see? Evaluation protocols and input availability in data-driven prediction of room acoustic parameters

📄 What does the model actually see? Evaluation protocols and input availability in data-driven prediction of room acoustic parameters 标签：#音频质量评估 #模型评估 #基准测试 #可解释性 #音频理解 7.2/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 0.8/1 | 影响 1.3/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 7.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音频质量评估 | #模型评估 | #基准测试 #可解释性 | arxiv 👥 作者与机构第一作者与通讯作者：Akın Oktav 机构：Vibration and Acoustics Laboratory (VAL) & Department of Mechanical Engineering, Alanya Alaaddin Keykubat University, Antalya, Türkiye 💡 毒舌点评这篇论文堪称声学机器学习领域的一剂清醒剂，用严谨的因子化消融实验无情地揭露了此前文献中大量“高精度”报告的方法论漏洞——它们本质上是在回答一个被悄悄偷换了的、更简单的问题（条件插值），而非研究者声称的空间预测。其提出的协议分类框架和“部署一致”评估标准极具实践价值，足以引发该领域评估范式的反思与革新。但论文的局限性也同样明显：核心实验仅基于两个场馆的单一多条件测量，且评估的模型家族（RF、一个混合CNN、两个基线）相对简单，特别是混合CNN的复杂架构设计是为了验证特定协议，而非作为通用模型代表，这在一定程度上削弱了其结论的普遍性。它提出了正确的问题，但答案的范围仍受数据与模型的约束。 ...

Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments

📄 Perceived Annoyance in Multi-source Electric Vehicle AVAS Environments 标签：#音频质量评估 #模型评估 #声源定位 #智能座舱 #音频理解 3.5/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.7/1 | 影响 0.3/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 0.2/1.5 📝 3.5/10 | 后50% | 文档类型：应用研究 | 评分置信度：高 | #音频质量评估 | #模型评估 | #声源定位 #智能座舱 | arxiv 👥 作者与机构第一作者：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）通讯作者：论文未明确标注通讯作者。四位作者均隶属于TU Dresden Chair of Acoustics and Haptics，所有作者均提供了邮箱地址（第一作者邮箱：berkay.kullukcu@tu-dresden.de）。作者列表：Berkay Kullukcu（TU Dresden, Chair of Acoustics and Haptics）、Jonas Krautwurm（TU Dresden, Chair of Acoustics and Haptics）、Serkan Atamer（TU Dresden, Chair of Acoustics and Haptics）、Ercan Altinsoy（TU Dresden, Chair of Acoustics and Haptics；Centre for Tactile Internet with Human-in-the-Loop (CeTI), TU Dresden；Research Cluster 6G-life, TU Dresden） 💡 毒舌点评论文聚焦于电动汽车AVAS多声源场景下的烦扰感知，将评估视角从"单个声音"转向"声学场景"，问题意识值得肯定。然而，这更像一个初步的探索性实验而非扎实的研究工作：10名受试者、3种AVAS声音、单一车速、2辆车的简化场景，难以支撑其核心结论的普适性。统计分析中的池化处理掩盖了不同声音组合和时间偏移的差异性，而结论"多声源场景更烦人"在心理学实验中并不令人意外。论文在讨论中援引了"信息掩蔽"和"听觉场景组织"理论作为解释机制，却未设计针对性实验加以验证，使得这些解释停留在推测层面。此外，研究未开源任何实验材料（刺激音频、场景配置、原始数据），严重限制了可复现性和后续研究的价值。 ...

Beyond Time Shifts: Adapting Omni-LLM as a Reference-Free Evaluator for Generative Audio-Visual Models

📄 Beyond Time Shifts: Adapting Omni-LLM as a Reference-Free Evaluator for Generative Audio-Visual Models 标签：#音视频理解 #强化学习 #音频质量评估 #大语言模型 #音频理解 6.0/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.0/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音视频理解 | #强化学习 | #音频质量评估 #大语言模型 | arxiv 👥 作者与机构第一作者：Yijie Qian（Zhejiang University, Hangzhou, China）通讯作者：Yong Liu（Zhejiang University, Hangzhou, China）和 Shujun Wang（The Hong Kong Polytechnic University, Hong Kong, China）作者列表：Yijie Qian（Zhejiang University）、Juncheng Wang（未说明）、Chao Xu（Zhejiang University）、Huihan Wang（Zhejiang University）、Yuxiang Feng（Zhejiang University）、Yang Liu（Zhejiang University）、Baigui Sun（IROOTECH TECHNOLOGY）、Yong Liu（Zhejiang University）、Shujun Wang（The Hong Kong Polytechnic University） 💡 毒舌点评本文精准地切中了音视频生成评估中的一个核心痛点：传统指标在面对结构性、语义性错误时的失效，并提出了一个从数据集、模型架构到训练范式的系统化解决方案。其核心贡献在于将人类偏好这一主观、相对的判断，通过巧妙的工程设计转化为一个客观、可部署的参考无关评估器，工程完整性和对现有评估范式局限性的批判都相当到位。然而，论文在技术细节的披露上存在明显瑕疵，特别是ℝ-GRPO算法的推导和关键设计动机解释不足，让人怀疑其是精心设计还是过度工程化；同时，评估指标本身（如SyncBench）的泛化性和在更广泛生成任务中的有效性尚未得到充分验证。 ...

Statistical validation and full-sphere extension of a Bayesian model for human static sound localisation

📄 Statistical validation and full-sphere extension of a Bayesian model for human static sound localisation #音频质量评估 #贝叶斯方法 #信号处理基础 6.7/10 | 创新 1.2/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.7/10 | 前50% | #音频质量评估 | #贝叶斯方法 | #信号处理基础 | arxiv 👥 作者与机构 Roberto Barumerli (通讯作者): Dyson School of Design Engineering, Imperial College London, London, United Kingdom Fabian Brinkmann: Audio Communication Group, Technische Universität Berlin, Germany Emanuele Zanoni: Department of Industrial Systems Technology and Management, University of Padova, Vicenza, Italy Anton Hoyer: Department of Industrial Systems Technology and Management, University of Padova, Vicenza, Italy Lorenzo Picinali: Dyson School of Design Engineering, Imperial College London, London, United Kingdom Michele Geronazzo: Audio Communication Group, Technische Universität Berlin, Germany 💡 毒舌点评这篇工作技术执行扎实，但创新性有限，更像是对前作的系统化“补全”和“工程化验证”，而非提出全新的模型或理论突破。其核心贡献——显式似然函数的推导——在概念上是贝叶斯建模的自然延伸，技术细节也更多是现有方法的组合。实验设计虽详尽，但结论的力度被一些未被充分解释或解决的矛盾所削弱。例如，声称“全球面覆盖是主要因素”，但BIC统计检验却不显著；声称模板质量重要，但参数估计（\(\sigma_{\mathrm{prior}}\)）的混淆表明“重要”到了能扭曲其他参数估计的程度。这使得部分结论听起来像是“条件式”的真理（“一旦…则…”），而非坚实的因果发现。论文试图同时完成方法论框架和应用案例，结果两边都未达到顶会级别应有的深度。开源部分值得称赞，是社区需要的，但不足以大幅提升论文本身的质量评级。 ...

Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

📄 Quality Adaptive Angular Margin Learning for Respiratory Sound Classification #正则化微调 #音频质量评估 #数据增强 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #音频质量评估 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构 Yoon Tae Kim: RSC LAB, MODULABS, Republic of Korea; dkimx3966@gmail.com Heejoon Koo: Department of Electronic Engineering, Wonkwang University, Republic of Korea; kaen2891@wku.ac.kr Miika Toikkanen: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea June-Woo Kim (通讯作者): 1 RSC LAB, MODULABS, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea 💡 毒舌点评这篇论文像是一个“精准的工程优化”而非“开创性的科学突破”。它确实解决了呼吸音分类中的两个真实痛点（质量差异与类别不平衡），并且代码开源，实验也做到了该做的程度。但正确的引用格式，例如添加链接或标记为纯文本引用。如果不需要链接，可保持原样，但建议明确。示例修复：[rocha2017alpha] 改为 "[rocha2017alpha]" 或 [rocha2017alpha](#)。核心创新——两个公式的参数（α， β， m_target）选择依据薄弱，更像是经验调参而非严谨推导。最大的卖点“最优OOD性能”也仅在一个额外数据集上验证，说服力有限。总的来说，这是一篇合格的、能发表的“增量改进”工作，但距离定义新范式的高影响力论文还有明显差距。它更像是在现有优秀框架（AST， CLAP）上做了一个“不错的插件”。 ...

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构作者：Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构： ...

FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension

📄 FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension #音频质量评估 6.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音频质量评估 | #音频质量评估 | arxiv 👥 作者与机构 Xinan Chen, Xiaobin Rong, Qinwen Hu, Kai Chen, Jing Lu Key Laboratory of Modern Acoustics, Nanjing University, Nanjing 210008, China NJU-Horizon Intelligent Audio Lab, Horizon Robotics, Beijing 100094, China ...