Quality Adaptive Angular Margin Learning for Respiratory Sound Classification

📄 Quality Adaptive Angular Margin Learning for Respiratory Sound Classification #正则化微调 #音频质量评估 #数据增强 9.5/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9.5/10 | 前50% | #音频质量评估 | #数据增强 | #正则化微调 | arxiv 👥 作者与机构 Yoon Tae Kim: RSC LAB, MODULABS, Republic of Korea; dkimx3966@gmail.com Heejoon Koo: Department of Electronic Engineering, Wonkwang University, Republic of Korea; kaen2891@wku.ac.kr Miika Toikkanen: 1 RSC LAB, MODULABS, Republic of Korea; 2 Department of Electronic Engineering, Wonkwang University, Republic of Korea June-Woo Kim (通讯作者): 1 RSC LAB, MODULABS, Republic of Korea; 3 AI Convergence Research Institute, Wonkwang University, Republic of Korea 💡 毒舌点评 这篇论文像是一个“精准的工程优化”而非“开创性的科学突破”。它确实解决了呼吸音分类中的两个真实痛点(质量差异与类别不平衡),并且代码开源,实验也做到了该做的程度。但正确的引用格式,例如添加链接或标记为纯文本引用。如果不需要链接,可保持原样,但建议明确。示例修复:[rocha2017alpha] 改为 "[rocha2017alpha]" 或 [rocha2017alpha](#)。核心创新——两个公式的参数(α, β, m_target)选择依据薄弱,更像是经验调参而非严谨推导。最大的卖点“最优OOD性能”也仅在一个额外数据集上验证,说服力有限。总的来说,这是一篇合格的、能发表的“增量改进”工作,但距离定义新范式的高影响力论文还有明显差距。它更像是在现有优秀框架(AST, CLAP)上做了一个“不错的插件”。 ...

2026-06-11 · 更新于 2026-06-12 · 4 min · 674 words

Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement

📄 Audio-Oscar: A Multi-Agent System for Complex Audio Scene Generation, Orchestration, and Refinement #音频生成 #语音合成 #音频质量评估 9.9/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 1.4/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.4/1.5 🔥 9.9/10 | 前10% | #音频生成 | #语音合成 | #音频质量评估 | arxiv 👥 作者与机构 作者:Yifan Duan, Qixiang Xu, Hengtao Wu, Zhanxun Liu, Wenhao Guan, Junxi Liu, Ziyang Ma, Kelu Xu, Xie Chen 机构: ...

2026-06-08 · 更新于 2026-06-12 · 3 min · 509 words

FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension

📄 FSC-Net: Integrating Fast Fourier Convolutions and Progressive Learning for Speech Bandwidth Extension #音频质量评估 6.4/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.4/10 | 前50% | #音频质量评估 | #音频质量评估 | arxiv 👥 作者与机构 Xinan Chen, Xiaobin Rong, Qinwen Hu, Kai Chen, Jing Lu Key Laboratory of Modern Acoustics, Nanjing University, Nanjing 210008, China NJU-Horizon Intelligent Audio Lab, Horizon Robotics, Beijing 100094, China ...

2026-06-08 · 更新于 2026-06-12 · 4 min · 791 words

Masked Wavelet Scattering Transform Neural Field for Sound Field Reconstruction

📄 Masked Wavelet Scattering Transform Neural Field for Sound Field Reconstruction #音频质量评估 #低资源 6.7/10 | 创新 1.7/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 6.7/10 | 前50% | #音频质量评估 | #低资源 | arxiv 👥 作者与机构 作者:Xinmeng Luan, Samuel A. Verburg, Efren Fernandez-Grande, Gary Scavone。论文未明确列出作者所属机构信息。 💡 毒舌点评 动机成立,但验证有点“偷懒”:用WST作为先验来解决小样本问题的点子不错,但把它用在HRTF上采样这个相对“成熟”的任务上,作为“概念验证”是可以的,却也无形中限制了工作的冲击力。为什么不试试更复杂的动态声场或者更难的跨领域迁移?总感觉是在舒适区里打转。 “随机选择”目标?有点玄学:第一阶段的散射损失(式6)需要一个“随机选择”的目标实现\(p'\)来计算系数差异。这个“随机”到底是怎么个随机法?是每个batch随机挑一个样本,还是每个样本的每个系数随机找一个目标?这个细节不说清楚,别人复现时怎么保证一致性?万一换了随机种子结果就天差地别呢? 参数选择的“黑箱”:WST里那么多参数(\(J\), \(L\)等),论文里一个没提怎么选的,也没有消融实验。就像做菜不告诉你盐放几克,最后说“反正挺好吃”,这让人怎么信服?这些参数对性能的影响可能比那个mask还大。 对比基线有点“过时”:和SH、NF比是应该的,但和近年来那些基于哈希网格、多分辨率表示的神经场方法(Instant NGP之类)比了吗?这些方法在效率和效果上可能已经进化了不少。不和最新的工作比,怎么突出你这个框架在2024年的新意? 通用性宣称要谨慎:论文结尾说框架可以推广到其他问题,但全文只在一个任务、一个数据集上验证。在没看到其他领域(比如天气预报、医学成像)的应用结果前,“通用性”这个词最好加个“潜在”作为前缀。 📌 核心摘要 本文针对稀疏观测下的声场重建问题,提出了一种名为“掩蔽小波散射变换神经场(MSNF)”的新框架。其核心创新在于利用具有多尺度分析特性和数学可解释性的小波散射变换(WST)作为统计先验,并通过一个两阶段学习过程将其嵌入到神经场的训练中。第一阶段(掩码识别)在一个小规模多主体数据集上,联合优化一个场估计器和一个二值掩码,旨在学习跨主体一致的WST系数模式。第二阶段(神经场重建)为每个待重建的个体信号训练一个独立的神经场,其损失函数结合了稀疏观测点的数据保真度项和由学习到的掩码加权的WST系数正则化项,并采用渐进式训练策略。在HRTF上采样任务的验证表明,所提MSNF方法在各项评估指标上均优于传统的球谐插值方法以及作为消融研究的基线神经场方法,证明了掩蔽的WST先验能有效提升小样本重建的质量。 ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 455 words

3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark

📄 3DAE: Binaural Quality Assessment for Audio Novel View Synthesis with Spatial Maps and Benchmark #音频质量评估 #基准测试 ✅ 6.5/10 | 前50% | #音频质量评估 | #基准测试 | arxiv 学术质量 6.5/7 | 影响力 6.0/2 | 可复现性 0.5/2 | 置信度 高 👥 作者与机构 作者:Jialu Xu, Yifan Zhou (共同一作) 机构:滑铁卢大学 💡 毒舌点评 这篇论文解决了一个真实存在的痛点:现有全局指标(如 RMSE)掩盖了错误来源,让模型调优如同盲人摸象。提出的框架在诊断性和可视化上做得不错,尤其是“警告感知”的逻辑是个贴心设计,避免将时间偏移误诊为频谱问题。然而,作为一篇工具论文,其技术深度和实验广度都稍显不足。框架的核心是多个误差指标的“打包”与一个启发式的归因规则,缺乏理论上的突破。实验部分仅在一个模型(ViGAS)和两个数据集上进行了演示,虽然展示了问题,但说服力有限。最大的遗憾是未开源代码,这让一个以“基准测试”为名的工作大打折扣——谁来用你的基准?此外,讨论部分有些自说自话,与传统指标的对比停留在定性层面,缺乏定量的对比实验。总的来说,它是一个有用的工具雏形,但距离成为一个被广泛采纳的“标准”还有相当距离。 📌 核心摘要 本文针对音频新视角合成(Audio Novel View Synthesis)模型评估中全局指标(如波形 RMSE、STFT 误差)无法定位和解释双耳预测误差具体来源的问题,提出了一个全参考的诊断框架。该框架包含两个核心组件:1)3DAE Map:一个交互式的三维时频诊断工具,可生成包括幅度、ILD、IPD、时间对齐、响度、高频损失在内的多种误差图。2)3DAE Bench:一个模型无关的基准测试系统,可自动计算多维误差分数向量,识别主导故障模式(如时间偏移、ILD 失配),并输出包含“警告”的分析报告,以避免将严重的时间或响度偏差错误归因于频谱误差。实验使用 ViGAS 模型在 Replay-NVAS(真实场景)和 SoundSpaces-NVAS(合成场景)数据集上进行评估,揭示了同一模型在不同数据集上主导故障模式的差异(时间偏移 vs. ILD 失配),证明了单一全局指标的不足。 🔗 开源详情 代码:论文中未提供任何代码链接或仓库。尽管详细描述了 3DAE Bench 的设计和流程,但未提供可执行代码。 模型权重:论文中未提及提供 ViGAS 或其他模型的权重下载链接。实验使用的是开源模型 ViGAS 的输出。 数据集:论文中引用了两个开源数据集,但未在文中提供直接的下载链接。获取这些数据集需要查阅对应的原始论文。 Replay-NVAS [17] SoundSpaces-NVAS [6] Demo:论文中未提及在线演示或本地可运行的 Demo。 复现材料:论文中未提供。尽管方法部分足够详细,理论上可以复现核心算法,但未提供训练配置、检查点、环境配置或可直接运行的脚本。可视化界面(附录 A)的具体实现代码也未提供。 论文中引用的开源项目: ViGAS [5]:论文使用了该模型的输出进行评估,但未提供其代码或主页链接。 Replay-NVAS [17]:论文引用了该数据集,但未提供链接。 SoundSpaces-NVAS [6]:论文引用了该数据集,但未提供链接。 3D Gaussian splatting [10]:仅作为类比提及,未提供链接。 其他在相关工作中引用的项目(如文献 [2], [3], [4], [7], [8], [11], [12], [13], [14], [16]),论文中均未提供对应的开源项目链接。 🏗️ 方法概述和架构 本文提出的方法是一个由诊断可视化工具(3DAE Map)和基准测试系统(3DAE Bench)构成的全参考评估框架。其核心设计遵循“验证-诊断-评分-归因”的流程,旨在系统性地揭示双耳预测错误的具体来源。 ...

2026-06-01 · 更新于 2026-06-12 · 3 min · 464 words

Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation

📄 Sound effects in media:A comparative analysis of recorded and synthetic samples in live-action and animation #音频生成 #音频质量评估 #信号处理基础 📝 5.7/10 | 前50% | #音频生成 | #音频质量评估 | #信号处理基础 | arxiv 学术质量 4/7 | 影响力 1.2/2 | 可复现性 0.5/2 | 置信度 中 👥 作者与机构 作者:Nelly Garcia, Joshua Reiss 机构:Centre for Digital Music (C4DM), Queen Mary University of London 💡 毒舌点评 这篇论文像是一个音频专业的本科毕业设计,野心不小但手上功夫差了点。想用机器学习和用户研究来评判“程序化音频”这把双刃剑到底锋不锋利,想法是好的。但问题在于,你的尺子(MUSHRA评估)根本量不准你想量的东西(合成声音本身的质量)。你让一群专家评价“整体音效设计”,里面混着混音、同步、创意,最后得出“合成声音在动画日常场景里不行”的结论,这不是隔靴搔痒吗?方法部分写的像实验笔记,特征选择理由一笔带过,统计结果报告得乱七八糟,自由度都没有。最搞笑的是,你号称发现了“至少三个需要优化的声音效应”,结果通篇没说清楚是哪三个。这就像医生告诉你病了三个地方,但不说具体是哪。结论呢?又把“上下文很重要”这种老生常谈当宝贝。说白了,这篇论文最大的贡献可能是为后续研究者提供了一个“如何设计不严谨音频评估实验”的反面案例。 📌 核心摘要 本研究旨在评估程序化合成音效在不同类型(动画与真人实拍)视频场景中,相较于传统录音库样本的“可信度”。研究者构建了一个包含8个场景(4个动画,4个真人实拍)的数据集,每个场景制作了三种音效设计版本(全真实样本、混合合成样本、随机错误样本)。客观分析上,使用Essentia库提取了78个低层音频特征,利用XGBoost和Random Forest进行二分类(合成 vs. 真实),并通过SHAP和PCA分析关键特征。主观评估上,邀请了20名音频领域专业人士(最终有效样本18人),通过WebMUSHRA工具对视频的“整体音效设计质量”进行0-100分评分,并使用Google表单收集对不真实合成声音的定性反馈。研究发现:1) 真实音效设计在所有场景中评分均高于混合合成设计;2) 在模拟日常生活的动画场景(如“Drama (C)”)和科幻动画场景中,真实与混合设计的评分差异在统计上最为显著;3) 通过分类结果和用户反馈,识别出如“液体”、“身体击打”等模型需要优化,并关联到“增强低频”、“强调首次冲击”等改进方向及对应的音频特征域(如频率域、时频域)。 🔗 开源详情 代码:论文中未提及作者公开任何分析代码(如特征提取脚本、机器学习训练/评估代码)。 模型权重:论文中未提及公开任何训练好的分类模型。 数据集: 描述:自建了一个包含1616个音频样本的数据集,分为32个类别(16个合成类别,16个库样本类别)。样本格式为单声道、16位、44.1kHz、5秒长度。 来源:合成样本来自Nemisindo在线程序音频引擎;库样本来自BBC Sound Effects Library, Hybrid Sound Library, 50-ESC dataset [16], Soundsnap。 公开状态:论文中未提供该自建数据集的公开下载链接或开源协议。 Demo: 用于主观评估的视频可在作者YouTube频道观看:https://www.youtube.com/@nellyngz/videos (此为内容展示,非可下载数据集)。 用于主观评估的WebMUSHRA在线测试工具链接:论文未提供作者自己的测试实例链接,仅提到了工具名称。 用于收集定性反馈的Google表单链接:https://docs.google.com/forms/d/e/1FAIpQLSd4_IwgM0plWo2ug5Odu89mgm3yYfWCrwwrR1e75-iryGI3aw/viewform 复现材料:论文未提供训练配置、特征提取后的数据文件、模型检查点、或用于复现主观实验的视频包等具体复现材料。复现主要依赖于文本描述的方法和提供的外部工具/数据源链接。 论文中引用的开源项目: Essentia: https://essentia.upf.edu Nemisindo: https://nemisindo.com BBC Sound Effects Library: https://sound-effects.bbcrewind.co.uk Soundsnap: https://www.soundsnap.com WebMUSHRA: 论文未提供其项目主页链接。 XGBoost, Random Forest, SHAP, PCA: 论文仅引用,未提供项目链接。 🏗️ 方法概述和架构 本文研究方法可分为三个相互关联的阶段:数据集构建、客观特征分析和主观用户评估。 ...

2026-06-01 · 更新于 2026-06-12 · 2 min · 299 words

Optimal Transport Audio Distance with Learned Riemannian Ground Metrics

📄 Optimal Transport Audio Distance with Learned Riemannian Ground Metrics #音频质量评估 #最优传输 #模型评估 #开源工具 ✅ 7.0/10 | 前10% | #音频质量评估 | #最优传输 | #模型评估 #开源工具 | arxiv 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Wonwoo Jeong (Sogang University) 通讯作者:Wonwoo Jeong (Sogang University) 作者列表:Wonwoo Jeong (Sogang University) 💡 毒舌点评 亮点:论文构建了一个扎实的理论框架(将FAD解耦为“成本原语”和“耦合原语”两个受约束的原语),并通过系统的消融实验(2x2因子分解)和开源工具(otadtk)将理论落地,说服力较强。实验设计严谨,覆盖了从理论极限(精确OT)到实用方案(Sinkhorn),并在八个编码器上验证了结论的普适性。 短板:方法本质上是在现有冻结编码器之上学习一个轻量适配器,其上限严重受限于上游表征质量(如EnCodec案例所示,MOS相关性在每个指标下都很弱)。此外,论文的核心理论贡献(定理1)严格针对“秩-1”污染,这是一种特定的理想化故障模式;其预测的有效秩衰减效应在真实世界复杂、多模态的伪影下的表现,需要进一步验证。 📌 核心摘要 这篇论文旨在解决当前主导的音频生成评估指标Fréchet Audio Distance (FAD)在检测稀有但严重的质量缺陷(如尖锐噪声、重复片段)时存在的结构性缺陷。作者从最优传输理论出发,指出FAD作为2-Wasserstein距离的受限替代品,在“成本原语”(使用冻结编码器的欧氏距离,存在感知不变集)和“耦合原语”(使用高斯拟合,会通过谱相关因子稀释秩-1异常值的信号)上均存在限制。为此,论文提出了Optimal Transport Audio Distance (OTAD),通过两个核心机制进行纠正:1)一个残差Riemannian适配器,学习局部度量以逃离编码器不变性;2)使用熵正则化的Sinkhorn最优传输作为耦合。实验证明,在八个编码器上,仅更换耦合方式(Sinkhorn)对秩-1异常值的敏感度就比FAD高1.9至3.6倍。在DCASE 2023 Task 7的人类MOS评分相关性上,OTAD(使用g_agnostic适配器)在系统级和逐类别粒度上均优于FAD和KAD,但在EnCodec编码器上所有指标均失效。作为离散传输计划的内在优势,OTAD还能提供AUROC ≥ 0.86的样本级诊断能力,这是标量或核聚合指标在结构上无法提供的。 🔗 开源详情 代码: ...

2026-05-08 · 更新于 2026-06-12 · 6 min · 1097 words

JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions

📄 JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions #音频质量评估 #大语言模型 #多模态模型 #零样本 🔥 8.5/10 | 前10% | #音频质量评估 | #大语言模型 | #多模态模型 #零样本 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Leying Zhang(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 通讯作者:Yanmin Qian(上海交通大学 计算机科学与技术学院,听觉认知与计算声学实验室,AI研究院) 作者列表: Leying Zhang(上海交通大学) Bowen Shi(独立研究者,美国) Haibin Wu(独立研究者,美国) Bach Viet Do(独立研究者,美国) Yanmin Qian(上海交通大学) 💡 毒舌点评 这篇论文把“指令跟随”从聊天机器人玩出了新花样,成功让一个3B参数的LLM学会了听声辨器,成为一个跨领域的全能“音频考官”,实验结果全面碾压了各种老牌打分模型和通用多模态大模型,实用性拉满。不过,它的“超能力”似乎建立在对训练数据分布的高度适应上,一旦遇到像语速评估这种对时序动态要求苛刻的任务,就立马“打回原形”,暴露了当前LLM在细粒度音频感知上的本质短板。 📌 核心摘要 要解决的问题:随着生成式音频模型的快速发展,现有评估方法(传统客观指标或通用多模态大模型)在领域泛化能力、零样本任务适应性和指令灵活性上存在严重瓶颈。一个模型往往只能用于特定任务或评估维度。 方法核心:提出JASTIN框架,将音频评估重新定义为指令驱动的自回归推理任务。其核心架构是冻结的预训练音频编码器(PE-A-Frame-base)+ 轻量级可训练音频适配器 + 微调的大语言模型(Llama-3.2-3B)。通过交错的对话模板输入,将自然语言评估指令与音频特征一起输入LLM,直接生成数值评分。 与已有方法相比新在哪里: 统一泛化:单个模型可零样本处理语音、音乐、音效等24种评估任务,无需任务特定重训练。 创新的数据准备管道:采用多源(人工标注、伪标签、代理任务数据)、多任务、多校准(动态评分范围、语义反转)、多描述(LLM驱动重述) 的异构数据增强策略,极大提升了模型对指令和评估标准的理解与鲁棒性。 指令鲁棒性与人类中心对齐:模型能灵活适应评分规则和标定的变化,同时对同义指令保持稳定输出,其预测结果与人类主观评分的相关性达到了新的SOTA水平。 主要实验结果�� 在QualiSpeech和SpeechEval两个语音数据集上,JASTIN在几乎所有指标上的皮尔逊(PCC)和斯皮尔曼(SRCC)相关系数均超过所有对比基线(包括专用评估模型、通用MLLM和传统指标)。例如,在QualiSpeech的失真(Dist.)指标上,JASTIN的PCC达到0.561,而第二好的专用模型QualiSpeech仅为0.518。 在跨领域AES数据集(语音、音效、音乐)上,JASTIN性能与专用的AES模型相当或更优,例如在语音质量(PQ)指标上PCC达0.707(AES模型为0.730),在音乐内容享受度(CE)上PCC达0.749(超过AES的0.748)。 在域外(OOD)任务(音乐文本对齐、整体音乐质量、合成语音MOS、ASMR语音MOS)上,JASTIN显著超越所有通用大模型(如Gemini-3-Pro, Qwen3-Omni),证明了其出色的零样本泛化能力。例如,在音乐文本对齐(M-TA)任务上,JASTIN的PCC为0.487,而Gemini-3-Pro仅为0.175。 实际意义:提供了一个通用、灵活、可扩展的自动化音频评估基础框架。研究人员和开发者可以像给人类评估员下指令一样,用自然语言定义评估任务和标准,无需为每个新任务收集数据或训练专用模型,极大降低了音频质量评估的门槛和成本。 主要局限性: 在时间敏感任务(如语速评估)上表现不佳,相关系数很低,与大多数基线模型一样,揭示了当前LLM架构在精细时序动态感知上的共同弱点。 在处理高度专业化或美学驱动的音频领域(如ASMR)时,模型可能因内部语音质量先验知识而产生误判,将高保真的耳语误认为音频伪影。 仅支持单音频评分,尚不支持多音频比较或参考音频评估。 🔗 开源详情 代码:https://github.com/vivian556123/Jastin 模型权重: 音频编码器基础模型:https://huggingface.co/facebook/pe-a-frame-base (论文中引用的第三方预训练模型,非Jastin自训练权重) 语言模型骨干:https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct (论文中引用的第三方预训练模型,非Jastin自训练权重) Jastin模型本身的训练权重:论文中未提及下载链接或开源权重。 数据集:论文中提及用于训练的多源数据集,但未提供统一的下载包或开源链接。具体数据集名称及来源见下文“论文中引用的开源项目”部分。 Demo:论文中未提及。 复现材料:论文中开源了模型设计、推理脚本、数据处理脚本以及所有模板、任务描述和提示。这些材料已包含在上述GitHub代码仓库中。论文中详细说明了训练配置(如使用8个A100 GPU,训练6000步等),但未提供训练好的检查点(checkpoint)。 论文中引用的开源项目: 模型: PE-A-Frame: https://huggingface.co/facebook/pe-a-frame-base Llama-3.2-3B: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct 数据集(部分提及): ChildSpeech: https://huggingface.co/datasets/TomRoma/Child_Speech_dataset_Whisper 其他作为数据来源被提及的公开数据集名称:BVCC、QualiSpeech、SpeechEval、UrgentMOS、LibriTTS、Expresso、CommonVoice、EARS、AudioSet、FreeSound、MusicCaps、MUSDB18、LibriSpeech、NCSSD、CHAINs。 完整任务列表:在论文的补充材料中提及,链接为 https://github.com/vivian556123/Jastin/blob/main/prompts-and-tasks.html 🏗️ 模型架构 JASTIN的整体架构如图1所示,旨在将连续的音频信号与离散的文本指令在LLM的语义空间中对齐。 ...

2026-05-07 · 更新于 2026-06-12 · 2 min · 418 words

Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning

📄 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning #音频质量评估 #弱监督学习 #度量学习 #音频大模型 #LoRA微调 ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 亮点:成功地将大规模音乐基础模型MERT“跨界”应用到质量评估任务,并证明了其在泛化到音源分离等未见过失真上的强大潜力,结果表明确实比ViSQOL、PEAQ等传统指标更接近人类感知。 短板:整个训练完全依赖非公开的内部音乐数据集,复现难度极高;虽然使用了弱监督标签,但核心标签仍来自ViSQOL,本质上是在“蒸馏”一个已有指标的判断,其能否真正超越“老师”在未见场景的极限存疑。 ...

2026-04-29 · 更新于 2026-06-12 · 2 min · 400 words

ICASSP 2026 - 音频质量评估 论文列表

ICASSP 2026 - 音频质量评估 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundatio 7.5分 前25% 📋 论文详情 🥇 Deepaq: A Perceptual Audio Quality Metric Based on Foundational Models and Weakly Supervised Learning ✅ 7.5/10 | 前25% | #音频质量评估 | #弱监督学习 | #度量学习 #音频大模型 👥 作者与机构 第一作者:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany) 通讯作者:Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) 作者列表:Guanxin Jiang (International Audio Laboratories Erlangen†, Germany)、Andreas Brendel* (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Pablo M. Delgado (Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Jürgen Herre (International Audio Laboratories Erlangen†, Germany; Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany) (†注:International Audio Laboratories Erlangen是Friedrich-Alexander University Erlangen-Nürnberg (FAU)与Fraunhofer IIS的联合机构) 💡 毒舌点评 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 209 words