ICASSP 2026 - 音频分类

39 篇论文

← 返回 ICASSP 2026 总览


排名论文评分分档
🥇ECHO: Frequency-Aware Hierarchical Encoding for Variable-Len9.5分前10%
🥈ACAVCaps: Enabling Large-Scale Training for Fine-Grained and8.5分前25%
🥉Automated Dysphagia Screening Using Noninvasive Neck Acousti8.0分前25%
4.AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Sp8.0分前25%
5.Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion8.0分前25%
6.A Metric Learning Approach to Heart Murmur Detection from Ph7.7分前25%
7.A Robust KNN Approach for Multi-Class Laryngeal Disease Dete7.5分前25%
8.UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spec7.5分前25%
9.AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid V7.5分前25%
10.Audio Classification Models are Vulnerable to Filter Perturb7.5分前25%
11.PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-L7.5分前10%
12.FOCA: Multimodal Malware Classification via Hyperbolic Cross7.5分前25%
13.WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audi7.5分前25%
14.Adaptive Per-Channel Energy Normalization Front-End for Robu7.5分前25%
15.Adaptive Embedding Fusion with Contrastive Learning for Robu7.5分前25%
16.Incremental Learning for Audio Classification with Hebbian D7.5分前25%
17.Attentive Masked Self-Distillation for Respiratory Sound Cla7.5分前25%
18.One Model–Three Tasks: Discovering a Shared Winning Ticket f7.5分前25%
19.Timbre-Aware Audio Difference Captioning for Anomalous Machi7.5分前25%
20.Leveraging prediction entropy for Automatic prompt weighting7.5分前25%
21.Directly Trained Spiking Neural Networks with Adaptive Phase7.0分前25%
22.Noise-Robust Contrastive Learning with an MFCC-Conformer for7.0分前50%
23.Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual7.0分前50%
24.A Dynamic Gated Cross-Attention Framework for Audio-Text App7.0分前25%
25.Transfer Learning for Paediatric Sleep Apnoea Detection usin7.0分前25%
26.Empowering Multimodal Respiratory Sound Classification with7.0分前25%
27.PADAM: Perceptual Audio Defect Assessment Model7.0分前50%
28.Enhanced Generative Machine Listener7.0分前25%
29.Acoustic Feedback Cancellation in Hearing Aids Exploiting an7.0分前25%
30.AFT: An Exemplar-Free Class Incremental Learning Method for7.0分前25%
31.Transferable Audio Lottery Tickets: Gradient Accumulation fo7.0分前25%
32.A LLM-Driven Acoustic Semantic Enriched Framework for Underw7.0分前25%
33.S-SONDO: Self-Supervised Knowledge Distillation for General7.0分前25%
34.Acoustic Non-Stationarity Objective Assessment with Hard Lab7.0分前25%
35.Reading Between the Waves: Robust Topic Segmentation Using I7.0分前25%
36.Learnable Mel-Frontend for Robust Underwater Acoustic Target6.5分前50%
37.Estimating Respiratory Effort from Nocturnal Breathing Sound6.5分前25%
38.Thinking While Listening: Simple Test Time Scaling for Audio6.5分前50%
39.Snore Sound Classification Based on Physiological Features a6.5分前25%

📋 论文详情

🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals

🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用

👥 作者与机构

  • 第一作者:Yucong Zhang(武汉大学计算机学院;苏州昆山杜克大学多模态智能系统苏州市重点实验室)
  • 通讯作者:Juan Liu(武汉大学人工智能学院), Ming Li(武汉大学人工智能学院;苏州昆山杜克大学)
  • 作者列表:Yucong Zhang(武汉大学计算机学院;苏州昆山杜克大学多模态智能系统苏州市重点实验室), Juan Liu†(武汉大学人工智能学院), Ming Li†(武汉大学人工智能学院;苏州昆山杜克大学)。†表示共同通讯作者。

💡 毒舌点评

亮点: 该论文成功地将频率感知和滑动窗口两大思想结合,构建了一个能优雅处理现实世界工业信号(采样率可变、长度可变)的通用基础模型,并通过一个前所未有的全面基准(SIREN)证明了其优越性,做到了“设计解决实际问题”和“实验证明设计有效”的闭环。 短板: 论文的实验全部基于离线、干净的学术数据集,对于工业界最关心的实时流式推理性能、计算资源消耗以及在嘈杂、非理想工况下的鲁棒性缺乏深入探讨,这使得其“工业应用”的宣称在现阶段更偏向于技术展示而非经过实战检验的方案。

📌 核心摘要

  1. 问题:现有的音频/信号基础模型大多基于视觉Transformer,依赖固定尺寸的频谱图输入和固定的预设采样率。处理可变长度信号需要截断/插值,破坏时序连续性;处理不同采样率信号需要重采样,导致信息损失。这限制了它们在通用机器信号监测(涵盖声学、振动等多模态、多采样率数据)中的应用。
  2. 方法核心:提出ECHO模型,其核心是“频率感知层级编码”。首先,将频谱图沿频率轴均匀分割为多个子带,并为每个子带计算基于其中心频率的相对位置编码,以适配任意采样率。其次,在每个子带上应用滑动窗口提取重叠的时间补丁,以处理任意长度的输入,无需填充或裁剪。最后,将每个子带的序列送入独立的ViT编码器,再将所有子带的分类令牌拼接成最终的层级化嵌入。
  3. 新意:与已有的频率分割模型(如FISHER)相比,ECHO创新性地引入了频率位置编码,使模型能显式地感知子带在全频谱中的相对位置,而非独立处理。与传统的固定补丁模型(如BEATs, EAT)相比,滑动补丁设计能更好地保留时序连续性,适应可变长度输入。ECHO旨在统一支持可变长度和可变采样率信号。
  4. 实验结果:在论文提出的统一评估基准SIREN上,ECHO(Small版)取得了77.65%的整体平均分,超过了最强基线FISHER(76.86%)和Dasheng(76.04%)。在故障分类任务平均准确率达到93.19%,位居第一;在DCASE异常检测任务平均得分62.11%,也达到最佳。相比FISHER,ECHO在所有DCASE年份和大部分故障分类数据集上均有提升。
模型规模参数量SIREN总均分DCASE任务均分故障分类任务均分
ECHOSmall22M77.6562.1193.19
FISHERSmall22M76.8661.0092.73
DashengBase86M76.0459.9592.12
EATBase86M74.2360.8487.62
BEATsBase90M71.8661.8681.86
  1. 实际意义:ECHO为工业设备的状态监测提供了一个强大的通用前端特征提取器。其处理可变采样率和长度的能力,使其能无缝集成来自不同传感器、不同工况的数据,无需预处理重采样或裁剪,简化了部署流程。开源代码和SIREN基准为社区提供了公平比较和推进该领域研究的平台。
  2. 主要局限:模型虽在学术数据集上表现优异,但缺乏在真实工业场景(高噪声、数据不平衡、极端故障模式)下的验证。论文未探讨模型的推理效率(如延迟、吞吐量),这对实时监测至关重要。此外,滑动窗口带来的计算量增加及其优化策略未做深入分析。

🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding

🔥 8.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #多任务学习

👥 作者与机构

  • 第一作者:Yadong Niu(MiLM Plus,小米公司)
  • 通讯作者:未说明
  • 作者列表:Yadong Niu(MiLM Plus,小米公司)、Tianzi Wang(香港中文大学, MiLM Plus,小米公司)、Heinrich Dinkel(MiLM Plus,小米公司)、Xingwei Sun(MiLM Plus,小米公司)、Jiahao Zhou(北京邮电大学, MiLM Plus,小米公司)、Gang Li(MiLM Plus,小米公司)、Jizhong Liu(MiLM Plus,小米公司)、Junbo Zhang(MiLM Plus,小米公司)、Jian Luan(MiLM Plus,小米公司)

💡 毒舌点评

亮点是将工业界强大的多模态模型工程能力发挥到极致,构建了一个“百科全书”式的音频描述数据集,从标注流程到数据多样性都展现了极高的工程水平。短板则在于,论文的核心“模型”本身(Dasheng + Qwen3)并无架构创新,更像是一个应用成熟的音频-语言模型架构来验证其数据集质量的“基准测试”。

📌 核心摘要

本文针对当前音频描述数据集在规模、描述粒度和多样性上的不足,提出了ACAVCaps,一个大规模、细粒度、多领域的音频描述数据集。其核心方法是采用多专家分析流水线:首先用CED-Base模型对音频进行内容分类,然后路由至语音、音乐、声音事件等专用分析模块,并提取通用声学属性;最后,利用一个基于思维链(CoT)推理的大语言模型(Deepseek-R1)综合所有分析结果与元数据,为每个音频生成多种风格一致但语言多样的详细描述。与现有数据集相比,ACAVCaps在规模(13k小时,4.7M样本)、唯一token数量(76.7k)和领域覆盖(扩展的多领域)上均达到新高。实验表明,在ACAVCaps上预训练的模型在MECAT-Caption基准测试(表2)上取得了60.9的整体DATE分数,显著优于其他数据集(最高仅37.4)。在下游语音识别、声音事件分类、音乐理解等任务(表3)上,该模型也展现出强大的泛化能力,例如在LibriSpeech测试集上的词错误率从基线的74.2%降至56.5%。这项工作为训练更通用的音频大模型提供了关键的数据基础,其意义在于证明了高质量、多角度、细粒度的描述数据对于学习可迁移音频表示至关重要。主要局限性在于,模型架构本身未创新,其性能提升主要归功于数据质量而非模型设计。


🥉 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学

👥 作者与机构

  • 第一作者:Jade Chng(Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University)(论文中标注了*,且名字在首位)
  • 通讯作者:未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”()。
  • 作者列表:
    • Jade Chng(加州大学圣地亚哥分校 Jacobs 工程学院;杜克大学生物医学工程系)
    • Rong Xing(加州大学圣地亚哥分校 Jacobs 工程学院)
    • Yunfei Luo(加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所)
    • Kristen Linnemeyer-Risser(加州大学圣地亚哥分校 耳鼻喉头颈外科系)
    • Tauhidur Rahman(加州大学圣地亚哥分校 Jacobs 工程学院;Halıcıoğlu 数据科学研究所)
    • Andrew Yousef(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者)
    • Philip A Weissbrod(加州大学圣地亚哥分校 耳鼻喉头颈外科系)(平等资深作者)

💡 毒舌点评

亮点:这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行,确保了标签的准确性,这为医疗声学研究树立了良好的数据基础。短板:然而,其核心模型(随机森林)和自动分割算法(固定参数/滑动窗口)显得相对传统和保守,在模型创新性上略显不足;更重要的是,未提供任何代码或数据,对于一项旨在推动“实用工具”的工作而言,这极大地限制了其快速验证和应用转化的可能性。

📌 核心摘要

  1. 要解决什么问题:吞咽困难(Dysphagia)是重要的公共卫生问题,当前诊断方法(如影像学、内窥镜)存在侵入性、昂贵、需专业操作等缺点。本文旨在开发一种自动化、非侵入式、低成本的声学筛查工具,用于早期检测吞咽功能异常。
  2. 方法核心:方法核心是利用放置在颈部的数字听诊器,在标准吞咽评估(FEES)过程中同步采集音频信号。通过信号处理(Librosa)进行吞咽事件分割与降噪,然后提取两类特征:一类是基于领域知识的手工特征(频率、振幅、曲线下面积等),另一类是预训练音频模型的嵌入(OpenSMILE, OPERA)。最后,使用随机森林(RFC)分类器进行二分类(异常/正常)和三分类(严重程度分级)。
  3. 与已有方法相比新在哪里:与之前工作相比,本文的创新点在于:(1) 首次在吞咽评估金标准(FEES)进行时同步采集声学数据,确保了数据标注的准确性和临床相关性;(2) 专门设计并验证了一组针对吞咽声的“领域知情特征”;(3) 系统评估了自动分割算法(固定参数、滑动窗口)对患者级别预测的影响,并提出了多种聚合策略(Mean/Max/Mode-risk)。
  4. 主要实验结果如何:
    • 主要结果:在二分类(异常检测)任务上,使用领域知情特征的模型取得了最佳性能,AUC-ROC为0.904(表2)。
    • 对比:领域特征显著优于预训练模型(OPERA, 0.651)和通用音频特征(OpenSMILE, 0.778)。三分类任务性能显著��降(最高AUC-ROC仅0.611),主要受限于类别样本不平衡。
    • 分割与聚合:自动分割中,滑动窗口分割配合Mean-risk聚合达到0.893 AUC-ROC;固定参数分割配合Max-risk聚合达到0.942 AUC-ROC,接近人工分割的基线(最高0.971)(表3)。
    • 可解释性:SHAP分析显示,年龄、性别、吞咽次数、平均频率和振幅等是重要预测因子(图2)。
  5. 实际意义是什么:该研究证明了利用非侵入式声学传感进行吞咽困难筛查的技术可行性,为开发一种便携、低成本、可扩展的咽部健康监测工具提供了概念验证,有望降低筛查门槛,改善高危人群的早期干预。
  6. 主要局限性是什么:数据集规模中等(49名参与者,617个吞咽事件),可能限制模型对不同人群和病理的泛化能力;自动吞咽分割算法仍需优化以提高鲁棒性;三分类性能有待提升。

4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

🔥 8.0/10 | 前25% | #音频分类 | #对比学习 | #多模态模型 #数据集

👥 作者与机构

  • 第一作者:Risa Shinoda(大阪大学 & 东京大学)
  • 通讯作者:未说明
  • 作者列表:Risa Shinoda(大阪大学 & 东京大学)、Kaede Shiohara(东京大学)、Nakamasa Inoue(东京科学大学)、Hiroaki Santo(大阪大学)、Fumio Okura(大阪大学)

💡 毒舌点评

亮点:论文创新性地将生物学分类学层次结构融入音频-文本预训练范式,并构建了一个包含丰富生态特征的大规模动物声音数据集,为解决生态监测中“未见物种”识别这一实际难题提供了系统性的框架和宝贵的基准。短板:模型架构本身是CLAP的直接应用,技术上的新颖性有限;同时,对于“分类学结构”如何具体影响模型内部表征(例如,文本编码器如何理解层次关系)的机理解释和可视化分析可以更深入。

📌 核心摘要

  1. 问题:传统动物声音识别模型在训练时未见过的物种上性能急剧下降,这在物种繁多、数据稀缺的生物多样性监测领域是一个核心挑战。同时,从声音直接推断动物生态特征(如栖息地、食性)的研究尚未在音频-文本学习框架中被充分探索。
  2. 方法核心:提出AnimalCLAP框架,其核心是分类学感知的音频-文本预训练。具体包括两方面:(1) 构建一个大规模、标注了物种分类学信息和22种生态特征的动物声音数据集;(2) 在训练时,将物种标签(学名、俗名、分类序列)通过多种文本模板增强,并明确使用有序的分类序列(纲→目→科→属→种)作为文本输入,以监督音频和文本编码器学习对齐,并内化生物层次知识。
  3. 创新之处:与现有的通用CLAP或生物声音模型相比,新在:a) 首次将结构化的分类学层次信息系统性地整合进音频-文本对比学习;b) 贡献了一个目前公开数据中规模最大、物种最全(6823种)、并系统标注生态特征的动物声音数据集之一;c) 不仅做物种分类,还证明了从声音直接推断多种生态特征的可行性。
  4. 主要结果:
    • 未见物种识别:在精心设计的未见物种测试集(300种罕见物种)上,AnimalCLAP显著优于CLAP基线。例如,使用混合文本提示(Tax+Com)时,Top-1准确率达到27.6%(CLAP仅1.61%),Top-5准确率53.5%(CLAP 5.19%)。
    • 生态特征推断:在22项生态特征预测任务上,AnimalCLAP的平均F1分数(79.0%)远超CLAP(48.9%)。在“活动模式”(83.7% vs 28.4%)、“迁徙”(84.8% vs 49.9%)等行为特征上提升尤为显著。
    • 消融实验证明层次结构关键:随机化分类序列顺序会导致性能显著下降(表4),且错误分析(图3)显示有序训练使模型的错误在更高分类阶元上更“一致”。
  5. 实际意义:为基于声音的生物多样性自动监测提供了更强大、泛化能力更强的工具,特别是对于数据稀少的罕见物种。同时,证明了声音是推断动物生态特征的有效模态,为生态学研究提供新途径。
  6. 主要局限性:a) 模型架构(HTS-AT + RoBERTa)是复用现有组件,核心创新在于训练范式和数据;b) 对于分类学结构如何“赋能”模型的更深层机理剖析不足;c) 数据集依赖iNaturalist和Xeno-canto,其数据质量与覆盖度仍受公民科学平台限制。

5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer

👥 作者与机构

  • 第一作者:Huaxuan Wang(北京理工大学机械工程学院)
  • 通讯作者:Huilong Yu(北京理工大学机械工程学院);Wei Zhou(Cardiff University, School of Computer Science and Informatics)
  • 作者列表:Huaxuan Wang(北京理工大学机械工程学院),Huilong Yu(北京理工大学机械工程学院),Ruizeng Zhang(北京理工大学机械工程学院),Wei Zhou(Cardiff University, School of Computer Science and Informatics),Junqiang Xi(北京理工大学机械工程学院)

💡 毒舌点评

亮点:论文思路清晰,将“看不见的场景结构”(通过BEV图像表示)与“听得见的目标线索”(音频多域特征)显式融合,逻辑上自洽,实验也证明在特定场景下性能提升有效。短板:融合方式相对直接(拼接向量),且BEV生成依赖于已有地图和人工标注,限制了该框架在完全未知环境中的泛用性;验证仅限于公开数据集上的T型路口,现实复杂路况的鲁棒性存疑。

📌 核心摘要

  1. 问题:自动驾驶车辆在交通盲区(如T型路口)无法直接感知突然出现的障碍物,现有感知手段(摄像头、雷达)受限于视距,而传统音频感知方法忽略了场景结构对声波传播的决定性影响。
  2. 方法核心:提出一个场景感知的音视频融合网络。核心是引入鸟瞰图(BEV)来显式表征场景空间结构,并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征,其中音频分支创新性地结合了LSTM、CNN和Conformer模块,以建模音频信号的时序依赖与全局局部特征。
  3. 新颖性:相较于之前仅依赖音频或未考虑场景结构的方法,本工作的主要创新在于:a) 显式构建并利用BEV图像融入场景结构先验;b) 在音频特征处理中引入Conformer模块,增强了模型对复杂声学特征的建模能力。
  4. 实验结果:在OVAD和AOVD两个真实世界数据集上,该方法的整体准确率分别达到94.1%和97.0%(移除BEV分支),显著优于SVM(88.2%, 90.8%)和pCRNN(92.6%, 95.4%)等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。
  5. 实际意义:为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案,提升了自动驾驶的安全性。
  6. 主要局限性:系统性能高度依赖于先验的BEV地图生成(需要卫星图像和手动标注),限制了部署的灵活性;研究聚焦于T型路口这一特定场景,未在更复杂或未知环境中验证其泛化能力。

6. A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

7.7/10 | 前25% | #音频分类 | #对比学习 | #数据增强 #生物声学

👥 作者与机构

  • 第一作者:Florian Lübbe(Fraunhofer Institute for Software and Systems Engineering ISST;University of Hildesheim Department of Data Science)
  • 通讯作者:未说明
  • 作者列表:Florian Lübbe(Fraunhofer ISST & University of Hildesheim)、Ahmad Bdeir(University of Hildesheim Department of Data Science)、Niels Landwehr(University of Hildesheim Department of Data Science)、Pinar Bisgin(University of Hildesheim Department of Data Science & TU Dortmund University Department of Computer Science)

💡 毒舌点评

亮点在于系统性地验证了度量学习范式在心音分析不同任务(二分类、多分类、多标签)上的有效性,且在噪声更小的BMD-HS数据集上取得了高达18%的性能飞跃,证明了方法的潜力。短板则是对“多标签”场景的处理相对简单,仅将其视为一种分类任务,未能更深入地利用疾病(如主动脉瓣狭窄与反流)之间可能存在的生理关联性来设计更精巧的损失函数或网络结构。

📌 核心摘要

  1. 解决什么问题:自动、准确地从心音图(PCG)中检测心脏杂音,以辅助心血管疾病的早期筛查和诊断。现有方法多采用传统分类框架。
  2. 方法核心:采用度量学习范式。使用一个2D CNN编码器,以梅尔频谱图为输入。预训练阶段采用监督对比损失(SupCon)和分层多标签对比损失(HiMulConE),学习一个嵌入空间,使同类样本靠近、异类样本远离。微调阶段冻结编码器,添加MLP分类头并用焦点损失(Focal Loss)进行优化。
  3. 与已有方法相比新在哪里:摒弃了直接优化分类交叉熵的传统方法,转而通过对比学习显式优化特征嵌入空间的结构(类内紧密、类间分离)。此外,首次在该任务上探索了二分类、多分类(6类)和多标签(4种疾病)三种不同设定下的性能。
  4. 主要实验结果如何:
    • 在二分类任务(CirCor数据集)上,加权准确率从基线的87.1%提升至90.5%(+3.4%),F2分数提升6.83%。
    • 在二分类任务(BMD-HS数据集)上,加权准确率从基线的75.2%提升至88.9%(+18.1%)。
    • 在6类多分类任务(BMD-HS)上,平均准确率从基线的44.7%提升至81.9%。
    • 在4类多标签任务(BMD-HS)上,准确率达到约72%。 (关键对比表格如下)
数据集/任务模型指标结果变化
CirCor (二分类)Baseline [9]加权准确率0.8709-
MurmurC. Linear加权准确率0.9047+3.88%
Baseline [9]F2-Score0.7904-
MurmurC. B.F2-Score0.8444+6.83%
BMD-HS (二分类)Baseline [9]加权准确率0.7524-
MurmurC. Linear加权准确率0.8889+18.14%
BMD-HS (4类多标签)Baseline [9]准确率0.2890-
MurmurClassifier准确率~0.72N/A
BMD-HS (6类多分类)Baseline [9]平均准确率0.4470-
MurmurClassifier平均准确率0.8189+83.18%
  1. 实际意义:为自动心音诊断系统提供了一种更强大的特征学习框架,特别是在处理类别不平衡和多标签共存的真实临床场景中展现出优势,有助于推动AI辅助听诊技术的发展。
  2. 主要局限性:模型架构描述较为通用,未见针对心音信号特性的深度定制;训练过程中的部分关键超参数(如学习率、优化器)未提供;多标签任务的评估和分析深度有待加强。

7. A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI

👥 作者与机构

  • 第一作者:Pingping Wu(南京审计大学工程审计学院)
  • 通讯作者:未说明
  • 作者列表:
    • Pingping Wu(南京审计大学工程审计学院)
    • Weijie Gao(南京审计大学计算机科学学院)
    • Haibing Chen(江苏省人民医院耳鼻喉科)

💡 毒舌点评

本文将图神经网络(GNN)引入传统的K近邻(KNN)分类框架,为病理语音特征建模提供了一个有趣的视角,这是其最亮眼的创新点。然而,论文对所提出图增强KNN中GNN的具体实现(如层数、聚合器类型、注意力机制)和关键超参数(如K值选择)的讨论严重不足,使得“图”这一核心概念的魔力显得有些“黑箱”,也给复现设置了不必要的障碍。此外,使用一个仅320例、未公开的临床数据集得出的结论,其泛化能力有待未来更大规模数据的验证。

📌 核心摘要

  1. 问题:喉部疾病(如癌症、息肉、结节、白斑)的早期无创检测对改善预后至关重要,而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类,对多种疾病的精细分类探索不足。
  2. 方法核心:提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列,然后为每个样本构建基于特征相似度的K近邻图,最后利用图神经网络(GNN)在图上进行信息聚合,学习更具判别性的表示,最终进行分类。
  3. 创新点:1) 首次将多种非癌症性喉部病变(息肉、结节、白斑)纳入统一的五分类框架进行研究;2) 将图神经网络与KNN结合,通过建模局部拓扑关系来增强传统距离度量的判别能力,这是对标准KNN分类器的一种结构性改进。
  4. 主要结果:在自建的320例患者数据集上,该方法在二分类(健康 vs 病变)任务中达到96%的准确率,在五分类(健康、癌症、息肉、结节、白斑)任务中达到88%的准确率,均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示:
    模型二分类准确率五分类准确率
    传统KNN0.940.83
    CNN0.940.80
    本文方法 (Ours)0.960.88
  5. 实际意义:该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力,为临床早期诊断提供了新的技术思路。
  6. 主要局限性:数据集规模较小(320例)且未公开,模型泛化性存疑;对图神经网络部分的实现细节描述不够深入,技术贡献的清晰度和可复现性有所折扣。

8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification

7.5/10 | 前25% | #音频分类 | #混合专家模型 | #时频分析 #Vision

👥 作者与机构

  • 第一作者:未说明(论文标题下列出 Haihan Zhang†,但正文未明确其排序,且有两个†符号)
  • 通讯作者:Guowei Wu(根据脚注“Corresponding author: wgwdut@dlut.edu.cn”)
  • 作者列表:Haihan Zhang†, Guowei Wu†(†School of Software, Dalian University of Technology)
    • Haihan Zhang(大连理工大学软件学院)
    • Guowei Wu(大连理工大学软件学院)

💡 毒舌点评

亮点:论文提出了一个直观且有效的“多频谱特征拼接 + 卷积投影融合”策略,确实提升了基线ViT的性能,证明了特征多样性对小数据任务的价值。短板:将MoE引入ViT带来了显著的参数量(约284M)和计算复杂度(约68.8G FLOPs)增长,对于一个仅有四分类、数据量有限的任务而言,模型效率令人质疑,且论文未探讨轻量化方案。

📌 核心摘要

这篇论文旨在解决水下船舶噪声分类中数据稀缺和噪声环境复杂两大挑战。作者提出了一种名为UMV(Underwater Mixture-of-Experts Vision Transformer)的新型架构。该方法的核心在于:1)通过一个卷积融合模块,将STFT功率谱图、梅尔谱图和梅尔频率倒谱系数(MFCC)三种互补的频谱特征进行融合,形成更丰富的输入表示;2)在Vision Transformer编码器的前馈网络中,集成了一个采用Top-k稀疏路由机制的混合专家模型,以提升模型的表达能力和鲁棒性。在DeepShip数据集上,UMV达到了99.14%的分类准确率,相比基线ViT提升了3.18%,并且在高斯、粉红、虾类和螺旋桨等噪声环境下仍能保持超过92%的准确率(在20dB SNR下),显著优于现有的基于CNN和Transformer的方法。该工作的实际意义在于为水下声学监测提供了一种高精度、高鲁棒性的分类模型。主要局限性包括:模型参数量和计算量较大,可能不适合实时或资源受限的部署;未与更多最新的、专门的水下声学Transformer模型进行直接对比;且未开源代码或模型。


9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构

👥 作者与机构

  • 第一作者:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系)
  • 通讯作者:未说明
  • 作者列表:Md. Saiful Bari Siddiqui(BRAC大学计算机科学与工程系),Utsab Saha(BRAC大学计算机科学与工程系)

💡 毒舌点评

亮点:论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾,并设计了一个轻量级双分支架构来同时利用两者,实验也证实了该思路的有效性,尤其是在抵抗域偏移方面表现出色。
短板:所谓的“创新”更多是工程设计上的巧妙组合,后期融合策略(拼接)本身毫无新意,论文也未深入探讨更复杂融合机制(如跨注意力)在此场景下失效的原因,使其理论贡献稍显薄弱。

📌 核心摘要

  1. 问题:传统心音(PCG)分类方法要么使用2D频谱图(丢失相位和时间精度),要么使用1D波形(难以学习频率关系),二者各有局限。

  2. 方法:提出AudioFuse,一个轻量级双分支架构。一个分支是定制的“宽而浅”的Vision Transformer (ViT),用于从2D log-Mel频谱图中提取全局频谱特征;另一个分支是紧凑的1D CNN,用于从原始波形中提取精确的时序特征。两个分支提取的特征向量在最后通过拼接进行后期融合。

  3. 创新点:a) 针对PCG信号特性,设计了一个双分支、双模态的表示学习框架;b) 为平衡性能和过拟合风险,对ViT和CNN分支都进行了轻量化设计;c) 通过实验证明了简单拼接融合在该任务上优于更复杂的门控或交叉注意力融合。

  4. 实验结果:在PhysioNet 2016数据集上,AudioFuse(拼接融合)从头训练取得了0.8608的ROC-AUC,显著优于单模态基线(频谱图0.8066,波形0.8223)。在具有显著域偏移的PASCAL数据集上,AudioFuse(ROC-AUC 0.7181)的性能远优于频谱图基线(0.4873),展现了强大的泛化能力。具体结果见表1和表2。

    模型#参数AccuracyF1-ScoreROC-AUCMCC
    表1:PhysioNet 2016 数据集性能对比
    频谱图基线 (ViT)1.83M0.7193 ± 0.00710.7383 ± 0.01970.8066 ± 0.01410.4444 ± 0.0211
    原始音频基线 (1D-CNN)675K0.7376 ± 0.00940.7057 ± 0.02600.8223 ± 0.03130.4884 ± 0.0085
    AudioFuse (拼接融合)2.56M0.7741 ± 0.00940.7664 ± 0.00050.8608 ± 0.01270.5508 ± 0.0225
    表2:PASCAL 数据集泛化性能
    ViT-0.57950.32730.48730.0579
    1D-CNN-0.68180.54840.67820.3152
    AudioFuse-0.73860.66670.71810.4519
  5. 实际意义:为生物医学音频(尤其是心音)分析提供了一个高效、可泛化的分类模型,无需大规模预训练,有利于在资源有限的场景下部署。

  6. 局限性:a) 模型的优越性在更复杂、更大规模的心音数据集上是否成立有待验证;b) 双分支设计虽然有效,但增加了系统复杂度,推理时需同时处理两种输入;c) 论文未深入分析两个分支所学特征的具体互补性(如可视化)。


10. Audio Classification Models are Vulnerable to Filter Perturbations

7.5/10 | 前25% | #音频分类 | #对抗样本 | #鲁棒性 #信号处理

👥 作者与机构

  • 第一作者:Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology)
  • 通讯作者:未说明
  • 作者列表:
    • Justin Dettmer(RWTH Aachen University, Chair for Artificial Intelligence Methodology)
    • Annelot Bosman(Leiden University, Leiden Institute of Advanced Computer Science)
    • Igor Vatolkin(RWTH Aachen University, Chair for Artificial Intelligence Methodology)
    • Holger Hoos(RWTH Aachen University, Chair for Artificial Intelligence Methodology; Leiden University, Leiden Institute of Advanced Computer Science)

💡 毒舌点评

本文最大的亮点在于将对抗扰动从“像素/采样点级噪声”升维到更具物理和语义意义的“频域滤波器”,使得攻击更贴近真实世界中录音设备差异造成的频谱失真,这种更现实的威胁建模思路值得肯定。然而,论文虽然证明了当前模型对此脆弱,但提出的对抗训练解决方案计算成本高达10倍,且缺乏与现有多样性音频增强(如FilterAugment)方法的直接鲁棒性对比,使得“防御有效性”的结论稍显单薄。

📌 核心摘要

  1. 问题:当前针对音频分类模型的对抗攻击研究大多生成不自然、人类易察觉的波形噪声,无法模拟真实场景中因录音设备或声学环境差异导致的频谱变化,从而不能准确评估模型的现实鲁棒性。
  2. 方法核心:提出了一种基于带通滤波器的对抗攻击方法。该方法修改了经典的投影梯度下降(PGD)算法,将待优化的扰动约束为一个在梅尔频谱图各频段上独立作用的滤波器向量,该滤波器在时间维度上保持恒定。
  3. 创新点:与传统在波形或频谱图上逐点添加噪声的攻击不同,该方法产生的扰动在物理上更可解释(模拟设备频率响应),且可调参数更少,但攻击依然有效。
  4. 实验结果:在NSynth、ESC-50和SpeechCommands三个数据集上,对PaSST和CNN14模型进行的实验表明:a) 所提出的滤波器PGD攻击显著优于随机搜索基线(除CNN14/NSynth组合外,p < 0.05);b) 即使在较小的扰动预算(ε)下,基线模型准确率也大幅下降(见图1);c) 使用该攻击方法进行对抗训练能有效提升模型在相应ε下的鲁棒性,但存在与干净样本准确率的轻微权衡(见图2)。论文未提供准确率下降的具体百分比数值。
  5. 实际意义:提醒音频模型开发者需重视由真实声学条件(如不同麦克风)引起的频谱偏移带来的脆弱性,并提供了更具现实意义的评估工具和防御训练方法。
  6. 主要局限性:a) 对抗训练的计算成本极高(最高达10倍);b) 未研究滤波器扰动对人类听觉感知的具体影响(与噪声攻击的对比);c) 未将攻击约束为更具体的、离散的现实设备滤波器集;d) 未使用神经网络验证工具提供可证明的鲁棒性保证。

11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification

7.5/10 | 前10% | #音频分类 | #数据增强 | #多任务学习

👥 作者与机构

  • 第一作者:Seung Gyu Jeong(首尔科技大学应用AI系)
  • 通讯作者:Seong-Eun Kim(首尔科技大学应用AI系)
  • 作者列表:Seung Gyu Jeong(首尔科技大学应用AI系),Seong-Eun Kim(首尔科技大学应用AI系)

💡 毒舌点评

亮点在于论文系统性地指出了一个在多周期拼接方法中普遍存在但易被忽视的实际问题(多标签分布偏差),并提出了一个简单有效的三标签公式进行纠正,具有明确的临床直觉和可解释性。短板是作为主要正则化手段的“患者匹配”辅助任务,其带来的性能增益(如表3所示,+0.25分)在统计上并不显著,使得该核心创新点略显乏力;同时,论文对关键训练细节(如超参数、硬件)的交代不够完整,影响了可复现性。

📌 核心摘要

  1. 要解决什么问题:呼吸音自动分类面临两个主要限制:一是传统方法多为单周期分析,忽略了病理音在真实听诊中短暂且间歇出现的时序上下文;二是模型容易过拟合到特定患者的声学特征,而非通用的病理特征。
  2. 方法核心是什么:提出PC-MCL框架,包含三个核心组件:a) 多周期拼接作为数据增强,以模拟更真实的听诊场景;b) 一种新的3标签(正常、爆裂音、哮鸣音)标注方案,用于纠正传统2标签方案在拼接混合周期时导致的“正常”信息丢失问题;c) 一个患者匹配辅助任务,作为正则化器以减轻患者特异性过拟合。
  3. 与已有方法相比新在哪里:最关键的新颖性在于识别并解决了“多标签分布偏差”——即在使用传统2标签方案时,将正常周期与异常周期拼接后,标签会完全变成异常标签,从而系统性地削弱了模型对正常信号的建模能力。本文提出的3标签独立建模方案是解决此问题的关键。
  4. 主要实验结果如何:在ICBHI 2017基准数据集上,PC-MCL(使用BEATs骨干网络)达到了65.37% 的ICBHI Score,超过了此前最佳的64.84%。消融实验表明,多标签公式对提高灵敏度(+2.31%)贡献最大,而患者匹配任务则进一步提升了特异性和整体分数。与基线CE模型相比,在两个不同骨干网络(AST, BEATs)上均带来了显著的性能提升(分数提升约3-4个百分点)。
  5. 实际意义是什么:该框架提升了呼吸音分类的鲁棒性和泛化能力,对于辅助肺部疾病的低风险、低成本筛查具有潜在价值。它强调了在医疗音频分析中,数据增强策略需谨慎设计以保持标签的生物学合理性。
  6. 主要局限性是什么:a) 患者匹配辅助任务的贡献相对较小且不够稳定;b) 训练和推理之间存在微小的领域偏移(训练用拼接长音频,推理用单周期短音频),尽管论文称其稳健,但未深入分析;c) 论文未提供代码和模型权重,且关键训练细节缺失。

12. FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention

7.5/10 | 前25% | #音频分类 | #多模态模型 | #恶意软件检测 #双曲神经网络

👥 作者与机构

  • 第一作者:Nitin Choudhury (印度信息技术学院德里分校, IIIT-Delhi), Bikrant Bikram Pratap Maurya (印度信息技术学院德里分校, IIIT-Delhi) (论文指出两位作者贡献相等,共同作为第一作者)
  • 通讯作者:Orchid Chetia Phukan (orchidp@iiitd.ac.in) (印度信息技术学院德里分校, IIIT-Delhi)
  • 作者列表:Nitin Choudhury (IIIT-Delhi), Bikrant Bikram Pratap Maurya (IIIT-Delhi), Orchid Chetia Phukan (IIIT-Delhi), Arun Balaji Buduru (IIIT-Delhi)

💡 毒舌点评

亮点:首次将双曲空间和双曲交叉注意力机制引入多模态恶意软件分类,为融合具有潜在层次关系的模态数据提供了新颖且理论优雅的解决方案,实验结果也确实证明了其有效性。短板:论文虽展示了性能提升,但对于“音频模态编码细粒度字节特征,视觉模态捕获高层空间结构”这一层次假设的实证分析不足,且双曲计算带来的额外开销与性能收益的权衡讨论缺失。

📌 核心摘要

  1. 问题:恶意软件不断演化,传统分类方法易受规避。多模态融合是提升鲁棒性的有效途径,但现有方法未充分利用音频和视觉模态之间隐含的层次关系。
  2. 方法核心:提出FOCA框架,将恶意软件二进制文件转换为音频和图像表示。使用预训练模型提取特征后,通过一个双曲投影模块将特征映射到庞加莱球空间,然后利用新颖的双曲交叉注意力(HCA)机制在曲率感知的约束下对齐双模态依赖,最后通过莫比乌斯加法进行融合。
  3. 新意:首次在恶意软件分类任务中利用双曲空间进行多模态融合,以显式建模音频与视觉表征间的层次结构;提出了专门的双曲交叉注意力机制。
  4. 实验结果:在CICMalDroid2020和Mal-Net两个基准数据集上,FOCA(使用HuBERT+ViT)分别取得了99.10% 和 82.84% 的分类准确率,显著优于所有单模态模型、简单拼接、欧几里得交叉注意力基线及先前的SOTA方法。t-SNE可视化显示FOCA能产生更紧凑、分离度更高的聚类。
  5. 实际意义:为恶意软件检测提供了更强大、更鲁棒的分类框架,证明了双曲多模态融合是提升分类性能的有效新方向。
  6. 主要局限性:对音频与视觉模态间“层次关系”的假设缺乏更深层的验证或分析;未详细讨论双曲计算的额外复杂性;实验未在更多样化或更大规模的恶意软件数据集上进行验证。


13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices

7.5/10 | 前25% | #音频分类 | #脉冲神经网络 | #边缘计算 #生物启发计算

👥 作者与机构

  • 第一作者:Bin Liu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室)
  • 通讯作者:Wenjuan Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室,邮箱:wenjuan.li@ia.ac.cn)
  • 作者列表:Bin Liu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Wenjuan Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Bing Li(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Chunfeng Yuan(中国科学院自动化研究所多模态人工智能系统国家重点实验室)、Kun Shang(广东省无创脑机接口多模态重点实验室)、Shaobing Gao(四川大学计算机科学与技术学院)、Weiming Hu(上海科技大学信息科学与技术学院,中国科学院自动化研究所多模态人工智能系统国家重点实验室)

💡 毒舌点评

这篇论文的亮点在于其高度原创的“生物启发式”架构设计,将小波变换、脉冲神经网络与双通路处理有机结合,为解决音频分类在边缘设备上的部署难题提供了新颖且有效的思路,参数效率指标(1.9M参数达95.91%准确率)极具吸引力。但其短板也很明显:一是实验仅在多个中小型数据集上验证,缺乏对更大规模、更复杂真实场景的测试,且所有模型均为“从头训练”,未能与当前主流的预训练范式进行公平对比,削弱了其结论的普适性;二是虽然声称面向边缘部署,但未提供在实际嵌入式设备(如STM32、RISC-V)上的功耗与延迟实测数据,效率分析仍停留在FLOPs和模拟器层面。

📌 核心摘要

  1. 要解决的问题:在IoT和边缘计算背景下,音频分类模型面临高性能(大参数)与低资源(有限算力/内存)之间的根本矛盾。现有模型要么参数冗余无法部署,要么压缩后精度下降显著。
  2. 方法核心:提出WaveSpikeNet,一种受人类听觉系统启发的轻量级架构。其核心包括:(1) 可学习离散小波变换(LDWT)进行任务自适应的频率分解;(2) 模仿听觉皮层“腹侧-背侧”通路的双通路异构处理架构,分别使用传统的残差块处理低频稳态特征,使用简化的Leaky Integrate-and-Fire(LIF)脉冲神经网络处理高频瞬态特征;(3) 多级注意力融合模块进行有效整合。
  3. 与已有方法相比新在哪里:首次成功地将可学习小波变换、脉冲神经网络和多级注意力机制融合用于音频分类。与传统的同质化(如全卷积)或均匀压缩方法不同,它通过生物启发的异构处理(低频CNN,高频SNN)来提升参数效率,而非简单地减少参数量。
  4. 主要实验结果:在UrbanSound8K数据集上,Base模型(1.9M参数)达到95.91%准确率,超越参数量为其4倍多的ResNetSE(7.8M参数,95.07%),参数效率(准确率/参数量)显著提升。在ESC-50、GTZAN等数据集上也从头训练取得有竞争力的结果。在AudioSet上,以约35倍少于CNN14的参数量,取得了更高的mAP(0.234 vs 0.221)。消融实验验证了双通路设计、可学习小波和脉冲机制的有效性。
  5. 实际意义:为在资源受限的边缘设备(如树莓派)上部署高性能音频分类模型提供了一种有前景的新架构,可能推动智能传感在智能家居、工业监测等领域的应用。
  6. 主要局限性:(1) 缺乏在真实物理边缘设备上的功耗、延迟等硬件指标实测;(2) 所有实验均为从头训练,未能与当前主流的预训练-微调范式进行对比,其性能上限和泛化能力有待进一步验证;(3) 论文未提供代码、模型权重等开源材料,可复现性存疑。

14. Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing

7.5/10 | 前25% | #音频分类 | #自适应处理 | #信号处理 #音频前端

👥 作者与机构

  • 第一作者:Hanyu Meng(悉尼新南威尔士大学,The University of New South Wales, Sydney, Australia)
  • 通讯作者:未说明
  • 作者列表:Hanyu Meng(悉尼新南威尔士大学)、Vidhyasaharan Sethu(悉尼新南威尔士大学)、Eliathamby Ambikairajah(悉尼新南威尔士大学)、Qiquan Zhang(阿里巴巴集团,通义语音实验室,Tongyi Speech Lab, Alibaba Group, China)、Haizhou Li(香港中文大学(深圳)人工智能学院,School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China)

💡 毒舌点评

论文的亮点在于将自适应机制从频谱分解(如滤波器Q值)下沉到了动态范围压缩(PCEN)阶段,并通过一个极简的神经控制器实现,思路清晰且在多个任务上验证了有效性,特别是在噪声和响度变化场景下表现突出。然而,其“自适应”本质上仍是对两个参数进行实时回归预测,创新程度有限,且未与当前更强的音频表示学习(如AST, BYOL-A等)或端到端自适应方法进行充分对比,说服力稍显不足。

📌 核心摘要

本文旨在解决传统可学习音频前端(如LEAF)参数在训练后固定,无法适应动态复杂声学环境(如背景噪声、响度变化)的问题。 方法核心是提出一个名为LEAF-APCEN的自适应前端框架。它首先将原始四参数的PCEN简化为仅包含α和γ两个关键参数的SimpPCEN;然后,设计了一个轻量级神经控制器,该控制器以当前帧的子带能量和上一帧的处理结果为输入,通过双向GRU和MLP动态预测当前帧的SimpPCEN参数,从而实现输入依赖的、时频自适应的动态范围压缩。 与已有方法相比,新在两点:1)首次将音频前端的自适应调节聚焦于子带能量归一化(PCEN)环节,而非滤波器组设计;2)实现了完全由神经网络驱动的、闭环的参数自适应,而非预定义的调整策略。 主要实验结果在四个音频分类任务(环境声、音乐流派、语音情感、说话人识别)上进行了验证。在干净条件下,LEAF-APCEN在除音乐流派外的任务上均取得最优,例如在说话人识别(VoxCeleb1)上比固定LEAF提升8.5个百分点(41.34% -> 49.84%)。在复杂声学条件下(混合噪声与响度变化),LEAF-APCEN优势更加明显,在声场分类、语音情感和说话人识别任务上大幅领先基线,如在声场分类(ESC-50)上达到55.75%(Fixed LEAF为40.00%)。 实际意义在于,它为构建更鲁棒的音频感知系统提供了一种轻量、有效的自适应前端设计方案,能够提升各类音频应用在现实复杂环境中的性能。 主要局限性包括:自适应机制局限于PCEN参数,未联合前端其他组件;实验对比未涵盖最新的音频基础模型;论文未提供多通道或流式处理场景的验证。


15. Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习

👥 作者与机构

  • 第一作者:Kai Guo(北京理工大学)
  • 通讯作者:Xiang Xie†*(北京理工大学, †北京理工大学珠海校区)
  • 作者列表:Kai Guo(北京理工大学), Xiang Xie(北京理工大学, 北京理工大学珠海校区), Shangkai Zhao(北京理工大学)

💡 毒舌点评

该论文精准地“手术”解决了EDE模型膨胀的痛点,并通过引入对比学习“补血”提升性能,实验结果亮眼,工程改进思路清晰。但理论分析稍显薄弱,为何自适应融合后对比学习效果更佳,未给出更深层次的解释;且对比学习的应用较为常规,未探索更前沿的对比策略。

📌 核心摘要

  1. 问题:论文针对“全少样本类增量音频分类”(FFCAC)任务,即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识,但导致模型输入维度随学习进程无限膨胀,影响效率与性能。
  2. 方法核心:提出“自适应嵌入融合EDE(AEF-EDE)”。核心是引入一个可学习的加权融合模块,将不同时期(会话)的特征提取器输出进行加权求和,而非简单拼接,从而固定模型输入维度。同时,在增量学习阶段引入监督对比学习损失(LCL),以增强特征的判别性。
  3. 创新点:(1) 设计AEF模块,通过可学习参数自适应融合多会话嵌入,避免模型膨胀;(2) 将对比学习策略从基类会话(样本少)调整至增量会话(样本相对多),并证明其在AEF结构下能有效提升性能;(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。
  4. 主要实验结果:在三个数据集上,AEF-EDE的平均准确率(AA)均优于EDE和其他方法。例如,在FSC-89上AA为43.39%(EDE为38.74%),在LS-100上为61.15%(EDE为56.65%),在NSynth-100上为56.44%(EDE为51.19%)。消融实验证实了AEF模块与对比学习损失(LCL)的协同有效性。
  5. 实际意义:为资源受限的音频持续学习场景(如野外声音监测)提供了一种更高效、可扩展的解决方案。
  6. 主要局限性:对比学习在基类会话中因样本过少而失效,作者承认这是未来工作方向;论文未讨论AEF模块的计算复杂度与EDE的具体对比;可学习参数θ的初始化和收敛性未深入分析。


16. Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

7.5/10 | 前25% | #音频分类 | #增量学习 | #灾难性遗忘 #Hebbian学习

👥 作者与机构

  • 第一作者:Riccardo Casciotti (Tampere University, Signal Processing Research Centre)
  • 通讯作者:未说明
  • 作者列表:Riccardo Casciotti (Tampere University, Signal Processing Research Centre), Francesco De Santis (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Alberto Antonietti (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Annamaria Mesaros (Tampere University, Signal Processing Research Centre)

💡 毒舌点评

亮点:巧妙借用神经科学中的“多巴胺调节”概念,设计了一个简单而有效的核可塑性调制规则,在Hebbian学习框架下稳定了记忆,这是一个优雅的生物启发式工程实现。短板:所有验证仅基于一个规模和难度都有限的环境声数据集ESC-50,这使得“显著提升”和“生物合理性”的说法缺乏更有力的普适性证据,让人怀疑该方法在更大、更复杂的音频任务(如语音、音乐)或开放集增量学习中的真实效用。

📌 核心摘要

  1. 要解决什么问题:深度学习模型在增量学习(持续学习新任务)时普遍遭遇“灾难性遗忘”,即学习新知识会导致对旧知识的严重遗忘。本文针对音频分类任务,旨在解决此问题。
  2. 方法核心是什么:提出一种基于Hebbian学习(生物启发式、无监督)深度神经网络的增量学习方法。其核心创新是“核可塑性”机制,通过监测卷积核在训练中的权重变化和激活值,识别并保护对当前任务重要的“核心核”,同时增强其他核的学习率(可塑性),以此调制网络的学习过程。
  3. 与已有方法相比新在哪里:据作者称,这是首次将Hebbian学习与增量学习相结合。与传统基于反向传播的增量学习方法(如EWC)不同,该方法在无监督的特征提取阶段就引入了生物启发的稳定性-可塑性平衡机制,而非仅在损失函数或权重更新上做约束。
  4. 主要实验结果如何:在ESC-50数据集的五步任务增量学习设置中,所提方法(带KP)的最终总体准确率为76.3%,显著高于不使用KP的基线(68.7%),并远优于EWC基线(33%)。同时,增量学习指标(FM, BWT)证实了该方法在保留旧任务知识方面的优势。
  5. 实际意义是什么:为音频智能系统(如持续识别新环境声音)提供了一种潜在的、计算更生物合理的增量学习范式,可能有助于构建更鲁棒、能持续演化的音频AI模型。
  6. 主要局限性是什么:验证数据集(ESC-50)规模小且任务简单;方法依赖任务标签(任务增量学习),未验证在更通用的类增量学习场景下的有效性;性能与同架构的联合学习相比并无优势,表明方法的增量学习能力提升是以牺牲部分模型容量或学习效率为代价的。


17. Attentive Masked Self-Distillation for Respiratory Sound Classification

7.5/10 | 前25% | #音频分类 | #知识蒸馏 | #数据增强 #医学音频

👥 作者与机构

  • 第一作者:Nuo Chen(浙江大学集成电路学院)
  • 通讯作者:Mingsheng Xu(浙江大学集成电路学院)
  • 作者列表:Nuo Chen(浙江大学集成电路学院)、Mingsheng Xu(浙江大学集成电路学院)

💡 毒舌点评

亮点:论文针对呼吸声分类中数据预处理(循环填充)引入的捷径学习问题,设计了一个巧妙的“注意力掩码”机制,能动态地屏蔽模型容易过度依赖的声谱图区域,这比随机掩码更具针对性,且可视化结果令人信服。短板:尽管在ICBHI上取得了SOTA级别的性能,但实验仅在一个中等规模的数据集上进行,且模型骨架(AST)的参数量巨大(~90M),对于实际的医疗边缘部署可能并不友好,论文对此的讨论不足。

📌 核心摘要

这篇论文旨在解决基于Transformer的呼吸声分类模型因参数量大、训练数据少而导致的过拟合,以及因音频预处理(循环填充)引入的冗余信息导致的捷径学习问题。方法核心是提出一个名为“注意力掩码自蒸馏”的框架,它结合了渐进式自蒸馏(将前一epoch模型作为教师,用KL散度对齐logits)和一种创新的注意力掩码策略:利用教师模型的特征通过Token权重模块计算每个token的重要性,并在当前epoch的学生模型中掩蔽掉最显著(即最可能成为捷径特征)的token。此外,模型还引入了一个重建任务,以掩蔽的token为目标进行重建,作为正则化项增强表示的鲁棒性。与已有方法相比,其新意在于将知识蒸馏、针对捷径特征的主动掩蔽以及重建正则化三者有机结合。在ICBHI数据集上的实验表明,该方法取得了具有竞争力的结果,敏感性达到60.92%,ICBHI综合得分为67.54%,优于Gap-Aug等强基线。消融实验和可视化分析证实了各组件的有效性以及模型关注临床相关声学区域的能力。该工作的实际意义在于为医疗音频分析提供了一种更鲁棒、泛化能力更强的建模思路,但其局限性在于主要验证集中在一个公开数据集,且使用了参数量庞大的预训练模型,计算效率未做深入探讨。

方法架构敏感性(%)特异性(%)ICBHI得分(%)
Co-tunning [21]ResNet5037.2479.3458.29
Patch-Mix CL [4]AST43.0781.6662.37
SG-SCL [22]AST43.5579.8761.71
BST [23]CLAP45.6781.4063.54
LungAdapter [18]AST44.3780.4362.40
MVST [20]AST51.1081.9966.55
Gap-aug [6]CNN1458.2077.0767.64
LoRA [24]AST36.1185.3160.71
AMS-D (ours)AST60.9274.1667.54

表1: ICBHI数据集性能对比(引自论文)

掩码策略敏感性(%)特异性(%)ICBHI得分(%)
无掩码44.2882.7966.11
随机掩码63.1470.6866.91
时间区间掩码63.0567.6465.35
频率区间掩码89.4216.0952.75
注意力掩码(ours)60.9274.1667.54

表2: 不同掩码策略性能对比(引自论文)

模型配置敏感性(%)特异性(%)ICBHI得分(%)
基线(AST)64.4767.1565.81
+ 自蒸馏44.2882.7966.11
+ 自蒸馏 + 掩码49.4974.3561.92
AMS-D (完整)60.9274.1667.54

表3: 消融实验(引自论文)

图1: AMS-D训练流程 图1展示了AMS-D的整体框架:左侧为渐进式自蒸馏,t-1 epoch的教师模型提供logits用于计算蒸馏损失;右侧为注意力掩码策略,教师模型的最终层特征经Token权重模块生成掩码,应用于t epoch学生的输入,并加入了重建任务。

图2: 掩码策略可视化 图2展示了在喘鸣音(crackle)声谱图上不同掩码策略的对比(上排),以及注意力掩码在不同训练阶段的选择频率热图(下排)。它表明,注意力掩码策略能动态地、结构性地屏蔽与病理特征相关的区域(如红框所示的高频区域),而非随机分散。


18. One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence

7.5/10 | 前25% | #音频分类 | #多任务学习 #彩票假设 | #多任务学习 #彩票假设

👥 作者与机构

  • 第一作者:Maxim K. Surkov(ITMO University)
  • 通讯作者:未说明
  • 作者列表:Maxim K. Surkov(ITMO University)

💡 毒舌点评

亮点:论文将“彩票假设”成功应用于音频多任务学习,设计出仅3万参数即可同时处理三个任务的统一模型,且精度损失极小(AR=-1.3%),实现了单次推理下的极致效率,为边缘端音频智能提供了非常务实的优化蓝图。
短板:虽然实验对比充分,但“MTL-LTH”本质上是现有彩票假设方法的直接套用,方法论的原创性有限;此外,论文仅在三个相对简单的分类任务上验证,对于更复杂音频任务(如语音识别、情感识别)的泛化能力尚不明确。

📌 核心摘要

  1. 问题:在资源受限的边缘设备上,同时部署语音命令识别(SCR)、年龄估计(AC)和性别识别(GC)等多个音频任务面临计算开销大、参数冗余的挑战。
  2. 方法:提出将彩票假设(LTH)应用于多任务学习(MTL),通过系统性地探索共享编码器深度和多种剪枝策略(如MTL-LTH),发现一个高度稀疏的、可被所有任务共享的子网络(“中奖彩票”)。该子网络使用统一的编码器,为每个任务配备一个极简的解码器。
  3. 新意:首次在音频领域系统性地研究将彩票假设应用于多任务学习,旨在发现一个共享的、推理高效的稀疏子网络。与先前需为每个任务单独掩码、多次推理的LT4REC方法不同,本工作确保了计算图的完全共享和单次推理。
  4. 实验结果:提出的方法(MTL-LTH应用于c4架构)生成了一个总参数仅约30,000的统一模型,其参数量与单任务模型相当,比集成方法减少66%,且在三个任务上均达到或接近最佳精度,精度降低(AR)仅为-1.3%。消融实验表明,共享4层编码器(c4)是性能最优的架构配置。下表展示了核心实验结果:

表1:不同共享编码器深度(c1-c8)下的多任务学习性能(精度降低AR与参数量SIZE)

配置硬参数共享(HS) ARHS 参数量HS+精简解码器(HS+RD) ARMTL-LTH AR
c1-4.7%87k-4.1%
c2-3.4%79.1k-2.9%
c3-1.4%71k-2.8%
c4-1.3%63k-1.3%-1.3%
c5-2.1%54.9k-3.9%-1.3%
c6-3.0%46.9k-4.7%-2.6%
c7-3.0%38.8k-5.4%-3.0%
c8-7.0%30.7k-9.6%-8.5%

表2:不同剪枝算法对比(模型大小、共享权重数、操作数OPS)

算法ARSIZESHAREOPS
MTL-LTH c4-1.3%30.0k6.7k30.0k
MTL-LTH c5-1.3%30.5k12.1k30.5k
LT4REC c8 10%-9.4%30.0k22.0k79.0k
LT4REC c8 15%-9.0%29.5k19.0k74.7k
LT4REC c8 25%-9.1%28.5k14.3k66.0k
LT4REC c8 40%-9.4%26.3k8.7k53.0k
PS 5 cl-20.5%30.7k16.5k30.7k
LtS 1M-6.5%32.2k23.5k32.5k
  1. 意义:为构建高效、低功耗的边缘端多任务音频智能模型提供了一个清晰的设计蓝图和实证依据,证明了结合架构设计(寻找最优共享深度)与自动化剪枝(发现共享中奖彩票)的有效性。
  2. 局限性:仅在三个相对简单的音频分类任务上进行了验证;对于模型在训练数据分布外场景的鲁棒性、任务间潜在负迁移的深入分析不足;未探讨该框架在更复杂音频模型(如Transformer)上的适用性。

19. Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations

7.5/10 | 前25% | #音频分类 | #数据增强 | #音色分析 #异常检测

👥 作者与机构

  • 第一作者:Tomoya Nishida (Hitachi, Ltd., Research and Development Group)
  • 通讯作者:未说明
  • 作者列表:Tomoya Nishida (Hitachi, Ltd., Research and Development Group), Harsh Purohit (Hitachi, Ltd., Research and Development Group), Kota Dohi (Hitachi, Ltd., Research and Development Group), Takashi Endo (Hitachi, Ltd., Research and Development Group), Yohei Kawaguchi (Hitachi, Ltd., Research and Development Group)

💡 毒舌点评

本文巧妙地将一个工业界的实际痛点(解释细微异常声音差异)转化为一个可研究的学术问题,并设计了一套无需稀缺配对数据的完整训练管线,这是其最大亮点。然而,模型架构(BEATs + MLP + Transformer + GPT-2)更像是针对特定任务的有效“拼装”,在模型创新性上略显平淡,且“音色感知”的框架虽然有效,但也限定了其只能解释音色类差异,面对其他类型的声音变化时显得力不从心。

📌 核心摘要

  1. 问题:在机器异常声音检测中,不仅需要检测异常,更需要解释异常声音与正常声音的细微差异。然而,训练此类解释模型面临两大挑战:(1) 缺乏目标机器的正常-异常配对训练数据;(2) 真实差异往往很细微,现有方法难以捕捉。
  2. 方法核心:提出一个无需配对数据的音色感知音频差异描述框架。核心是通过合成扰动生成训练数据:基于音频描述数据集(AudioCaps),对原始音频施加能改变特定音色属性(如明亮度、低沉度)的微小变换,然后利用LLM自动生成描述这种音色变化的差异文本。同时,设计一个显式融合音色度量指标的模型来捕捉细微差异。
  3. 新意:与之前需要配对数据或只能描述大差异的方法相比,本文创新在于:(i) 提出了一个利用合成扰动生成“音频对+差异描述”三元组的自动数据管线;(ii) 设计了一个在推理时也融入计算音色指标的模型,增强了对细微变化的敏感性。
  4. 结果:在基于DCASE挑战的真实正常-异常机器声音对上的主观评估中,本文方法获得了最高的平均意见分数(MOS)。如图3所示,其MOS在“Slider”、“Fan”等机器类型上显著高于基线方法。消融实验证明,引入音色条件后,预测音色变化方向的准确率从56.7%提升至89.8%。
  5. 意义:为工业设备的预测性维护提供了一种可解释的辅助工具,能够生成符合人类感知的文本来描述声音的细微异常变化。
  6. 局限:模型主要针对音色类差异进行设计和优化,对于时间结构变化或新声音事件出现等其他类型的差异解释能力有限(如图4(c)所示)。此外,合成数据可能无法完全覆盖真实异常的复杂分布。

20. Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试

👥 作者与机构

  • 第一作者:Karim El Khoury† (ICTEAM, UCLouvain, Belgium), Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) (论文注明†表示贡献均等)
  • 通讯作者:未说明
  • 作者列表:Karim El Khoury (ICTEAM, UCLouvain, Belgium), Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium), Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium), Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium), Benoît Macq (ICTEAM, UCLouvain, Belgium)

💡 毒舌点评

本文提出的“熵最小化”加权策略,是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案,其轻量级(可忽略的计算开销)和无需标注数据的特性使其具备即插即用的实用价值。然而,整篇论文的创新和验证都高度绑定在一个较为陈旧的模型(CLAP-2022)上,缺乏在新近、更强大的音频-语言模型(如Audio-MAE, Pengi)上的验证,这极大地限制了其贡献的通用性和时效性。

📌 核心摘要

  1. 要解决什么问题:零样本音频-语言模型(ALMs)的性能对文本提示的措辞极其敏感,使用多提示集成(如平均嵌入、多数投票)是常见缓解方法,但简单集成忽略了不同提示的性能差异,且需要大量工程。
  2. 方法核心是什么:本文提出一种熵引导的提示加权方法。通过优化一个加权向量β来组合不同文本模板的预测结果,其核心优化目标是最小化最终预测分布的熵(以低熵作为高置信度的代理),并包含防止偏离零样本预测的正则化项和鼓励权重分布平滑的熵正则化项。
  3. 与已有方法相比新在哪里:与传统的多数投票、平均嵌入或其熵加权/剪枝变体不同,本文方法将提示集成为一个可优化的问题,通过一个显式的、可推导的迭代算法来寻找最优权重。该方法是纯零样本的,无需标注数据,且可以应用于单个样本或整个数据集。
  4. 主要实验结果如何:在五个音频分类数据集(ESC-50, ESC-Actions, US8K, SESA, VS)上,该方法(数据集级β优化)相比零样本预测平均提升1.4%准确率,相比六种基线集成方法平均提升0.9%-1.4%。在ESC-Actions上提升最高达3.8%。实验还包括了针对正则化参数λzs和剪枝策略的消融研究。

主要实验结果表格(表2):

方法ESC-50ESC-ActionsUS8KSESAVS平均
零样本预测82.687.775.066.746.971.8
基线集成方法(6种,平均)~81.6~90.1~75.6~66.7~47.1~72.2
本文方法:单样本β82.990.074.967.247.772.5
本文方法:数据集β83.590.577.366.847.973.2
本文方法:数据集β+剪枝83.591.577.466.848.973.6

注:基线集成方法的具体数值见论文表2,此处为估算平均值以突显对比。

  1. 实际意义是什么:提供了一个轻量、即插即用的模块,可以无缝集成到现有ALM零样本分类流程中,通过优化提示权重自动提升性能,减轻了人工设计和筛选提示的负担。
  2. 主要局限性是什么:所有实验均基于同一个预训练模型(CLAP-2022),该模型已发布数年,未在更新、性能更强的ALM上进行验证;方法的有效性依赖于初始模板集合的质量,论文未探讨如何自动或启发式生成高质量模板;优化过程依赖于批量数据(尽管支持单样本),在严格流式场景下的适用性未讨论。

图1:各数据集相对于零样本预测的准确率提升总结图 图1展示了本文方法在五个数据集上相对于零样本预测的准确率提升。可以清晰地看到,其性能提升(尤其是数据集β+剪枝版本)一致优于“多数投票”和“嵌入平均”两种基线集成方法。

图2:35个提示模板在五个数据集上的准确率分布箱线图 图2展示了35个手工设计模板在各个数据集上的分类准确率分布。箱线图的离散度清晰地表明,不同提示模板的性能存在巨大差异,这直接说明了进行提示加权的必要性。


21. Directly Trained Spiking Neural Networks with Adaptive Phase Coding

7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络

👥 作者与机构

  • 第一作者:Huaxu He(广东智能科学技术研究院,河南大学)
  • 通讯作者:Yang Liu(河南大学计算机与信息工程学院),Chio-In IEONG(广东智能科学技术研究院)
  • 作者列表:Huaxu He(广东智能科学技术研究院,河南大学)、Zhixing Hou(广东智能科学技术研究院)、Mingkun Xu(广东智能科学技术研究院)、Yongsheng Huang(广东智能科学技术研究院)、Yang Liu(河南大学计算机与信息工程学院)、Chio-In IEONG(广东智能科学技术研究院)

💡 毒舌点评

亮点:论文提出的“自适应相位编码”机制概念清晰、实现简洁,且巧妙地通过“层间时间打乱”消融实验,为“网络是否真的在利用时间信息”这一核心假设提供了直接证据,这在SNN可解释性研究中很有价值。
短板:创新深度有限,本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子;实验部分未能与近年来涌现的多种直接训练SNN方法(如SLTT、GLIF等)进行公平、全面的对比,削弱了其宣称的“改进”的说服力。

📌 核心摘要

本文旨在解决直接训练的脉冲神经网络(SNN)在利用脉冲时间信息方面的不足,现有方法大多退化为等效的速率编码,限制了SNN处理时序信息和实现低功耗的潜力。为此,论文提出了“自适应相位编码”(APC)机制,其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数(β_t, λ_t),用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同,APC使网络能在端到端训练中自主学习每个时间步的重要性,并且该参数被扩展至每个层的每个通道,以实现更精细的时序调制。实验结果表明,在静态数据集CIFAR-10/100上,APC能将脉冲发放率降低约20%,同时精度仅下降约0.85%;在时序数据集DVS-Gesture和SHD上,APC显著提升了分类精度,分别提高了1.73%和17.76%,其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明,APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块,能提升其在时序任务上的性能。主要局限性在于,在静态数据集上精度略有下降,且实验验证的骨干网络和任务类型相对单一。


22. Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性

👥 作者与机构

  • 第一作者:Milan Marocchi, Matthew Fynn(*表示贡献相等)
  • 通讯作者:未说明
  • 作者列表:Milan Marocchi(Curtin University),Matthew Fynn(Curtin University),Yue Rong(Curtin University)
  • 机构:Curtin University, Bentley 6102, WA, Australia(未说明具体学院或实验室)

💡 毒舌点评

论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号,并设计了一个实用的多通道噪声段拒绝流程,在真实噪声数据集上验证了其有效性。短板是,其噪声拒绝核心算法(能量阈值)的创新性较为有限,且消融实验部分缺失,使得我们难以精确评估各个组件(如对比学习、中心损失、噪声拒绝)的具体贡献。

📌 核心摘要

  1. 要解决什么问题:在真实临床噪声环境下,提高基于心音图(PCG)信号的冠状动脉疾病(CAD)检测的鲁棒性和准确性。
  2. 方法核心是什么:提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括:(1) 一种基于能量的多通道噪声段拒绝算法,利用听诊器内置的心声麦克风(HM)和噪声参考麦克风(NM)识别并剔除受非平稳噪声污染严重的信号段;(2) 一个将梅尔频率倒谱系数(MFCC)作为输入的Conformer编码器,并结合监督混合对比学习(包含对比损失、分类损失和中心损失)进行训练。
  3. 与已有方法相比新在哪里:首次将Conformer模型应用于心音分类任务;提出了一种联合利用HM和NM能量信息的噪声段拒绝方法;在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习,以应对真实世界噪声数据。
  4. 主要实验结果如何:在297名受试者的数据集上,所提出的方法(带噪声拒绝)在受试者级别取得了78.4%的准确率和78.2%的平衡准确率(UAR),相比不进行噪声拒绝的基线模型,准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比,准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示(仅列受试者级别关键指标):
方法准确率 (Acc)平衡准确率 (UAR)真阳性率 (TPR)真阴性率 (TNR)MCC
不带噪声拒绝的MFCC-Conformer74.3±0.09%73.9±0.10%80.9±0.11%66.9±0.30%0.490±0.019
本文方法(带噪声拒绝的MFCC-Conformer)78.4±0.29%78.2±0.32%81.9±0.49%74.5±0.97%0.570±0.058
Noisy Wav2Vec 2.0 [13]77.1±1.50%74.3±1.73%86.5±1.30%62.0±2.76%0.510±0.035
  1. 实际意义是什么:为在真实世界噪声条件下(如嘈杂的医院环境)进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案,有助于推动基于可穿戴设备的心脏病早期预警技术。
  2. 主要局限性是什么:实验仅在一个来源的特定数据集上进行验证;噪声拒绝算法的阈值(2.5倍中值)是固定的,缺乏自适应性讨论;论文未提供充分的消融实验以区分各技术组件(噪声拒绝、Conformer、对比学习等)的独立贡献。


23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本

👥 作者与机构

  • 第一作者:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)
  • 通讯作者:Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)
  • 作者列表:Ziyu Wang(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Wenrui Li(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hongtao Chen(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Jisheng Chu(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Hengyu Man(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)、Xiaopeng Fan(哈尔滨工业大学,鹏城实验室,哈尔滨工业大学苏州研究院)

💡 毒舌点评

亮点:论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点,提出的STFE和ETS模块设计目标明确,且通过减少时间步长实现了可观的能耗降低。短板:模型在复杂长视频(ActivityNet)上表现出的“过拟合已见类别、损害未知类别泛化”的现象,恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性,这一核心矛盾在论文中未得到充分讨论和解决。

📌 核心摘要

  1. 问题:现有音视频零样本学习(AVZSL)方法普遍存在时间线索利用不足的问题,常依赖简单的特征平均或基础脉冲神经元,无法捕捉深层时间依赖,且能效有待优化。
  2. 方法核心:提出脉冲时序增强网络(STEN)。其核心是在Spikeformer架构中集成可学习三元脉冲神经元(LTS) 和时空融合模块(STFE),并通过增强时序Spikeformer(ETS) 自适应整合相邻时间步信息。
  3. 新意:相比已有方法(如AVMST),STEN通过LTS增强特征表示能力,通过STFE联合建模时间局部动态和通道依赖,通过ETS捕获微观时序变化。同时利用脉冲神经网络(SNN)的事件驱动稀疏性,通过优化时间步长大幅降低能耗。
  4. 主要实验结果:
    • 在VGGSound数据集上,GZSL调和平均(HM)达到8.04,比基线AVMST(7.68)提升4.7%,ZSL指标提升13.6%。
    • 在UCF101数据集上,GZSL的HM达到34.27,比AVMST(29.91)提升14.6%,Seen类准确率大幅提升。
    • 在ActivityNet数据集上,Seen类指标提升40.8%,但Unseen类和HM略有下降。
    • 能效方面,与AVMST相比,SNN能耗降低41.7%,总能耗降低15.6%。
  5. 实际意义:为AVZSL任务提供了一种在保持竞争力的同时,显著降低计算能耗的解决方案,有助于将该技术部署到资源受限的边缘设备。
  6. 主要局限性:在时序更复杂、视频更长的ActivityNet数据集上,模型表现出对已见类别过拟合的倾向,牺牲了在未见类别上的泛化能力,表明其时间建模策略的稳健性有待提升。此外,论文未提及开源计划,可复现性存疑。

24. A Dynamic Gated Cross-Attention Framework for Audio-Text Apparent Personality Analysis

7.0/10 | 前25% | #音频分类 | #多模态模型 | #人格分析 #跨模态

👥 作者与机构

  • 第一作者:Yunan Li(西安电子科技大学计算机科学与技术学院;西安大数据与智能视觉重点实验室;陕西省智能人机交互与可穿戴技术重点实验室)
  • 通讯作者:Zixiang Lu(西安电子科技大学计算机科学与技术学院;西安大数据与智能视觉重点实验室;陕西省智能人机交互与可穿戴技术重点实验室)
  • 作者列表:Yunan Li(同上)、Zixiang Lu(同上)、Yang Ma(西安电子科技大学计算机科学与技术学院)、Haozhe Bu(西安电子科技大学计算机科学与技术学院)、Zhuoqi Ma(西安电子科技大学计算机科学与技术学院;西安大数据与智能视觉重点实验室;陕西省智能人机交互与可穿戴技术重点实验室)、Qiguang Miao(西安电子科技大学计算机科学与技术学院;西安大数据与智能视觉重点实验室;陕西省智能人机交互与可穿戴技术重点实验室)

💡 毒舌点评

该论文提出了一种结构清晰的音频-文本双流融合框架,其动态门控机制为处理模态特异性与交互性提供了合理的解决方案。然而,其核心创新(交叉注意力+门控)在多模态融合领域已不算新奇,且实验仅限于一个数据集,缺乏跨数据集或跨任务的泛化验证,说服力有限。

📌 核心摘要

  1. 要解决什么问题:针对从音频和文本中推断人格特质的表观人格分析(APA)任务,现有方法在融合异质模态时存在语义对齐不足和动态贡献调节困难的问题。
  2. 方法核心是什么:提出一个基于动态门控交叉注意力(DGCA)的框架。首先使用注意力增强的ResNet(AttResNet)和RoBERTa分别编码音频和文本;然后通过双向交叉注意力机制(BCAM)建模细粒度交互;最后引入动态门控模块(GMM)和单模态保留门,自适应地平衡模态贡献并保留特异性信息。
  3. 与已有方法相比新在哪里:与简单的拼接或加权融合不同,该方法设计了双向交叉注意力以对称捕捉跨模态依赖,并创新性地集成了两组门控机制:一组(GMM)用于抑制跨模态对齐中的噪声,另一组(单模态保留门)用于显式保留原始模态特征,防止信息在融合中丢失。
  4. 主要实验结果如何:在ChaLearn First Impressions V2数据集上,该方法在大五人格特质预测的平均分上达到0.9010,优于文中对比的所有基线方法(如Sun et al. 0.8966, Li et al. 0.8967, Zhu et al. 0.8984)。消融实验证明,AttResNet比基础ResNet性能更优,BCAM和GMM的引入共同带来了性能提升(从0.8906提升至0.9010)。具体结果见下表。

表1:与现有方法的性能对比(ChaLearn First Impressions V2)

方法EXTNEUAGRCONOPN平均
Sun et al. [8]0.89540.89600.90150.88940.90080.8966
Li et al. [7]0.89530.89510.90100.89200.90020.8967
Zhu et al. [11]0.89330.90660.89390.89460.89280.8984
Ours0.89870.89990.90390.89970.90300.9010

表2:不同音频编码模块的消融实验

模态EXTNEUAGRCONOPN平均
ResNet0.89420.89420.90050.89120.89960.8959
AttResNet0.89720.89830.90070.89900.90070.8997

表3:BCAM和GMM模块的消融实验

BCAMGMMEXTNEUAGRCONOPN平均
××0.88970.89080.89400.88650.89230.8906
×0.89550.89650.89920.89770.90000.8979
0.89870.89990.90390.89970.90300.9010
  1. 实际意义是什么:该研究为基于语音和文本的人格分析提供了一个有效的多模态融合框架,对于人机交互、个性化服务等场景有潜在应用价值,尤其是在视频数据不可用的隐私敏感场景下。
  2. 主要局限性是什么:实验仅在一个公开数据集(ChaLearn V2)上进行验证,缺乏在更多样化数据集或真实场景下的泛化能力评估;论文未讨论模型的可解释性细节;未提供代码和模型权重。

25. Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models

7.0/10 | 前25% | #音频分类 | #迁移学习 | #生物声学 #多任务学习

👥 作者与机构

  • 第一作者:Chaoyue Niu(谢菲尔德大学计算机学院)
  • 通讯作者:未明确说明(论文第一作者邮箱为 c.niu@sheffield.ac.uk,最后一位作者 Ning Ma 邮箱为 n.ma@sheffield.ac.uk,可能是导师或通讯作者)
  • 作者列表:Chaoyue Niu(谢菲尔德大学计算机学院)、Veronica Rowe(谢菲尔德大学计算机学院)、Guy J. Brown(谢菲尔德大学计算机学院)、Heather Elphick(谢菲尔德儿童NHS基金会信托)、Heather Kenyon(谢菲尔德儿童NHS基金会信托)、Lowri Thomas(谢菲尔德儿童NHS基金会信托)、Sam Johnson(Passion for Life Healthcare)、Ning Ma(谢菲尔德大学计算机学院)

💡 毒舌点评

亮点:论文在方法设计上表现出临床问题驱动的巧思,例如将氧气去饱和的时间延迟作为物理先验知识融入多任务学习框架,使模型更符合呼吸生理学过程,这比简单地使用SpO2标签更具说服力。
短板:然而,论文最大的硬伤在于验证的“小作坊”模式——用15个孩子的数据做全部开发和评估,且缺乏外部验证集,这使得所有声称的“改进”都笼罩在严重的过拟合和选择偏倚风险之下,大大削弱了其临床应用的前景。

📌 核心摘要

  1. 问题:儿童阻塞性睡眠呼吸暂停(OSA)诊断困难,依赖儿童耐受性差的多导睡眠图,而基于声学的非侵入性筛查方法因儿童数据稀缺难以开发。
  2. 方法核心:提出一个迁移学习框架,将在大规模成人睡眠声学数据上预训练的CNN模型适配到儿童OSA检测任务中。关键创新是整合了氧饱和度(SpO2)信息,并建模了从呼吸事件发生到血氧下降的生理性时间延迟。
  3. 新意:系统比较了单任务与多任务学习、编码器冻结与全微调等策略。最核心的创新是将生理延迟(成人中位数为26秒)作为先验知识,通过全局延迟和针对每个儿童的个体化延迟两种方式集成到多任务学习中。
  4. 主要结果:在15晚儿童数据上的5折交叉验证显示,采用“多任务学习 + 全微调 + 个体化延迟”的最佳模型,其预测AHI与临床金标准AHI的平均绝对误差(MAE)为2.81,均方根误差(RMSE)为3.86。这显著优于不进行迁移学习的成人基线模型(MAE:4.45,RMSE:6.81)。关键对比数据如下表所示:
    模型配置(缩写说明)MAERMSE
    成人单任务无微调 (S-NF)4.456.81
    成人多任务无微调 (M-NF)3.646.30
    最佳:多任务全微调个体化延迟 (M-UF-SD)2.813.86
  5. 实际意义:证明了利用成人数据进行迁移学习,并整合生理学知识,可以有效缓解儿童数据稀缺问题,为开发低成本、居家友好的儿童OSA智能手机筛查工具提供了可行路径。
  6. 主要局限性:研究的核心局限在于验证数据集规模极小(仅15名儿童),缺乏外部验证,模型泛化能力存疑。此外,数据收集于单一中心,可能无法代表更广泛的儿童人群。


26. Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

7.0/10 | 前25% | #音频分类 | #对比学习 | #生物声学 #数据增强

👥 作者与机构

  • 第一作者:Heejoon Koo(伦敦大学学院,RSC LAB)
  • 通讯作者:June-Woo Kim(RSC LAB,光州科学技术院)
  • 作者列表:Heejoon Koo(伦敦大学学院,RSC LAB)、Miika Toikkanen(RSC LAB)、Yoon Tae Kim(RSC LAB,韩国科学技术院)、Soo Yong Kim(RSC LAB)、June-Woo Kim†(RSC LAB,光州科学技术院)

💡 毒舌点评

本文的亮点在于构建了一个系统性较强的去偏框架,将因果推理中的反事实估计与公平学习领域的对抗去偏相结合,并针对医疗数据特点设计了具体的元数据增强策略,逻辑自洽。短板是创新性主要体现在技术组合与特定领域适配上,且实验部分的广度有限,仅在一个主任务(呼吸音分类)和两个数据集上验证,缺乏对更通用音频任务或更复杂偏见场景的探讨。

📌 核心摘要

  1. 要解决的问题:多模态呼吸音分类模型易受患者元数据(如年龄、性别、采集设备)产生的虚假关联(伪相关)影响,导致在不同临床环境(分布外数据)下泛化性能显著下降。
  2. 方法核心:提出BTS-CARD框架,通过三重机制缓解偏见:1)基于因果图的反事实去偏,通过估计并减去自然直接效应(NDE)来抑制元数据对预测的直接虚假影响;2)对抗去偏,在NDE路径上引入梯度反转层,学习对位置和设备不敏感的特征表示;3)反事实元数据增强,在训练中用中性占位符替换敏感元数据,模拟干预以打破虚假依赖。
  3. 与已有方法相比新在哪里:首次将反事实推理与对抗去偏相结合用于多模态呼吸音分类。不同于简单地删除或掩码元数据,本文通过精心设计的反事实估计和对抗学习,旨在保留元数据中可能包含的有益间接信息,同时抑制其直接带来的偏见。
  4. 主要实验结果:在ICBHI(分布内)和SPRSound(分布外)数据集上,BTS-CARD在ICBHI Score(敏感性与特异性均值)指标上均优于强基线(如BTS)。具体而言,在分布外设置下,本文方法取得了61.96%的分数,显著高于BTS的53.42%。消融实验表明,三个组件对性能均有贡献,其中去除反事实元数据增强对分布外性能影响最大。参数分析显示,推理时去除直接效应(α=0)反而能获得最佳分布外性能。
  5. 实际意义:该方法提升了呼吸音分类模型在不同医院、不同设备间的泛化能力和鲁棒性,对于推动临床AI系统的实际部署具有积极意义。
  6. 主要局限性:研究的泛用性有待验证,仅在单一任务和特定数据集组合上进行评估。对抗去偏主要针对采集位置和设备,对年龄、性别等其他敏感属性的去偏效果在实验中未显示出优势,其普适性值得商榷。


27. PADAM: Perceptual Audio Defect Assessment Model

7.0/10 | 前50% | #音频分类 | #对比学习 | #预训练 #音频安全

👥 作者与机构

  • 第一作者:Alex Mackin, Pratha Khandelwal(共同贡献,论文中未明确区分第一作者)
  • 通讯作者:论文中未明确标注通讯作者
  • 作者列表:Alex Mackin (Amazon Prime Video), Pratha Khandelwal (Amazon Prime Video), Veneta Haralampieva (Amazon Prime Video), Michael Lau (Amazon Prime Video), Benoit Vallade (Amazon Prime Video), David Higham (Amazon Prime Video), Josh Anderson (Amazon Prime Video)

💡 毒舌点评

亮点:合成缺陷生成流程设计得相当扎实,考虑了从源到转码的整个制作管道,并针对七种缺陷给出了具体的生成算法和参数范围,这使得模型训练数据更贴近真实的工业场景。短板:模型在区分“技术缺陷”和“创意意图”上表现拙劣(生产评估中68.1%的“问题”实为创意意图),这暴露了纯信号层面检测的根本局限,也让“无参考感知评估”的“感知”二字打了折扣。

📌 核心摘要

  1. 问题:专业媒体内容中的音频缺陷(如削波、丢包、噪声)会严重影响用户体验,但传统检测方法难以应对多样化的创意内容和大规模处理流程。
  2. 方法核心:提出PADAM模型,一个三阶段的无参考感知评估架构:(1) 通过音视频对比学习训练一个通用的音频特征提取器;(2) 使用融合质量指标的软聚类对比学习,训练一个感知质量头;(3) 使用SVM分类器进行鲁棒的缺陷检测。为解决标注数据稀缺,设计了一套合成缺陷生成工作流,模拟七种常见音频缺陷及其在制作管道中的交互。
  3. 新在何处:主要在于将现有的对比学习、自监督预训练和合成数据生成技术,针对专业媒体音频缺陷检测这一特定工业场景进行了系统性的整合与适配。创新性地提出了融合多质量指标的“软分配”对比损失,以更好地处理质量评估的不确定性。
  4. 主要结果:在离线测试集(包含真实缺陷)上,PADAM的片段级F1分数达到0.66,标题级(经时间过滤后)F1分数达到0.75,显著优于Audio Artifacts、DNSMOS、NISQA、SRMR和SCOREQ等基线模型(见下表)。在17K标题的生产流量评估中,模型仅将0.8%(135个)标题标记为需人工审查,其中包含35个真实缺陷,人工审查的精确率为25.9%(若将创意意图也算作正确检测,则达94.1%)。

表2:与基线模型在离线测试集上的片段级性能对比

模型阈值精确率 (↑)召回率 (↑)F1分数 (↑)
AA-0.020.500.04
DNSMOS2.120.030.270.05
NISQA1.110.030.580.05
SRMR0.330.190.380.25
SCOREQ1.240.030.260.05
PADAM0.670.790.560.66

表3:PADAM组件消融研究及与基线模型在标题级(经时间过滤)的性能对比

模型滤波器阈值精确率 (↑)召回率 (↑)F1分数 (↑)
基线模型
DNSMOS100s/100s2.120.670.200.31
NISQA120s/120s1.110.040.200.07
SRMR100s/100s0.280.430.300.35
SCOREQ20s/20s0.990.010.100.02
PADAM消融
+特征提取器45s/45s0.630.200.800.32
+质量头90s/110s0.620.570.400.47
+SVM分类器20s/80s0.671.000.600.75
  1. 实际意义:该模型已在Amazon Prime Video生产环境中部署,能有效辅助内容操作员进行质量审查,大幅降低人工检查范围。
  2. 主要局限:模型最大的软肋是无法区分音频缺陷和具有相似声学特征的创意意图(如雨声与噪声)。此外,离线评估数据集规模较小,且仅覆盖了七种缺陷中的三种。

28. Enhanced Generative Machine Listener

7.0/10 | 前25% | #音频分类 | #生成模型 | #深度学习 #音频编码

👥 作者与机构

  • 第一作者:未说明
  • 通讯作者:未说明
  • 作者列表:Vishnu Raj(Dolby Laboratories)、Gouthaman KV(Dolby Laboratories)、Shiv Gehlot(Dolby Laboratories)、Lars Villemoes(Dolby Laboratories)、Arijit Biswas(Dolby Laboratories)

💡 毒舌点评

亮点:论文将主观听测分数建模问题,从传统的单点预测提升到对分数概率分布(Beta分布)的建模,这一理论视角的升级更为本质,能自然处理分数的边界和偏态分布。短板:实验虽全面,但核心创新是改进损失函数(Beta loss)和数据扩展,缺乏对模型架构本身(如Inception块)的深入剖析或创新,且置信区间的预测价值未被定量验证,略显“画饼”。

📌 核心摘要

  1. 问题:自动化的客观音频质量评估模型通常输出单一分数,无法捕捉主观评价中的内在不确定性和变异性,尤其是在边界或歧义情况下。
  2. 核心方法:提出GMLv2,一个基于Beta分布的生成式模型。它通过神经网络预测Beta分布的形状参数(α, β),从而联合估计期望的MUSHRA分数(分布均值)和不确定性(分布方差/形状)。
  3. 创新点:相较于使用高斯/逻辑斯蒂分布的GMLv1,Beta分布天然定义在[0,1]区间,完美匹配归一化的MUSHRA分数,无需后处理修正,且其灵活的形状能更好地拟合有偏或双峰的听众评分分布。
  4. 主要实验结果:在8个涵盖传统编解码器(AAC, Dolby AC-4等)和神经编解码器(Encodec, DAC等)的测试集上,GMLv2在皮尔逊相关性(Rp)、斯皮尔曼相关性(Rs)和离群点率(OR)上均显著优于PEAQ、ViSQOL-v3和重新训练后的GMLv1(见下表)。聚合Rp/Rs达到0.9526/0.9205,OR降至0.0964。 表1:主要实验结果对比
    评测集PEAQ (Rp/Rs)ViSQOL (Rp/Rs)GMLv1* (Rp/Rs/OR)GMLv2 (Rp/Rs/OR)
    USAC-10.47/0.400.81/0.840.91/0.90/0.0450.92/0.90/0.045
    USAC-20.42/0.200.77/0.780.89/0.84/0.0670.93/0.89/0.067
    USAC-30.56/0.620.82/0.900.92/0.92/0.0460.94/0.93/0.046
    Binaural 10.75/0.790.90/0.930.95/0.93/0.1820.98/0.94/0.182
    Binaural 20.42/0.560.96/0.850.98/0.91/0.0120.99/0.91/0.012
    NAC Mono0.34/0.310.89/0.860.92/0.94/0.8330.97/0.94/0.071
    NAC Stereo0.58/0.400.82/0.890.93/0.90/0.5890.95/0.93/0.078
    ODAQ0.71/0.650.70/0.800.81/0.81/0.8170.83/0.83/0.271
    聚合0.56/0.520.85/0.860.93/0.90/0.7250.95/0.92/0.096
  5. 实际意义:为音频编码(特别是神经编解码器)的研发提供了一个更可靠、可解释的自动化质量评估工具,能够量化预测的不确定性,加速评估迭代。
  6. 主要局限性:(1) 论文中未提供模型权重和代码开源计划,复现依赖外部资源;(2) 虽然模型预测了分布参数,但文中明确指出“置信区间的定量评估留待未来工作”;(3) 模型架构主体沿用前作的Inception块,创新主要集中在损失函数和训练数据扩展。


29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

7.0/10 | 前25% | #音频分类 | #信号处理 | #实时处理 #多模态模型

👥 作者与机构

  • 第一作者:Sina Miran(完成主要工作时隶属Starkey Hearing Technologies,现隶属于Apple Inc.)
  • 通讯作者:Henning Schepker(Starkey Hearing Technologies, 邮箱:henning.schepker@starkey.de)
  • 作者列表:
    1. Sina Miran(Starkey Hearing Technologies, Eden Prairie, MN, US; 现为 Apple Inc.)
    2. Henning Schepker(Starkey Hearing Technologies, Eden Prairie, MN, US)
    3. Ivo Merks(现为 Chromatic, 完成工作时隶属Starkey Hearing Technologies)
    4. Martin McKinney(Starkey Hearing Technologies, Eden Prairie, MN, US)

💡 毒舌点评

亮点:巧妙地将惯性传感器(IMU)这一“非听觉”模态引入声反馈消除,利用头部运动与声学路径变化的相关性来动态调整算法参数,在稳态性能上确实优于纯音频基线方法,思路新颖且实用。
短板:实验仅在5名受试者和有限的几种日常活动上进行,且最终的端到端AFC性能提升(如图3所示)并非全面碾压所有基线,尤其在外部物体导致路径变化但头部未动时存在检测延迟,其普鲁棒性和泛化能力仍需在更大规模、更复杂的现实场景中验证。

📌 核心摘要

  1. 问题:助听器中的声反馈(啸叫)限制了最大可用增益并产生伪影。自适应反馈消除算法的步长调整是关键,传统方法仅依赖音频信号,易受输入音频特性影响,在稳态(无反馈路径变化)下性能受限。
  2. 方法核心:提出利用集成在助听器中的惯性测量单元(IMU)检测头部运动,当检测到强加速度(预示可能发生反馈路径变化)时,增大自适应滤波器(基于PEM-NLMS)的步长以实现快速收敛;否则使用小步长以获得更准确的稳态估计。
  3. 与已有方法相比新在哪里:突破了传统AFC步长调整仅依赖单一音频信息的局限,开创性地引入多模态(音频+运动)信息,通过物理运动信号为算法提供更直接、更可靠的反馈路径变化“预警”。
  4. 主要实验结果:
    • 在五种日常活动(咀嚼、打电话、戴帽子、摇头、站坐)的实测数据上,IMU信号检测反馈路径变化的AUC值在0.81-0.87之间(见图2),表明检测可靠。
    • 在端到端AFC性能对比中(归一化失调 MIS),IMU-AFC在咀嚼和打电话等路径变化场景下能快速跟踪(接近“快速滤波器”性能),而在稳态时又能获得低失调(接近“慢速滤波器”性能),综合表现优于纯音频的变步长方法(VSS)和影子滤波器方法(Shadow)(见图3)。
  5. 实际意义:为助听器等可穿戴设备的信号处理提供了新的多模态融合范式,有望提升用户体验,减少啸叫,增加舒适可用的增益。
  6. 主要局限性:检测延迟问题(当外部物体移动导致路径变化但头部未及时运动时);实验规模有限;最终性能提升并非在所有条件下都显著;需要额外的IMU硬件。

30. AFT: An Exemplar-Free Class Incremental Learning Method for Environmental Sound Classification

7.0/10 | 前25% | #音频分类 | #知识蒸馏 | #迁移学习 #低资源

👥 作者与机构

  • 第一作者:Xinyi Chen(华南理工大学, 暨黄埔超级机器人研究院)
  • 通讯作者:Yang Xiao(墨尔本大学)
  • 作者列表:Xinyi Chen(华南理工大学, 暨黄埔超级机器人研究院)、Xi Chen(香港中文大学(深圳))、Zhenyu Weng(华南理工大学, 暨黄埔超级机器人研究院)、Yang Xiao(墨尔本大学)

💡 毒舌点评

本文巧妙地将特征空间变换的思想引入无样例增量学习,通过主动对齐新旧特征来缓解遗忘,比单纯的知识蒸馏更直接,实验结果也确实漂亮,在特定任务上带来了稳定的性能提升。然而,论文对AFT网络本身的参数量和计算开销避而不谈,对于一个旨在部署于“边缘设备”的方法而言,这种“选择性失明”有点像是在画饼时省略了面粉的成本。

📌 核心摘要

  1. 要解决什么问题:在环境声分类的类增量学习中,模型学习新声音类别时会灾难性地遗忘旧类别知识。现有无样例方法(不存储历史数据)在处理声学特征相似的类别(如“电钻”和“手提钻”)时,由于特征空间发生漂移,会导致严重的识别混淆。
  2. 方法核心是什么:提出声学特征变换(AFT)框架,其核心是一个可训练的AFT网络(M),用于将上一阶段模型(旧模型)提取的特征映射到当前阶段(新模型)的特征空间中,从而直接对齐新旧特征,缓解特征漂移。同时,采用“选择性压缩”策略,通过筛选每个类别的高质量原型特征来构建更清晰、鲁棒的类边界。
  3. 与已有方法相比新在哪里:不同于传统知识蒸馏(LWF)仅约束模型输出或传统正则化方法(EWC, SI)约束参数,AFT主动地对特征表示空间进行变换和对齐,是一种更直接、更针对特征漂移问题的解决方案。同时,结合了选择性特征压缩来增强原型特征的代表性。
  4. 主要实验结果如何:在UrbanSound8K和DCASE 2019 Task 1两个数据集上,以TCResNet-8为骨干网络,AFT方法取得了最优性能。主要结果对比如下:
    方法UrbanSound8K ACC(%)UrbanSound8K BWTDCASE 2019 Task 1 ACC(%)DCASE 2019 Task 1 BWT
    Finetune (下界)26.700-0.36822.900-0.267
    EWC29.284-0.35823.472-0.264
    SI42.267-0.26426.802-0.233
    LWF52.285-0.19846.965-0.097
    LDC56.703-0.15748.867-0.104
    AFT (本文)60.464-0.14752.762-0.077
    Joint (上界)93.204-66.725-
    AFT相比最强基线LDC,在UrbanSound8K上提升了3.76个百分点,在DCASE 2019 Task 1上提升了3.90个百分点,同时BWT(衡量遗忘程度)也有改善。消融实验证明,AFT模块和选择性压缩(POS)模块都对最终性能有贡献。t-SNE可视化图(图1, 图5)直观展示了AFT如何纠正特征漂移,恢复清晰的类边界。
  5. 实际意义是什么:为需要在隐私敏感场景(如无法保存用户音频数据的边缘设备)下持续学习新环境声音的应用(如野生动物监测、智能家居)提供了一种有效的解决方案。
  6. 主要局限性是什么:1) 论文未提供AFT网络自身的详细结构、参数量及其带来的额外计算成本分析,这对于声称适用于“边缘设备”的方法是关键的缺失信息。2) 实验设置相对简单(固定5个任务),未探讨任务数量、类别相似度变化等更复杂场景下的性能。3) 未与最新的无样例增量学习方法进行对比。

31. Transferable Audio Lottery Tickets: Gradient Accumulation for Extreme Sparsity

7.0/10 | 前25% | #音频分类 | #迁移学习 | #模型压缩 #鲁棒性

👥 作者与机构

  • 第一作者:Hyunjae Kim(KAIST 文化技术研究生院)
  • 通讯作者:未明确指定,论文通讯邮箱列表包含 {present, juhan.nam, kmlee2}@kaist.ac.kr
  • 作者列表:Hyunjae Kim(KAIST 文化技术研究生院)、Juhan Nam(KAIST 文化技术研究生院)、Kyung Myun Lee(KAIST 文化技术研究生院;KAIST 数字人文与计算社会科学学院)

💡 毒舌点评

亮点:论文提出了一个简单而有效的梯度累积策略(GA-LTH),显著提升了在极端稀疏(<1%参数保留)条件下发现可训练“中奖票”的能力,并验证了这些子网络在语音、音乐、环境声等不同音频子任务间的可迁移性,为音频模型的超轻量化部署提供了新思路。短板:技术贡献更侧重于对训练过程的调优而非根本性理论突破,且只在ResNet18上验证,对于更复杂的模型(如Transformer)的适用性未做探讨,理论解释相对薄弱。

📌 核心摘要

  1. 问题:大型神经网络在音频领域性能优异但计算负担重,轻量化需求迫切。彩票假设(LTH)揭示了稀疏子网络的潜力,但其在跨音频子领域(如语音、音乐、环境声)的有效性和如何发现极端稀疏的“中奖票”尚未被充分探索。

  2. 方法核心:提出在LTH的子网络搜索(剪枝)阶段引入类似动量的梯度累积(GA-LTH)。该策略通过额外累加历史梯度来增强极稀疏网络的梯度信号,从而更稳定地找到可训练子网络。

  3. 与已有方法相比新在哪里:首次系统性地在三大音频子领域验证LTH,并提出GA-LTH策略。与传统LTH和一次性剪枝(UMP, LMP)相比,GA-LTH在极端稀疏(剩余参数<1%)时能发现不发生层崩溃、性能鲁棒的子网络,并证明了这些子网络可跨子领域迁移。

  4. 主要实验结果:

    • 在三个源数据集(ESC-50, Speech Commands, GTZAN)上,GA-LTH在超过99%剪枝率后,性能下降远小于标准LTH和基线方法,在ESC-50上甚至以0.08%的参数保留了接近密集模型的精度(见图2a)。
    • 迁移实验(表1)显示,在极端稀疏(剩余0.13%)条件下,从ESC-50迁移的GA-LTH子网络在UrbanSound8k等目标数据集上仅损失2-5%的绝对精度,而其他方法性能崩溃至随机水平。
    源数据集目标数据集GA-LTH (0.13%)LTH (0.13%)UMP (0.13%)LMP (0.13%)
    ESC-50UrbanSound8k66.2%12.0%12.0%13.2%
    Speech CommandsLibriCount50.5%8.4%8.4%9.9%
    GTZANNsynth34.3%1.3%1.4%1.1%
    (注:数值为分类绝对精度)

    图2: 梯度累积效果

    • 图2(a)显示GA-LTH在极高稀疏度下性能显著优于其他方法。图2(c)的热力图对比表明,标准LTH会出现层崩溃(黑色区域),而GA-LTH保持了更均衡的层稀疏度分布。
  5. 实际意义:证明了通过改进训练策略,可以在音频分类任务中找到极端稀疏且可跨任务迁移的模型结构,为在资源受限的边缘设备上部署多种音频分析模型(如同时用于语音唤醒和环境声识别)提供了可能性。

  6. 主要局限性:研究局限于ResNet18架构和特定的音频分类任务,未在语音识别、生成等任务或更复杂的模型上验证。梯度累积策略的理论理解有待深化,且最优衰减因子α可能因任务而异。


32. A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习

👥 作者与机构

  • 第一作者:Jingkai Cao(东华大学计算机科学与技术学院)
  • 通讯作者:Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院)
  • 作者列表:Jingkai Cao(东华大学计算机科学与技术学院),Shicheng Ding(Tabor Academy, Massachusetts, USA),Shuai Yu(大连理工大学信息与通信工程学院),Wei Li(复旦大学计算机科学与技术学院)

💡 毒舌点评

亮点:该工作巧妙地利用LLM(Gemini 2.5)生成细粒度的声学语义描述,构建知识库,以此“丰富”简单的类别标签,从而更精准地对齐音频与文本特征,有效缓解了多模态学习中常见的信息不对称问题。 短板:方法严重依赖于外部LLM生成的文本质量,且整个推理流程(特别是LKR模块)引入了额外的检索和融合计算开销。最致命的是,代码和模型均未开源,这极大限制了其在实际研究社区中的可验证性和影响力。

📌 核心摘要

  1. 问题:现有的水声目标识别(UATR)方法,无论是纯声学分类器还是早期的多模态方法,都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本(如“这是一艘货船的声音”),无法充分描述音频信号中丰富的细节,导致文本引导能力不足,模型难以学到更具判别性的声学特征。
  2. 方法核心:本文提出了一个LLM驱动的声学语义增强框架(ASE-CLAP)。核心在于引入LLM驱动的知识检索(LKR)模块,利用LLM为每类船舶生成多条详细的声学特性描述,并编码成“声学-语义知识库”。在推理时,为每个类别检索最相关的语义描述并融合,生成比原始标签更丰富的“语义原型”。随后,通过多层次对比学习(全局级+原型级),将音频嵌入与这些细化的文本表示进行对齐。
  3. 创新性:与已有工作相比,新在:(1)首次将LLM生成的知识显式引入水声目标识别的文本表示中,实现了从“标签”到“知识增强原型”的升级;(2)设计了多层次对比学习机制,同时对齐全局类别信息和细粒度声学语义,增强了特征判别力。
  4. 实验结果:在DeepShip和ShipsEar两个公开数据集上,ASE-CLAP均取得了最优性能。例如,在DeepShip数据集上,OA(总体准确率)达到84.5%,超越了最强的多模态基线(MF-UATR, 79.3%)5.2个百分点,也显著优于纯声学模型(MHT-Transformer, 78.8%���。消融实验表明,LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示,本方法学得的嵌入空间聚类更紧凑、类间分离度更高。
  5. 实际意义:该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式,证明了引入领域特定语义知识的价值,对水下声学感知、海洋监测等应用有积极意义。
  6. 主要局限性:(1)对生成高质量语义描述的LLM存在强依赖;(2)LKR模块在推理时引入了额外的检索和融合计算复杂度;(3)论文未公开代码、模型和生成描述的具体提示词,可复现性受限。


33. S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

7.0/10 | 前25% | #音频分类 | #知识蒸馏 | #自监督学习 #模型压缩

👥 作者与机构

  • 第一作者:Mohammed Ali El Adlouni(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)
  • 通讯作者:未明确说明(论文中注明与Aurian Quelennec贡献相等,Slim Essid为†标注)
  • 作者列表:Mohammed Ali El Adlouni(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)、Aurian Quelennec(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)、Pierre Chouteau(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)、Geoffroy Peeters(LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)、Slim Essid(NVIDIA,论文工作完成于LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France)

💡 毒舌点评

亮点:这篇论文精准地戳中了当前音频AI领域一个真实的痛点——强大的自监督基础模型因过于庞大而难以落地,并为此提出了一种简洁、通用且有效的“仅嵌入”蒸馏框架,填补了方法论上的空白。 短板:方法虽然巧妙,但深度有限,更像是一次成功的工程适配而非理论突破;对为何仅对齐最终嵌入就足以传递复杂知识的机制缺乏深入探讨,且实验中部分消融结果(如BDS的不一致性)未能得到令人信服的解释。

📌 核心摘要

  1. 问题:当前最先进的通用音频自监督基础模型(如M2D, MATPAC++)参数量庞大(数亿级),推理成本高,难以部署在移动端等资源受限设备上。
  2. 方法核心:提出S-SONDO,一个自监督知识蒸馏(KD)框架。其核心创新在于仅使用教师和学生的最终输出嵌入进行对齐,无需类标签(logits)或中间层特征,也无需特定的模型架构假设。
  3. 与已有方法对比的新颖性:这是首个针对通用音频、且完全依赖嵌入进行自监督蒸馏的框架。相比传统KD(需logits)和部分SSL KD(依赖中间层或特定架构),它更灵活、普适。
  4. 主要实验结果:在多个音频任务上验证有效。将86M参数的教师模型(M2D/MATPAC++)蒸馏到1.4M-8.7M参数的学生模型,在4/6种师生组合中,蒸馏后的学生性能超过了直接用监督数据训练的同类学生模型。最强组合(MATPAC++ → MobileNetV3)的学生保留了教师平均性能的96.4%,同时参数量减少约30倍。消融实验表明,余弦损失(Cosine Loss)效果最优,基于聚类的平衡数据采样(BDS)对小容量学生有益但效果不稳定。
  5. 实际意义:为将强大的音频基础模型高效部署到边缘设备提供了一条可行路径,降低了高性能音频AI的应用门槛。
  6. 主要局限性:1)对BDS方法在不同场景下效果差异的原因分析不足;2)实验主要集中在音频分类任务,对更复杂的音频理解任务的泛化性未验证;3)对仅用最终嵌入就能有效蒸馏的理论机制解释较浅。

34. Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models

7.0/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #实时处理

👥 作者与机构

  • 第一作者:未说明(论文作者列表无排序信息)
  • 通讯作者:未说明
  • 作者列表:Guilherme Zucatelli, Ricardo Barioni, Gabriela Dantas(SiDi - Intelligence & Innovation Center, S˜ao Paulo, Brazil)

💡 毒舌点评

亮点在于巧妙地将复杂、难以实时化的非平稳性统计指标(INS)“蒸馏”成易于学习的二进制标签,并训练出专用轻量模型(NANSA),实现了速度上近4000倍的飞跃。短板则在于,这套方法的“地基”——HLC标签的生成——本身仍然依赖那个被诟病“计算不友好”的原始INS算法,颇有“用更累的方法证明自己可以轻松”的悖论感,且任务场景相对狭窄。

📌 核心摘要

  1. 要解决什么问题? 传统的声学非平稳性客观评估方法(如INS)计算复杂度高,需要生成合成参考信号并进行多尺度频谱比较,难以应用于实时处理或资源受限的设备。
  2. 方法核心是什么? 提出硬标签准则(HLC)算法。该算法将INS在不同观测尺度下的值划分为几个区域,通过多数投票为整个信号生成一个二值(平稳/非平稳)标签。利用此标签作为监督信号,训练了专用的声学非平稳性评估网络(NANSA及其轻量版NANSALW)。
  3. 与已有方法相比新在哪里? 首次提出一种客观的、自动化的准则(HLC)将多尺度的INS连续值转化为可用于监督学习的全局标签。基于此,设计了专门针对非平稳性评估的轻量级Transformer模型(NANSA),避免了通用大模型的冗余计算。
  4. 主要实验结果如何? 在AudioSet、DCASE和FSD50K三个数据集上,NANSA模型的分类准确率最高达到94.25%(比最强基线AST高1.8个百分点),EER(等错误率)最低降至2.68%(比最强基线降低49.1%)。最关键的是,NANSA推理速度比传统INS算法快约466倍,NANSALW快约3957倍。 关键实验数据表格:
    模型参数量 (M)MMACsAudioSet Acc (%)AudioSet EER (%)AudioSet F1DCASE Acc (%)DCASE EER (%)DCASE F1FSD50K Acc (%)FSD50K EER (%)FSD50K F1
    PANNs81.04173690.829.250.92598.276.370.57892.527.210.931
    AST94.041678592.377.920.93898.205.480.59493.866.260.943
    PaSST83.351502192.028.240.93698.355.260.61294.185.800.948
    NANSA5.5058594.255.870.95499.012.680.80195.414.590.958
    NANSALW0.668893.276.730.94698.892.910.78094.934.950.955
  5. 实际意义是什么? 为声学信号非平稳性评估提供了一种高效、可部署的替代方案,使其能够应用于实时语音处理、边缘计算设备等场景,支撑基于非平稳性的下游音频任务。
  6. 主要局限性是什么? 1) HLC标签生成过程本身仍然依赖计算密集的传统INS方法,只是将计算压力转移到了离线标签生成阶段。2) 方法丢失了INS原本提供的多尺度、连续的平稳性信息,仅输出一个二值标签。3) 论文未提供开源代码或详细复现指南。


35. Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features

7.0/10 | 前25% | #音频分类 | #多模态模型 | #预训练 #自监督学习

👥 作者与机构

  • 第一作者:Steffen Freisinger(Technische Hochschule Nürnberg, Keßlerplatz 12, 90489 Nürnberg, Germany)
  • 通讯作者:未说明(论文所有作者邮箱格式均为firstname.lastname@th-nuernberg.de,未指定通讯作者)
  • 作者列表:Steffen Freisinger(Technische Hochschule Nürnberg)、Philipp Seeberger(Technische Hochschule Nürnberg)、Tobias Bocklet(Technische Hochschule Nürnberg)、Korbinian Riedhammer(Technische Hochschule Nürnberg)

💡 毒舌点评

亮点:该方法巧妙地将音频特征的提取从“整句”聚焦到“句子边界”的短暂窗口(Siamese设计),并证明这种针对“边界”的细粒度声学特征比粗粒度的句子特征对主题分割更有效,是一个设计合理且经实验证实的洞见。 短板:尽管实验表明音频特征有效,但论文对于“具体是哪些声学线索(如停顿、音高变化、音效)被模型学到并用于分割”缺乏更深入的分析或可视化,使得“音频为什么有用”的机理部分稍显薄弱,更多停留在经验验证层面。

📌 核心摘要

这篇论文旨在解决多模态内容(如视频、播客)中自动主题分割的挑战,特别是现有方法未能充分利用音频信息的问题。核心方法是提出一个名为MultiSeg的多模态模型,该模型联合微调了一个文本编码器(MiniLM)和一个孪生音频编码器(如wav2vec 2.0),关键创新在于将音频特征的提取聚焦于句子边界的短时窗口,以捕捉更相关的声学提示(如语调变化、场景切换音效)。与仅使用更大文本模型(MiniSeg+)或多模态基线(使用冻结的L3-Net编码整句音频)相比,MultiSeg在YouTube视频数据集(YTSEG)上取得了显著的性能提升(F1从48.83提升至52.98)。该模型还表现出对ASR转录文本噪声的更强鲁棒性,并在葡萄牙语和德语的讲座数据集上展示了良好的跨语言泛化能力。实际意义在于为音视频内容的理解与导航提供了更可靠的技术基础。主要局限性在于,模型对音频特征的具体利用方式仍较“黑盒”,且性能提升可能受限于边界窗口内声学线索的显著性。

主要实验结果表格:

方法文本特征音频特征F1 ↑Prec ↑Rec ↑Pk ↓B ↑
主要结果 (YTSEG测试集)
Cross-segment BERT [5]--48.41 ± 0.9446.91 ± 1.1350.02 ± 1.1026.47 ± 0.4840.72 ± 0.94
MiniSeg+ (文本增强)--48.83 ± 0.9651.87 ± 1.1346.13 ± 1.0925.91 ± 0.4641.17 ± 0.99
MiniSeg + L3-Net-L3-Net (整句)47.61 ± 0.8947.58 ± 0.8447.65 ± 1.1827.17 ± 0.4837.75 ± 0.99
MultiSeg (本文方法)MiniLMwav2vec 2.0 (边界)52.98 ± 0.9352.77 ± 0.8953.19 ± 1.1823.93 ± 0.5045.09 ± 1.02
ASR模型 (WER%)MiniSeg+ (∆ F1)MultiSeg (∆ F1)MiniSeg+ (∆ B)MultiSeg (∆ B)
鲁棒性测试 (WER增长下的性能下降)
Oracle (原始文本)48.83 (基准)52.98 (基准)41.17 (基准)45.09 (基准)
Whisper tiny (24.88%)-5.78-2.57-6.27-3.72
Vosk-small (38.13%)-12.75-5.83-13.23-7.08
数据集语言模型F1 ↑B ↑
跨语言评估
VIDEOAULA葡萄牙语Ml. MiniSeg+30.39 ± 2.6818.85 ± 2.01
VIDEOAULA葡萄牙语Ml. MultiSeg50.59 ± 3.1433.58 ± 2.97
LECTUREDE德语Ml. MiniSeg+38.24 ± 3.1525.72 ± 2.97
LECTUREDE德语Ml. MultiSeg45.17 ± 3.0329.78 ± 3.22

36. Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

6.5/10 | 前50% | #音频分类 | #时频分析 | #水下声学目标检测 #可学习前端

👥 作者与机构

  • 第一作者:未说明(论文中未明确标注“第一作者”,仅按署名顺序首位列出)。
  • 通讯作者:Xinwei Luo(东南大学水声信号处理教育部重点实验室)。
  • 作者列表:Lu Chen(东南大学水声信号处理教育部重点实验室、新加坡国立大学计算学院)、Xinwei Luo(东南大学水声信号处理教育部重点实验室)、Kenji Kawaguchi(新加坡国立大学计算学院)、Hanlu Zhou(东南大学水声信号处理教育部重点实验室)。

💡 毒舌点评

这篇论文的亮点在于它非常务实地找到了一个“中间地带”——在保留STFT这个稳健先验的基础上,只让Mel滤波器组和动态压缩(PCEN)变得可学习,从而以极低的计算成本换取了在非目标干扰下的性能提升,这种工程上的权衡很聪明。然而,其短板也同样明显:论文只和几个非常基础的固定特征(如STFT、log-Mel)做对比,却没有与该领域(水声检测)近年来提出的更强大的深度学习模型直接竞争,这让人对其“优越性”的幅度和实际应用价值打上一个问号。

📌 核心摘要

  1. 问题:水下声学目标检测面临非目标船只信号干扰的挑战,传统的固定音频特征(如STFT、log-Mel谱)缺乏自适应能力,导致检测性能下降。
  2. 方法:提出learnMel前端,它在STFT基础上,将Mel滤波器组参数化为可训练的权重,并用可学习的通道能量归一化(PCEN)替代固定对数压缩。learnMel与后端的TResNet检测模型联合优化。
  3. 新颖性:不同于完全从头学习的前端(如LEAF),learnMel保留了STFT框架的稳定性,仅优化关键的频域投影和动态压缩环节,在灵活性和计算成本之间取得了平衡。
  4. 主要结果:在ShipsEar数据集上,PCEN-learnMel方法的ROC-AUC(94.504±0.207%)和精确度(85.65±1.65%)均优于所有固定特征基线。其计算开销(0.25 MB特征内存)与log-Mel相近,远低于LEAF(156.25 MB)。在DeepShip数据集上,所有方法表现均近乎完美(AUC > 99.99%),但learnMel仍取得了最低的FAR(0.07%)。
  5. 实际意义:为水下声学信号处理提供了一种轻量且鲁棒的前端解决方案,能有效抑制非目标干扰,提升检测可靠性。
  6. 局限性:研究仅聚焦于“检测”这一二分类任务,未探讨目标识别等更复杂任务;对比基线有限,未与当前水声检测领域的SOTA深度学习模型对比;在ShipsEar上,PCEN-learnMel的检测概率(PD)略低于PCEN-Mel,显示可学习性在某些情况下可能引入轻微不稳定。

37. Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学

👥 作者与机构

  • 第一作者:Xiaolei Xu(谢菲尔德大学计算机科学学院)
  • 通讯作者:未说明
  • 作者列表:Xiaolei Xu(谢菲尔德大学计算机科学学院)、Chaoyue Niu(谢菲尔德大学计算机科学学院)、Guy J. Brown(谢菲尔德大学计算机科学学院)、Hector Romero(Passion for Life Healthcare)、Ning Ma(谢菲尔德大学计算机科学学院)

💡 毒舌点评

这篇论文的亮点在于其开创性思路:首次尝试从夜间呼吸声这一单一模态中,直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号,从而为无感的睡眠监测扫清了一个关键障碍。然而,其短板也相当明显:呼吸努力的估计精度(CCC 0.48)仅达到中等相关性,这直接导致了后续融合策略带来的性能提升幅度有限,甚至在某些关键阈值(如AHI≥30)上不如直接使用音频特征,让人对“估计信号”的实际增益打个问号。

📌 核心摘要

本文针对阻塞性睡眠呼吸暂停症(OSA)诊断依赖复杂多导睡眠图(PSG)且普及困难的问题,提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架:首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号,然后冻结该模型,提取其潜在表征作为“呼吸努力嵌入”,与另一个音频编码器提取的声学嵌入在潜在空间进行融合,最终用于OSA事件检测和严重程度分类。与已有方法相比,其新意在于首次实现了从音频直接推断呼吸努力,摆脱了对额外传感器的依赖,维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行,结果显示:呼吸努力估计器达到0.48的平均CCC;融合估计的呼吸努力后,在AHI阈值5(检测轻度OSA)时,敏感性达到0.88,优于音频基线(0.86)和使用真实努力信号的“Oracle”系统(0.81),AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括:呼吸努力的估计精度受限于复杂家庭环境噪声,导致融合收益有限;缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。


38. Thinking While Listening: Simple Test Time Scaling for Audio Classification

6.5/10 | 前50% | #音频分类 | #测试时缩放 | #预训练 #大语言模型

👥 作者与机构

  • 第一作者:Prateek Verma(斯坦福大学电气工程系)
  • 通讯作者:未说明
  • 作者列表:Prateek Verma(斯坦福大学电气工程系)、Mert Pilanci(斯坦福大学电气工程系)

💡 毒舌点评

本文将LLM领域的“测试时缩放”概念移植到音频分类,思路清晰,用轻量级的GPT-2微调击败百亿参数大模型的结果也颇具启发性。但遗憾的是,论文在方法细节的深度打磨和与最新技术的全面比较上显得有些“想得不够深”,比如缺乏不同音频编码器、不同聚合策略的系统消融,更像是一个概念验证报告而非坚实的技术突破。

📌 核心摘要

  1. 问题:论文旨在探索如何将大型语言模型中的“推理”和“测试时缩放”能力引入音频分类任务,在模型权重固定的情况下,仅通过增加推理时的计算来提升性能。
  2. 方法核心:提出“边听边想”框架。首先,利用预训练的音频模型(如AST, YAMNet)对输入音频进行补丁级(如500ms)的因果预测,通过多次采样为每个补丁生成一个包含类别和置信度的“推理轨迹”。然后,将这个轨迹输入一个冻结的大语言模型(如GPT-2, GPT-OSS-20B),利用其推理能力聚合轨迹信息,做出最终分类。
  3. 与已有方法相比新在哪里:传统音频分类管道(如AST)直接输出单个概率向量。本文方法在推理时构建了动态的、基于证据累积的“推理链”,并将分类任务转化为LLM可以处理的序列推理问题。其创新在于将音频模型的输出(而非原始音频)作为LLM的推理输入,并利用测试时缩放来提升性能。
  4. 主要实验结果:在ESC-50数据集(单标签)上,冻结的AST模型通过增加采样轨迹长度(从1到32)并用GPT-2聚合,准确率从79.3%提升至88.3%,接近全量微调的88.8%。在FSD-50K数据集(多标签)上,增加采样轨迹长度同样能持续提升AUC。论文中关键实验结果表格如下:

表1: ESC-50数据集上,基于YAMNet骨干网络,不同采样长度下零样本文本推理模型的准确率对比

模型采样长度/输出预测12416
GPT-OSS 20B53.558.7557.661.25
Qwen-3 14B52.355.557.254.25

表2: ESC-50数据集上,使用不同温度/采样轨迹长度,冻结AST骨干网络与GPT-2的准确率对比

温度模型采样长度 / op prediction1241632
1.0YAMNet72.077.480.883.884.5
1.0AST79.383.586.387.388.3
1.2AST76.884.885.387.087.0
1.5AST72.580.582.886.588.5
2.0AST53.565.377.384.883.8
1.0ASTFull Model Finetune [17]88.8
  1. 实际意义:为在部署后持续提升固定音频模型性能提供了一种新范式,即通过增加推理时的计算(多次采样和LLM推理)而非重新训练模型。轻量级方案(微调GPT-2嵌入层)的发现对资源受限场景有参考价值。
  2. 主要局限性:1) 方法引入了额外的LLM推理步骤,增加了延迟和计算成本;2) 对LLM的依赖性强,其推理能力直接决定最终性能;3) 实验部分缺乏对关键组件(如不同聚合策略、轨迹长度增长上限)的深入消融;4) 论文未提供代码和模型,可复现性差。

39. Snore Sound Classification Based on Physiological Features and Adaptive Loss Function

6.5/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #生物声学

👥 作者与机构

  • 第一作者:Hongxi Wu(中国科学院声学研究所、中国科学院大学)
  • 通讯作者:Xueshuai Zhang(中国科学院声学研究所、中国科学院大学),Qingwei Zhao(中国科学院声学研究所、中国科学院大学)
  • 作者列表:Hongxi Wu(中国科学院声学研究所、中国科学院大学)、Xueshuai Zhang(中国科学院声学研究所、中国科学院大学)、Shaoxing Zhang(北京大学第三医院)、Qingwei Zhao(中国科学院声学研究所、中国科学院大学)、Yonghong Yan(中国科学院声学研究所、中国科学院大学)

💡 毒舌点评

亮点:将鼾声病理生理机制(气道阻塞导致的高能爆发、不稳定频谱)巧妙地转化为具体的音频特征(STD、SIM)和损失函数权重设计,使模型具有明确的医学可解释性,而非黑箱。 短板:整体贡献更像一个精心设计的工程流水线,而非具有广泛影响力的模型创新。在未公开核心数据集和代码的情况下,其声称的性能增益难以被社区独立验证和直接应用。

📌 核心摘要

  1. 问题:传统多导睡眠图(PSG)侵入性强、成本高,阻碍了阻塞性睡眠呼吸暂停(OSA)的广泛筛查。基于鼾声的非接触分析受噪声、数据不平衡和特征可解释性差的困扰。
  2. 方法核心:提出一个生理学启发的鼾声分类框架,包括:a) 高能量帧选择:选取能量最高的20%帧,以抑制边界噪声并聚焦于区分性最强的病理声学区域;b) 三个生理特征提取:从高能量帧中提取频带能量比(ER)、帧位置时间标准差(STD)和帧间频谱余弦相似度(SIM),分别对应频域能量分布、时间集中度和频谱稳定性;c) 自适应能量比损失函数:根据样本的ER值动态调整病理性鼾声类别的损失权重,以缓解类别不平衡并强调典型病理模式。
  3. 创新点:与传统数据驱动特征相比,新方法的核心在于特征设计的生理可解释性以及损失函数的自适应性,两者均根植于病理鼾声与简单鼾声的声学差异。
  4. 实验结果:在来自北京大学第三医院的115例患者数据集上进行验证。最佳配置(特征拼接 + 自适应损失,k=4, α=2)相比基线,AUC提升1.9%(0.819→0.838),准确率(ACC)提升2.3%(75.7%→78.0%),非加权平均召回率(UAR)提升3.3%(72.3%→75.6%),病理性鼾声的灵敏度(SEN)提升6.9%(58.5%→65.4%),同时特异性(SPE)保持可比水平。关键实验结果如下表所示:

表2:不同生理特征对鼾声分类性能的影响

MethodAUCACC(%)UAR(%)SEN(%)SPE(%)
Base0.81975.772.358.586.1
+ ER0.82575.771.152.589.8
+ STD0.82675.973.262.284.3
+ SIM0.83676.373.662.484.8
+ STD + SIM + ER0.82776.072.759.386.1

表3:自适应能量比损失函数性能(节选关键行)

MethodConcat(k, α)AUCACC(%)UAR(%)SEN(%)SPE(%)
Base×0.81975.772.358.586.1
Adaptive Loss(4,2)0.83878.075.665.485.7

图2 图2展示了三个生理特征(ER、STD、SIM)在简单鼾声(蓝色)和病理性鼾声(橙色)上的箱线图分布。STD和SIM特征显示出明显的可分性:病理性鼾声的STD更高、SIM更低。

图3 图3展示了10,000个鼾声片段的频带能量比(ER)分布,简单鼾声整体呈现更高的ER值,而病理性鼾声的ER值相对集中且较低。

  1. 实际意义:为家庭环境下的OSA非接触、可解释筛查提供了一种有潜力的技术方案,模型决策过程具有明确的生理依据。
  2. 主要局限性:a) 数据源单一(仅一家医院),模型的泛化性未验证;b) 核心创新集中在特征工程和损失函数,分类网络本身较为常规;c) 论文未提供公开数据集或代码,限制了复现与后续研究。