ICASSP 2026 - 音频分类

共 39 篇论文

← 返回 ICASSP 2026 总览

排名	论文	评分	分档
🥇	ECHO: Frequency-Aware Hierarchical Encoding for Variable-Len	9.5分	前10%
🥈	ACAVCaps: Enabling Large-Scale Training for Fine-Grained and	8.5分	前25%
🥉	Automated Dysphagia Screening Using Noninvasive Neck Acousti	8.0分	前25%
4.	AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Sp	8.0分	前25%
5.	Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion	8.0分	前25%
6.	A Metric Learning Approach to Heart Murmur Detection from Ph	7.7分	前25%
7.	A Robust KNN Approach for Multi-Class Laryngeal Disease Dete	7.5分	前25%
8.	UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spec	7.5分	前25%
9.	AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid V	7.5分	前25%
10.	Audio Classification Models are Vulnerable to Filter Perturb	7.5分	前25%
11.	PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-L	7.5分	前10%
12.	FOCA: Multimodal Malware Classification via Hyperbolic Cross	7.5分	前25%
13.	WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audi	7.5分	前25%
14.	Adaptive Per-Channel Energy Normalization Front-End for Robu	7.5分	前25%
15.	Adaptive Embedding Fusion with Contrastive Learning for Robu	7.5分	前25%
16.	Incremental Learning for Audio Classification with Hebbian D	7.5分	前25%
17.	Attentive Masked Self-Distillation for Respiratory Sound Cla	7.5分	前25%
18.	One Model–Three Tasks: Discovering a Shared Winning Ticket f	7.5分	前25%
19.	Timbre-Aware Audio Difference Captioning for Anomalous Machi	7.5分	前25%
20.	Leveraging prediction entropy for Automatic prompt weighting	7.5分	前25%
21.	Directly Trained Spiking Neural Networks with Adaptive Phase	7.0分	前25%
22.	Noise-Robust Contrastive Learning with an MFCC-Conformer for	7.0分	前50%
23.	Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual	7.0分	前50%
24.	A Dynamic Gated Cross-Attention Framework for Audio-Text App	7.0分	前25%
25.	Transfer Learning for Paediatric Sleep Apnoea Detection usin	7.0分	前25%
26.	Empowering Multimodal Respiratory Sound Classification with	7.0分	前25%
27.	PADAM: Perceptual Audio Defect Assessment Model	7.0分	前50%
28.	Enhanced Generative Machine Listener	7.0分	前25%
29.	Acoustic Feedback Cancellation in Hearing Aids Exploiting an	7.0分	前25%
30.	AFT: An Exemplar-Free Class Incremental Learning Method for	7.0分	前25%
31.	Transferable Audio Lottery Tickets: Gradient Accumulation fo	7.0分	前25%
32.	A LLM-Driven Acoustic Semantic Enriched Framework for Underw	7.0分	前25%
33.	S-SONDO: Self-Supervised Knowledge Distillation for General	7.0分	前25%
34.	Acoustic Non-Stationarity Objective Assessment with Hard Lab	7.0分	前25%
35.	Reading Between the Waves: Robust Topic Segmentation Using I	7.0分	前25%
36.	Learnable Mel-Frontend for Robust Underwater Acoustic Target	6.5分	前50%
37.	Estimating Respiratory Effort from Nocturnal Breathing Sound	6.5分	前25%
38.	Thinking While Listening: Simple Test Time Scaling for Audio	6.5分	前50%
39.	Snore Sound Classification Based on Physiological Features a	6.5分	前25%

📋 论文详情

🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals

🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用

👥 作者与机构

第一作者：Yucong Zhang（武汉大学计算机学院；苏州昆山杜克大学多模态智能系统苏州市重点实验室）
通讯作者：Juan Liu（武汉大学人工智能学院）， Ming Li（武汉大学人工智能学院；苏州昆山杜克大学）
作者列表：Yucong Zhang（武汉大学计算机学院；苏州昆山杜克大学多模态智能系统苏州市重点实验室）， Juan Liu†（武汉大学人工智能学院）， Ming Li†（武汉大学人工智能学院；苏州昆山杜克大学）。†表示共同通讯作者。

💡 毒舌点评

亮点：该论文成功地将频率感知和滑动窗口两大思想结合，构建了一个能优雅处理现实世界工业信号（采样率可变、长度可变）的通用基础模型，并通过一个前所未有的全面基准（SIREN）证明了其优越性，做到了“设计解决实际问题”和“实验证明设计有效”的闭环。短板：论文的实验全部基于离线、干净的学术数据集，对于工业界最关心的实时流式推理性能、计算资源消耗以及在嘈杂、非理想工况下的鲁棒性缺乏深入探讨，这使得其“工业应用”的宣称在现阶段更偏向于技术展示而非经过实战检验的方案。

🔗 开源详情

代码：提供了完整的代码仓库链接：https://github.com/yucongzh/ECHO。
模型权重：论文未明确提及是否公开了预训练模型权重，但提供了代码仓库，权重很可能在其中或后续发布。
数据集：公开了SIREN评估基准工具包：https://github.com/yucongzh/SIREN，并说明包含了多个数据集，获取方式应在该仓库中说明。
Demo：论文中未提及在线演示。
复现材料：提供了详尽的训练细节（学习率、batch size、优化器、步数、硬件、调度策略等），足以支持复现。训练细节见论文第5.1节。
论文中引用的开源项目：论文引用了其对比的多个基础模型（BEATs, CED, EAT, Dasheng, FISHER）的开源实现或论文。此外，SIREN基准中使用的数据集（如DCASE, MAFAULDA, CWRU, IIEE, IICA）均为公开数据集。

📌 核心摘要

问题：现有的音频/信号基础模型大多基于视觉Transformer，依赖固定尺寸的频谱图输入和固定的预设采样率。处理可变长度信号需要截断/插值，破坏时序连续性；处理不同采样率信号需要重采样，导致信息损失。这限制了它们在通用机器信号监测（涵盖声学、振动等多模态、多采样率数据）中的应用。
方法核心：提出ECHO模型，其核心是“频率感知层级编码”。首先，将频谱图沿频率轴均匀分割为多个子带，并为每个子带计算基于其中心频率的相对位置编码，以适配任意采样率。其次，在每个子带上应用滑动窗口提取重叠的时间补丁，以处理任意长度的输入，无需填充或裁剪。最后，将每个子带的序列送入独立的ViT编码器，再将所有子带的分类令牌拼接成最终的层级化嵌入。
新意：与已有的频率分割模型（如FISHER）相比，ECHO创新性地引入了频率位置编码，使模型能显式地感知子带在全频谱中的相对位置，而非独立处理。与传统的固定补丁模型（如BEATs， EAT）相比，滑动补丁设计能更好地保留时序连续性，适应可变长度输入。ECHO旨在统一支持可变长度和可变采样率信号。
实验结果：在论文提出的统一评估基准SIREN上，ECHO（Small版）取得了77.65%的整体平均分，超过了最强基线FISHER（76.86%）和Dasheng（76.04%）。在故障分类任务平均准确率达到93.19%，位居第一；在DCASE异常检测任务平均得分62.11%，也达到最佳。相比FISHER，ECHO在所有DCASE年份和大部分故障分类数据集上均有提升。

模型	规模	参数量	SIREN总均分	DCASE任务均分	故障分类任务均分
ECHO	Small	22M	77.65	62.11	93.19
FISHER	Small	22M	76.86	61.00	92.73
Dasheng	Base	86M	76.04	59.95	92.12
EAT	Base	86M	74.23	60.84	87.62
BEATs	Base	90M	71.86	61.86	81.86

实际意义：ECHO为工业设备的状态监测提供了一个强大的通用前端特征提取器。其处理可变采样率和长度的能力，使其能无缝集成来自不同传感器、不同工况的数据，无需预处理重采样或裁剪，简化了部署流程。开源代码和SIREN基准为社区提供了公平比较和推进该领域研究的平台。
主要局限：模型虽在学术数据集上表现优异，但缺乏在真实工业场景（高噪声、数据不平衡、极端故障模式）下的验证。论文未探讨模型的推理效率（如延迟、吞吐量），这对实时监测至关重要。此外，滑动窗口带来的计算量增加及其优化策略未做深入分析。

🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding

🔥 8.5/10 | 前25% | #音频分类 | #数据集 | #预训练 #多任务学习

👥 作者与机构

第一作者：Yadong Niu（MiLM Plus，小米公司）
通讯作者：未说明
作者列表：Yadong Niu（MiLM Plus，小米公司）、Tianzi Wang（香港中文大学， MiLM Plus，小米公司）、Heinrich Dinkel（MiLM Plus，小米公司）、Xingwei Sun（MiLM Plus，小米公司）、Jiahao Zhou（北京邮电大学， MiLM Plus，小米公司）、Gang Li（MiLM Plus，小米公司）、Jizhong Liu（MiLM Plus，小米公司）、Junbo Zhang（MiLM Plus，小米公司）、Jian Luan（MiLM Plus，小米公司）

💡 毒舌点评

亮点是将工业界强大的多模态模型工程能力发挥到极致，构建了一个“百科全书”式的音频描述数据集，从标注流程到数据多样性都展现了极高的工程水平。短板则在于，论文的核心“模型”本身（Dasheng + Qwen3）并无架构创新，更像是一个应用成熟的音频-语言模型架构来验证其数据集质量的“基准测试”。

🔗 开源详情

代码：提供代码仓库链接：https://github.com/xiaomi-research/acavcaps。
模型权重：论文中未提及是否公开预训练的模型权重。
数据集：论文声明“The data and code are available at…”，暗示数据集将开源，但未详细说明具体的获取方式（例如直接下载或申请访问）。
Demo：论文中未提及在线演示。
复现材料：提供了基本的模型架构（Dasheng-Base, Qwen3-0.6B）、优化器、学习率等超参数。但完整的训练脚本、配置文件、数据预处理代码、多专家模型的具体细节（如语音/音乐分析模块）可能需参考其先前工作[12]。
论文中引用的开源项目：Dasheng-Base音频编码器[16]、Qwen3语言模型[17]、Deepseek-R1[15]、CED-Base模型[13]。

📌 核心摘要

本文针对当前音频描述数据集在规模、描述粒度和多样性上的不足，提出了ACAVCaps，一个大规模、细粒度、多领域的音频描述数据集。其核心方法是采用多专家分析流水线：首先用CED-Base模型对音频进行内容分类，然后路由至语音、音乐、声音事件等专用分析模块，并提取通用声学属性；最后，利用一个基于思维链（CoT）推理的大语言模型（Deepseek-R1）综合所有分析结果与元数据，为每个音频生成多种风格一致但语言多样的详细描述。与现有数据集相比，ACAVCaps在规模（13k小时，4.7M样本）、唯一token数量（76.7k）和领域覆盖（扩展的多领域）上均达到新高。实验表明，在ACAVCaps上预训练的模型在MECAT-Caption基准测试（表2）上取得了60.9的整体DATE分数，显著优于其他数据集（最高仅37.4）。在下游语音识别、声音事件分类、音乐理解等任务（表3）上，该模型也展现出强大的泛化能力，例如在LibriSpeech测试集上的词错误率从基线的74.2%降至56.5%。这项工作为训练更通用的音频大模型提供了关键的数据基础，其意义在于证明了高质量、多角度、细粒度的描述数据对于学习可迁移音频表示至关重要。主要局限性在于，模型架构本身未创新，其性能提升主要归功于数据质量而非模型设计。

🥉 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

🔥 8.0/10 | 前25% | #音频分类 | #信号处理 | #数字健康 #生物声学

👥 作者与机构

第一作者：Jade Chng（Jacobs School of Engineering, University of California San Diego; Department of Biomedical Engineering, Duke University）（论文中标注了*，且名字在首位）
通讯作者：未明确指定。论文中标注Andrew Yousef和Philip A Weissbrod为“Equal Senior Authors”（†）。
作者列表：
- Jade Chng（加州大学圣地亚哥分校 Jacobs 工程学院；杜克大学生物医学工程系）
- Rong Xing（加州大学圣地亚哥分校 Jacobs 工程学院）
- Yunfei Luo（加州大学圣地亚哥分校 Halıcıoğlu 数据科学研究所）
- Kristen Linnemeyer-Risser（加州大学圣地亚哥分校耳鼻喉头颈外科系）
- Tauhidur Rahman（加州大学圣地亚哥分校 Jacobs 工程学院；Halıcıoğlu 数据科学研究所）
- Andrew Yousef（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者）
- Philip A Weissbrod（加州大学圣地亚哥分校耳鼻喉头颈外科系）（平等资深作者）

💡 毒舌点评

亮点：这篇论文的最大亮点在于其扎实的临床数据采集流程——将声学传感与吞咽评估的“金标准”FEES实时同步进行，确保了标签的准确性，这为医疗声学研究树立了良好的数据基础。短板：然而，其核心模型（随机森林）和自动分割算法（固定参数/滑动窗口）显得相对传统和保守，在模型创新性上略显不足；更重要的是，未提供任何代码或数据，对于一项旨在推动“实用工具”的工作而言，这极大地限制了其快速验证和应用转化的可能性。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：未提及是否公开及获取方式。论文中注明数据已完全匿名化，但未说明共享计划。
Demo：未提及。
复现材料：未给出详细的训练配置、检查点或附录补充说明。
论文中引用的开源项目：明确使用了Librosa（Python音频分析库）和OpenSMILE（音频特征提取工具包）。预训练模型OPERA也属于开源项目。
总结：论文中未提及任何具体的开源计划或代码仓库。主要依赖上述第三方开源工具进行特征提取，但核心的数据、特征工程代码和训练流程均未开放。

📌 核心摘要

要解决什么问题：吞咽困难（Dysphagia）是重要的公共卫生问题，当前诊断方法（如影像学、内窥镜）存在侵入性、昂贵、需专业操作等缺点。本文旨在开发一种自动化、非侵入式、低成本的声学筛查工具，用于早期检测吞咽功能异常。
方法核心：方法核心是利用放置在颈部的数字听诊器，在标准吞咽评估（FEES）过程中同步采集音频信号。通过信号处理（Librosa）进行吞咽事件分割与降噪，然后提取两类特征：一类是基于领域知识的手工特征（频率、振幅、曲线下面积等），另一类是预训练音频模型的嵌入（OpenSMILE， OPERA）。最后，使用随机森林（RFC）分类器进行二分类（异常/正常）和三分类（严重程度分级）。
与已有方法相比新在哪里：与之前工作相比，本文的创新点在于：(1) 首次在吞咽评估金标准（FEES）进行时同步采集声学数据，确保了数据标注的准确性和临床相关性；(2) 专门设计并验证了一组针对吞咽声的“领域知情特征”；(3) 系统评估了自动分割算法（固定参数、滑动窗口）对患者级别预测的影响，并提出了多种聚合策略（Mean/Max/Mode-risk）。
主要实验结果如何：
- 主要结果：在二分类（异常检测）任务上，使用领域知情特征的模型取得了最佳性能，AUC-ROC为0.904（表2）。
- 对比：领域特征显著优于预训练模型（OPERA， 0.651）和通用音频特征（OpenSMILE， 0.778）。三分类任务性能显著��降（最高AUC-ROC仅0.611），主要受限于类别样本不平衡。
- 分割与聚合：自动分割中，滑动窗口分割配合Mean-risk聚合达到0.893 AUC-ROC；固定参数分割配合Max-risk聚合达到0.942 AUC-ROC，接近人工分割的基线（最高0.971）（表3）。
- 可解释性：SHAP分析显示，年龄、性别、吞咽次数、平均频率和振幅等是重要预测因子（图2）。
实际意义是什么：该研究证明了利用非侵入式声学传感进行吞咽困难筛查的技术可行性，为开发一种便携、低成本、可扩展的咽部健康监测工具提供了概念验证，有望降低筛查门槛，改善高危人群的早期干预。
主要局限性是什么：数据集规模中等（49名参与者，617个吞咽事件），可能限制模型对不同人群和病理的泛化能力；自动吞咽分割算法仍需优化以提高鲁棒性；三分类性能有待提升。

4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

🔥 8.0/10 | 前25% | #音频分类 | #对比学习 | #多模态模型 #数据集

👥 作者与机构

第一作者：Risa Shinoda（大阪大学 & 东京大学）
通讯作者：未说明
作者列表：Risa Shinoda（大阪大学 & 东京大学）、Kaede Shiohara（东京大学）、Nakamasa Inoue（东京科学大学）、Hiroaki Santo（大阪大学）、Fumio Okura（大阪大学）

💡 毒舌点评

亮点：论文创新性地将生物学分类学层次结构融入音频-文本预训练范式，并构建了一个包含丰富生态特征的大规模动物声音数据集，为解决生态监测中“未见物种”识别这一实际难题提供了系统性的框架和宝贵的基准。短板：模型架构本身是CLAP的直接应用，技术上的新颖性有限；同时，对于“分类学结构”如何具体影响模型内部表征（例如，文本编码器如何理解层次关系）的机理解释和可视化分析可以更深入。

🔗 开源详情

代码：论文承诺提供代码仓库链接（https://github.com/dahlian00/AnimalCLAP），但当前链接有效性未验证。
模型权重：论文承诺将公开模型权重。
数据集：论文承诺公开AnimalCLAP数据集，并会提供原始音频的URL以确保遵循相应的Creative Commons许可。
Demo：未提及。
复现材料：提供了模型架构描述、关键训练参数（如学习率、优化器、epoch数）和文本模板示例，但未提供完整的超参数配置、数据增强代码、硬件要求等。
引用的开源项目：模型构建依赖了CLAP框架，使用了HTS-AT音频编码器和RoBERTa文本编码器，并应用了CLIP对比损失。

📌 核心摘要

问题：传统动物声音识别模型在训练时未见过的物种上性能急剧下降，这在物种繁多、数据稀缺的生物多样性监测领域是一个核心挑战。同时，从声音直接推断动物生态特征（如栖息地、食性）的研究尚未在音频-文本学习框架中被充分探索。
方法核心：提出AnimalCLAP框架，其核心是分类学感知的音频-文本预训练。具体包括两方面：(1) 构建一个大规模、标注了物种分类学信息和22种生态特征的动物声音数据集；(2) 在训练时，将物种标签（学名、俗名、分类序列）通过多种文本模板增强，并明确使用有序的分类序列（纲→目→科→属→种）作为文本输入，以监督音频和文本编码器学习对齐，并内化生物层次知识。
创新之处：与现有的通用CLAP或生物声音模型相比，新在：a) 首次将结构化的分类学层次信息系统性地整合进音频-文本对比学习；b) 贡献了一个目前公开数据中规模最大、物种最全（6823种）、并系统标注生态特征的动物声音数据集之一；c) 不仅做物种分类，还证明了从声音直接推断多种生态特征的可行性。
主要结果：
- 未见物种识别：在精心设计的未见物种测试集（300种罕见物种）上，AnimalCLAP显著优于CLAP基线。例如，使用混合文本提示（Tax+Com）时，Top-1准确率达到27.6%（CLAP仅1.61%），Top-5准确率53.5%（CLAP 5.19%）。
- 生态特征推断：在22项生态特征预测任务上，AnimalCLAP的平均F1分数（79.0%）远超CLAP（48.9%）。在“活动模式”（83.7% vs 28.4%）、“迁徙”（84.8% vs 49.9%）等行为特征上提升尤为显著。
- 消融实验证明层次结构关键：随机化分类序列顺序会导致性能显著下降（表4），且错误分析（图3）显示有序训练使模型的错误在更高分类阶元上更“一致”。
实际意义：为基于声音的生物多样性自动监测提供了更强大、泛化能力更强的工具，特别是对于数据稀少的罕见物种。同时，证明了声音是推断动物生态特征的有效模态，为生态学研究提供新途径。
主要局限性：a) 模型架构（HTS-AT + RoBERTa）是复用现有组件，核心创新在于训练范式和数据；b) 对于分类学结构如何“赋能”模型的更深层机理剖析不足；c) 数据集依赖iNaturalist和Xeno-canto，其数据质量与覆盖度仍受公民科学平台限制。

5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

🔥 8.0/10 | 前25% | #音频分类 | #多模态模型 | #时频分析 #Conformer

👥 作者与机构

第一作者：Huaxuan Wang（北京理工大学机械工程学院）
通讯作者：Huilong Yu（北京理工大学机械工程学院）；Wei Zhou（Cardiff University, School of Computer Science and Informatics）
作者列表：Huaxuan Wang（北京理工大学机械工程学院），Huilong Yu（北京理工大学机械工程学院），Ruizeng Zhang（北京理工大学机械工程学院），Wei Zhou（Cardiff University, School of Computer Science and Informatics），Junqiang Xi（北京理工大学机械工程学院）

💡 毒舌点评

亮点：论文思路清晰，将“看不见的场景结构”（通过BEV图像表示）与“听得见的目标线索”（音频多域特征）显式融合，逻辑上自洽，实验也证明在特定场景下性能提升有效。短板：融合方式相对直接（拼接向量），且BEV生成依赖于已有地图和人工标注，限制了该框架在完全未知环境中的泛用性；验证仅限于公开数据集上的T型路口，现实复杂路况的鲁棒性存疑。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用了公开数据集OVAD和AOVD，但论文未提供额外数据或获取指南。
Demo：未提及。
复现材料：论文给出了一些训练超参数（学习率、batch size、epoch数、优化器），但未提供完整的配置文件、训练脚本或模型检查点。BEV生成的具体算法细节（如特征提取和LoS分析）描述较粗略。
论文中引用的开源项目：未明确提及依赖的具体开源工具/模型库（如PyTorch是框架，未特指某开源实现）。

📌 核心摘要

问题：自动驾驶车辆在交通盲区（如T型路口）无法直接感知突然出现的障碍物，现有感知手段（摄像头、雷达）受限于视距，而传统音频感知方法忽略了场景结构对声波传播的决定性影响。
方法核心：提出一个场景感知的音视频融合网络。核心是引入鸟瞰图（BEV）来显式表征场景空间结构，并从车载麦克风阵列音频中提取时频谱图和DOA能量谱图。网络采用三分支结构处理这些特征，其中音频分支创新性地结合了LSTM、CNN和Conformer模块，以建模音频信号的时序依赖与全局局部特征。
新颖性：相较于之前仅依赖音频或未考虑场景结构的方法，本工作的主要创新在于：a) 显式构建并利用BEV图像融入场景结构先验；b) 在音频特征处理中引入Conformer模块，增强了模型对复杂声学特征的建模能力。
实验结果：在OVAD和AOVD两个真实世界数据集上，该方法的整体准确率分别达到94.1%和97.0%（移除BEV分支），显著优于SVM（88.2%， 90.8%）和pCRNN（92.6%， 95.4%）等基线方法。消融实验验证了BEV分支和Conformer模块的有效性。
实际意义：为智能车辆在交叉路口等视距受限场景提供了新的、更可靠的早期碰撞预警方案，提升了自动驾驶的安全性。
主要局限性：系统性能高度依赖于先验的BEV地图生成（需要卫星图像和手动标注），限制了部署的灵活性；研究聚焦于T型路口这一特定场景，未在更复杂或未知环境中验证其泛化能力。

6. A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

✅ 7.7/10 | 前25% | #音频分类 | #对比学习 | #数据增强 #生物声学

👥 作者与机构

第一作者：Florian Lübbe（Fraunhofer Institute for Software and Systems Engineering ISST；University of Hildesheim Department of Data Science）
通讯作者：未说明
作者列表：Florian Lübbe（Fraunhofer ISST & University of Hildesheim）、Ahmad Bdeir（University of Hildesheim Department of Data Science）、Niels Landwehr（University of Hildesheim Department of Data Science）、Pinar Bisgin（University of Hildesheim Department of Data Science & TU Dortmund University Department of Computer Science）

💡 毒舌点评

亮点在于系统性地验证了度量学习范式在心音分析不同任务（二分类、多分类、多标签）上的有效性，且在噪声更小的BMD-HS数据集上取得了高达18%的性能飞跃，证明了方法的潜力。短板则是对“多标签”场景的处理相对简单，仅将其视为一种分类任务，未能更深入地利用疾病（如主动脉瓣狭窄与反流）之间可能存在的生理关联性来设计更精巧的损失函数或网络结构。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用了两个公开数据集：CirCor DigiScope Phonocardiogram Dataset (v1.0.3) 和 BMD-HS Dataset。论文中给出了引用。
Demo：未提及。
复现材料：论文提供了部分关键预处理参数（采样率、分段长度、STFT参数）、数据增强策略、模型架构概述和训练流程。但缺少超参数（学习率、优化器、batch size）等关键信息。
论文中引用的开源项目：未提及依赖的特定开源工具或模型库（如PyTorch/TensorFlow版本）。

📌 核心摘要

解决什么问题：自动、准确地从心音图（PCG）中检测心脏杂音，以辅助心血管疾病的早期筛查和诊断。现有方法多采用传统分类框架。
方法核心：采用度量学习范式。使用一个2D CNN编码器，以梅尔频谱图为输入。预训练阶段采用监督对比损失（SupCon）和分层多标签对比损失（HiMulConE），学习一个嵌入空间，使同类样本靠近、异类样本远离。微调阶段冻结编码器，添加MLP分类头并用焦点损失（Focal Loss）进行优化。
与已有方法相比新在哪里：摒弃了直接优化分类交叉熵的传统方法，转而通过对比学习显式优化特征嵌入空间的结构（类内紧密、类间分离）。此外，首次在该任务上探索了二分类、多分类（6类）和多标签（4种疾病）三种不同设定下的性能。
主要实验结果如何：
- 在二分类任务（CirCor数据集）上，加权准确率从基线的87.1%提升至90.5%（+3.4%），F2分数提升6.83%。
- 在二分类任务（BMD-HS数据集）上，加权准确率从基线的75.2%提升至88.9%（+18.1%）。
- 在6类多分类任务（BMD-HS）上，平均准确率从基线的44.7%提升至81.9%。
- 在4类多标签任务（BMD-HS）上，准确率达到约72%。（关键对比表格如下）

数据集/任务	模型	指标	结果	变化
CirCor (二分类)	Baseline [9]	加权准确率	0.8709	-
	MurmurC. Linear	加权准确率	0.9047	+3.88%
	Baseline [9]	F2-Score	0.7904	-
	MurmurC. B.	F2-Score	0.8444	+6.83%
BMD-HS (二分类)	Baseline [9]	加权准确率	0.7524	-
	MurmurC. Linear	加权准确率	0.8889	+18.14%
BMD-HS (4类多标签)	Baseline [9]	准确率	0.2890	-
	MurmurClassifier	准确率	~0.72	N/A
BMD-HS (6类多分类)	Baseline [9]	平均准确率	0.4470	-
	MurmurClassifier	平均准确率	0.8189	+83.18%

实际意义：为自动心音诊断系统提供了一种更强大的特征学习框架，特别是在处理类别不平衡和多标签共存的真实临床场景中展现出优势，有助于推动AI辅助听诊技术的发展。
主要局限性：模型架构描述较为通用，未见针对心音信号特性的深度定制；训练过程中的部分关键超参数（如学习率、优化器）未提供；多标签任务的评估和分析深度有待加强。

7. A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

✅ 7.5/10 | 前25% | #音频分类 | #信号处理 | #图神经网络 #医疗AI

👥 作者与机构

第一作者：Pingping Wu（南京审计大学工程审计学院）
通讯作者：未说明
作者列表：
- Pingping Wu（南京审计大学工程审计学院）
- Weijie Gao（南京审计大学计算机科学学院）
- Haibing Chen（江苏省人民医院耳鼻喉科）

💡 毒舌点评

本文将图神经网络（GNN）引入传统的K近邻（KNN）分类框架，为病理语音特征建模提供了一个有趣的视角，这是其最亮眼的创新点。然而，论文对所提出图增强KNN中GNN的具体实现（如层数、聚合器类型、注意力机制）和关键超参数（如K值选择）的讨论严重不足，使得“图”这一核心概念的魔力显得有些“黑箱”，也给复现设置了不必要的障碍。此外，使用一个仅320例、未公开的临床数据集得出的结论，其泛化能力有待未来更大规模数据的验证。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：数据集来自合作医院，论文未提及是否公开或获取方式。
Demo：未提供在线演示。
复现材料：论文详细说明了MFCC提取参数（采样率、帧长、帧移、滤波器组数量）、数据划分比例、交叉验证方法以及实验的软硬件环境（Table 2），这些信息有助于在相同条件下复现实验。
引用的开源工具：论文明确提到了使用 librosa 库（版本0.10）进行音频处理和特征提取。
总结：论文中未提及开源计划（代码、数据、模型均未公开）。

📌 核心摘要

问题：喉部疾病（如癌症、息肉、结节、白斑）的早期无创检测对改善预后至关重要，而传统的内窥镜检查受限于设备和专家。现有研究多集中于简单的二分类，对多种疾病的精细分类探索不足。
方法核心：提出一种图增强的KNN框架。首先从语音信号中提取MFCC特征序列，然后为每个样本构建基于特征相似度的K近邻图，最后利用图神经网络（GNN）在图上进行信息聚合，学习更具判别性的表示，最终进行分类。
创新点：1) 首次将多种非癌症性喉部病变（息肉、结节、白斑）纳入统一的五分类框架进行研究；2) 将图神经网络与KNN结合，通过建模局部拓扑关系来增强传统距离度量的判别能力，这是对标准KNN分类器的一种结构性改进。
主要结果：在自建的320例患者数据集上，该方法在二分类（健康 vs 病变）任务中达到96%的准确率，在五分类（健康、癌症、息肉、结节、白斑）任务中达到88%的准确率，均优于包括CNN和传统KNN在内的基线模型。关键数据对比如下表所示：
模型二分类准确率五分类准确率
传统KNN 0.94 0.83
CNN 0.94 0.80
本文方法 (Ours) 0.96 0.88
实际意义：该研究验证了基于语音的、结合图结构的机器学习模型在非侵入式喉部疾病筛查中的潜力，为临床早期诊断提供了新的技术思路。
主要局限性：数据集规模较小（320例）且未公开，模型泛化性存疑；对图神经网络部分的实现细节描述不够深入，技术贡献的清晰度和可复现性有所折扣。

模型	二分类准确率	五分类准确率
传统KNN	0.94	0.83
CNN	0.94	0.80
本文方法 (Ours)	0.96	0.88

8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification

✅ 7.5/10 | 前25% | #音频分类 | #混合专家模型 | #时频分析 #Vision

👥 作者与机构

第一作者：未说明（论文标题下列出 Haihan Zhang†，但正文未明确其排序，且有两个†符号）
通讯作者：Guowei Wu（根据脚注“Corresponding author: wgwdut@dlut.edu.cn”）
作者列表：Haihan Zhang†, Guowei Wu†（†School of Software, Dalian University of Technology）
- Haihan Zhang（大连理工大学软件学院）
- Guowei Wu（大连理工大学软件学院）

💡 毒舌点评

亮点：论文提出了一个直观且有效的“多频谱特征拼接 + 卷积投影融合”策略，确实提升了基线ViT的性能，证明了特征多样性对小数据任务的价值。短板：将MoE引入ViT带来了显著的参数量（约284M）和计算复杂度（约68.8G FLOPs）增长，对于一个仅有四分类、数据量有限的任务而言，模型效率令人质疑，且论文未探讨轻量化方案。

🔗 开源详情

代码：论文中未提及任何代码仓库链接。
模型权重：未提及。
数据集：使用了公开的DeepShip数据集，但论文中未说明具体获取方式（仅描述了数据集构成）。
Demo：未提供在线演示。
复现材料：给出了一些数据预处理参数（如窗口大小、帧移）和模型架构的宏观描述，但缺失大量关键的训练细节和超参数，不足以支撑完全复现。
引用的开源项目：论文中未提及依赖的特定开源工具或模型代码库。
总结：论文中未提及任何开源计划。

📌 核心摘要

这篇论文旨在解决水下船舶噪声分类中数据稀缺和噪声环境复杂两大挑战。作者提出了一种名为UMV（Underwater Mixture-of-Experts Vision Transformer）的新型架构。该方法的核心在于：1）通过一个卷积融合模块，将STFT功率谱图、梅尔谱图和梅尔频率倒谱系数（MFCC）三种互补的频谱特征进行融合，形成更丰富的输入表示；2）在Vision Transformer编码器的前馈网络中，集成了一个采用Top-k稀疏路由机制的混合专家模型，以提升模型的表达能力和鲁棒性。在DeepShip数据集上，UMV达到了99.14%的分类准确率，相比基线ViT提升了3.18%，并且在高斯、粉红、虾类和螺旋桨等噪声环境下仍能保持超过92%的准确率（在20dB SNR下），显著优于现有的基于CNN和Transformer的方法。该工作的实际意义在于为水下声学监测提供了一种高精度、高鲁棒性的分类模型。主要局限性包括：模型参数量和计算量较大，可能不适合实时或资源受限的部署；未与更多最新的、专门的水下声学Transformer模型进行直接对比；且未开源代码或模型。

9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 #混合架构 | #多模态模型 #混合架构

👥 作者与机构

第一作者：Md. Saiful Bari Siddiqui（BRAC大学计算机科学与工程系）
通讯作者：未说明
作者列表：Md. Saiful Bari Siddiqui（BRAC大学计算机科学与工程系），Utsab Saha（BRAC大学计算机科学与工程系）

💡 毒舌点评

亮点：论文非常清晰地抓住了“心音分析中频谱与波形信息互补”这一核心矛盾，并设计了一个轻量级双分支架构来同时利用两者，实验也证实了该思路的有效性，尤其是在抵抗域偏移方面表现出色。
短板：所谓的“创新”更多是工程设计上的巧妙组合，后期融合策略（拼接）本身毫无新意，论文也未深入探讨更复杂融合机制（如跨注意力）在此场景下失效的原因，使其理论贡献稍显薄弱。

🔗 开源详情

代码：是。论文提供了GitHub代码仓库链接：https://github.com/Saiful185/AudioFuse。
模型权重：未提及是否公开预训练模型权重。
数据集：使用了公开的PhysioNet 2016和PASCAL数据集，并说明了获取和处理方式（移除泄露数据）。
Demo：未提及。
复现材料：论文提供了主要超参数（学习率、权重衰减、轮数、早停设置），但未提供完整的训练配置、环境依赖文件或检查点。
引用的开源项目：论文中未明确列出所依赖的特定开源工具或库（如PyTorch, Hugging Face Transformers等）。

📌 核心摘要

问题：传统心音（PCG）分类方法要么使用2D频谱图（丢失相位和时间精度），要么使用1D波形（难以学习频率关系），二者各有局限。
方法：提出AudioFuse，一个轻量级双分支架构。一个分支是定制的“宽而浅”的Vision Transformer (ViT)，用于从2D log-Mel频谱图中提取全局频谱特征；另一个分支是紧凑的1D CNN，用于从原始波形中提取精确的时序特征。两个分支提取的特征向量在最后通过拼接进行后期融合。
创新点：a) 针对PCG信号特性，设计了一个双分支、双模态的表示学习框架；b) 为平衡性能和过拟合风险，对ViT和CNN分支都进行了轻量化设计；c) 通过实验证明了简单拼接融合在该任务上优于更复杂的门控或交叉注意力融合。

实验结果：在PhysioNet 2016数据集上，AudioFuse（拼接融合）从头训练取得了0.8608的ROC-AUC，显著优于单模态基线（频谱图0.8066，波形0.8223）。在具有显著域偏移的PASCAL数据集上，AudioFuse（ROC-AUC 0.7181）的性能远优于频谱图基线（0.4873），展现了强大的泛化能力。具体结果见表1和表2。

模型	#参数	Accuracy	F1-Score	ROC-AUC	MCC
表1：PhysioNet 2016 数据集性能对比
频谱图基线 (ViT)	1.83M	0.7193 ± 0.0071	0.7383 ± 0.0197	0.8066 ± 0.0141	0.4444 ± 0.0211
原始音频基线 (1D-CNN)	675K	0.7376 ± 0.0094	0.7057 ± 0.0260	0.8223 ± 0.0313	0.4884 ± 0.0085
AudioFuse (拼接融合)	2.56M	0.7741 ± 0.0094	0.7664 ± 0.0005	0.8608 ± 0.0127	0.5508 ± 0.0225
表2：PASCAL 数据集泛化性能
ViT	-	0.5795	0.3273	0.4873	0.0579
1D-CNN	-	0.6818	0.5484	0.6782	0.3152
AudioFuse	-	0.7386	0.6667	0.7181	0.4519

实际意义：为生物医学音频（尤其是心音）分析提供了一个高效、可泛化的分类模型，无需大规模预训练，有利于在资源有限的场景下部署。
局限性：a) 模型的优越性在更复杂、更大规模的心音数据集上是否成立有待验证；b) 双分支设计虽然有效，但增加了系统复杂度，推理时需同时处理两种输入；c) 论文未深入分析两个分支所学特征的具体互补性（如可视化）。

10. Audio Classification Models are Vulnerable to Filter Perturbations

✅ 7.5/10 | 前25% | #音频分类 | #对抗样本 | #鲁棒性 #信号处理

👥 作者与机构

第一作者：Justin Dettmer（RWTH Aachen University, Chair for Artificial Intelligence Methodology）
通讯作者：未说明
作者列表：
- Justin Dettmer（RWTH Aachen University, Chair for Artificial Intelligence Methodology）
- Annelot Bosman（Leiden University, Leiden Institute of Advanced Computer Science）
- Igor Vatolkin（RWTH Aachen University, Chair for Artificial Intelligence Methodology）
- Holger Hoos（RWTH Aachen University, Chair for Artificial Intelligence Methodology; Leiden University, Leiden Institute of Advanced Computer Science）

💡 毒舌点评

本文最大的亮点在于将对抗扰动从“像素/采样点级噪声”升维到更具物理和语义意义的“频域滤波器”，使得攻击更贴近真实世界中录音设备差异造成的频谱失真，这种更现实的威胁建模思路值得肯定。然而，论文虽然证明了当前模型对此脆弱，但提出的对抗训练解决方案计算成本高达10倍，且缺乏与现有多样性音频增强（如FilterAugment）方法的直接鲁棒性对比，使得“防御有效性”的结论稍显单薄。

🔗 开源详情

代码：提供了GitHub仓库链接：https://github.com/ADA-research/AdvFilters
模型权重：未提及是否公开实验中所用的微调后模型权重。
数据集：使用的NSynth、ESC-50、SpeechCommands均为公开数据集，但论文未说明获取方式（可推断通过标准途径获取）。
Demo：未提及。
复现材料：论文详细描述了训练和评估的流程、超参数及代码入口，复现性高。
引用的开源项目：依赖于开源预训练模型PaSST（Koutini et al.）和CNN14/PANNs（Kong et al.）。

📌 核心摘要

问题：当前针对音频分类模型的对抗攻击研究大多生成不自然、人类易察觉的波形噪声，无法模拟真实场景中因录音设备或声学环境差异导致的频谱变化，从而不能准确评估模型的现实鲁棒性。
方法核心：提出了一种基于带通滤波器的对抗攻击方法。该方法修改了经典的投影梯度下降（PGD）算法，将待优化的扰动约束为一个在梅尔频谱图各频段上独立作用的滤波器向量，该滤波器在时间维度上保持恒定。
创新点：与传统在波形或频谱图上逐点添加噪声的攻击不同，该方法产生的扰动在物理上更可解释（模拟设备频率响应），且可调参数更少，但攻击依然有效。
实验结果：在NSynth、ESC-50和SpeechCommands三个数据集上，对PaSST和CNN14模型进行的实验表明：a) 所提出的滤波器PGD攻击显著优于随机搜索基线（除CNN14/NSynth组合外，p < 0.05）；b) 即使在较小的扰动预算（ε）下，基线模型准确率也大幅下降（见图1）；c) 使用该攻击方法进行对抗训练能有效提升模型在相应ε下的鲁棒性，但存在与干净样本准确率的轻微权衡（见图2）。论文未提供准确率下降的具体百分比数值。
实际意义：提醒音频模型开发者需重视由真实声学条件（如不同麦克风）引起的频谱偏移带来的脆弱性，并提供了更具现实意义的评估工具和防御训练方法。
主要局限性：a) 对抗训练的计算成本极高（最高达10倍）；b) 未研究滤波器扰动对人类听觉感知的具体影响（与噪声攻击的对比）；c) 未将攻击约束为更具体的、离散的现实设备滤波器集；d) 未使用神经网络验证工具提供可证明的鲁棒性保证。

11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification

✅ 7.5/10 | 前10% | #音频分类 | #数据增强 | #多任务学习

👥 作者与机构

第一作者：Seung Gyu Jeong（首尔科技大学应用AI系）
通讯作者：Seong-Eun Kim（首尔科技大学应用AI系）
作者列表：Seung Gyu Jeong（首尔科技大学应用AI系），Seong-Eun Kim（首尔科技大学应用AI系）

💡 毒舌点评

亮点在于论文系统性地指出了一个在多周期拼接方法中普遍存在但易被忽视的实际问题（多标签分布偏差），并提出了一个简单有效的三标签公式进行纠正，具有明确的临床直觉和可解释性。短板是作为主要正则化手段的“患者匹配”辅助任务，其带来的性能增益（如表3所示，+0.25分）在统计上并不显著，使得该核心创新点略显乏力；同时，论文对关键训练细节（如超参数、硬件）的交代不够完整，影响了可复现性。

🔗 开源详情

代码：论文中未提及任何代码仓库链接或开源计划。
模型权重：未提及公开的模型权重。
数据集：使用公开的ICBHI 2017呼吸音数据库，但论文未说明数据获取方式或预处理脚本。
Demo：未提及在线演示。
复现材料：论文提供了实验设置的部分描述（如数据集划分、音频采样率、梅尔频谱图参数、固定输入长度），但缺失了大部分训练超参数和硬件信息，不足以完全复现。
引用的开源项目：论文引用了AST、BEATs等预训练模型作为骨干网络，这些是公开的。

📌 核心摘要

要解决什么问题：呼吸音自动分类面临两个主要限制：一是传统方法多为单周期分析，忽略了病理音在真实听诊中短暂且间歇出现的时序上下文；二是模型容易过拟合到特定患者的声学特征，而非通用的病理特征。
方法核心是什么：提出PC-MCL框架，包含三个核心组件：a) 多周期拼接作为数据增强，以模拟更真实的听诊场景；b) 一种新的3标签（正常、爆裂音、哮鸣音）标注方案，用于纠正传统2标签方案在拼接混合周期时导致的“正常”信息丢失问题；c) 一个患者匹配辅助任务，作为正则化器以减轻患者特异性过拟合。
与已有方法相比新在哪里：最关键的新颖性在于识别并解决了“多标签分布偏差”——即在使用传统2标签方案时，将正常周期与异常周期拼接后，标签会完全变成异常标签，从而系统性地削弱了模型对正常信号的建模能力。本文提出的3标签独立建模方案是解决此问题的关键。
主要实验结果如何：在ICBHI 2017基准数据集上，PC-MCL（使用BEATs骨干网络）达到了65.37% 的ICBHI Score，超过了此前最佳的64.84%。消融实验表明，多标签公式对提高灵敏度（+2.31%）贡献最大，而患者匹配任务则进一步提升了特异性和整体分数。与基线CE模型相比，在两个不同骨干网络（AST， BEATs）上均带来了显著的性能提升（分数提升约3-4个百分点）。
实际意义是什么：该框架提升了呼吸音分类的鲁棒性和泛化能力，对于辅助肺部疾病的低风险、低成本筛查具有潜在价值。它强调了在医疗音频分析中，数据增强策略需谨慎设计以保持标签的生物学合理性。
主要局限性是什么：a) 患者匹配辅助任务的贡献相对较小且不够稳定；b) 训练和推理之间存在微小的领域偏移（训练用拼接长音频，推理用单周期短音频），尽管论文称其稳健，但未深入分析；c) 论文未提供代码和模型权重，且关键训练细节缺失。

12. FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention

✅ 7.5/10 | 前25% | #音频分类 | #多模态模型 | #恶意软件检测 #双曲神经网络

👥 作者与机构

第一作者：Nitin Choudhury (印度信息技术学院德里分校， IIIT-Delhi)， Bikrant Bikram Pratap Maurya (印度信息技术学院德里分校， IIIT-Delhi) （论文指出两位作者贡献相等，共同作为第一作者）
通讯作者：Orchid Chetia Phukan (orchidp@iiitd.ac.in) （印度信息技术学院德里分校， IIIT-Delhi）
作者列表：Nitin Choudhury (IIIT-Delhi)， Bikrant Bikram Pratap Maurya (IIIT-Delhi)， Orchid Chetia Phukan (IIIT-Delhi)， Arun Balaji Buduru (IIIT-Delhi)

💡 毒舌点评

亮点：首次将双曲空间和双曲交叉注意力机制引入多模态恶意软件分类，为融合具有潜在层次关系的模态数据提供了新颖且理论优雅的解决方案，实验结果也确实证明了其有效性。短板：论文虽展示了性能提升，但对于“音频模态编码细粒度字节特征，视觉模态捕获高层空间结构”这一层次假设的实证分析不足，且双曲计算带来的额外开销与性能收益的权衡讨论缺失。

🔗 开源详情

代码：提供代码仓库链接：https://github.com/nitinc24009/FOCA.git
模型权重：论文中未提及公开的模型权重文件。
数据集：使用了公开的CICMalDroid2020和Mal-Net数据集。Mal-Net的APK样本通过Androzoo获取。
Demo：论文中未提及在线演示。
复现材料：提供了详细的训练细节（损失函数、优化器、学习率、批量大小、轮数、交叉验证策略）和模型参数量信息（2.7M-4.5M），有助于复现。
引用的开源项目：论文中提及使用了HuggingFace上的预训练模型：Wav2vec2, WavLM, HuBERT, ResNet50, VGG19, ViT。代码仓库可能依赖于这些模型及相关库（如PyTorch, Torchaudio）。

📌 核心摘要

问题：恶意软件不断演化，传统分类方法易受规避。多模态融合是提升鲁棒性的有效途径，但现有方法未充分利用音频和视觉模态之间隐含的层次关系。
方法核心：提出FOCA框架，将恶意软件二进制文件转换为音频和图像表示。使用预训练模型提取特征后，通过一个双曲投影模块将特征映射到庞加莱球空间，然后利用新颖的双曲交叉注意力（HCA）机制在曲率感知的约束下对齐双模态依赖，最后通过莫比乌斯加法进行融合。
新意：首次在恶意软件分类任务中利用双曲空间进行多模态融合，以显式建模音频与视觉表征间的层次结构；提出了专门的双曲交叉注意力机制。
实验结果：在CICMalDroid2020和Mal-Net两个基准数据集上，FOCA（使用HuBERT+ViT）分别取得了99.10% 和 82.84% 的分类准确率，显著优于所有单模态模型、简单拼接、欧几里得交叉注意力基线及先前的SOTA方法。t-SNE可视化显示FOCA能产生更紧凑、分离度更高的聚类。
实际意义：为恶意软件检测提供了更强大、更鲁棒的分类框架，证明了双曲多模态融合是提升分类性能的有效新方向。
主要局限性：对音频与视觉模态间“层次关系”的假设缺乏更深层的验证或分析；未详细讨论双曲计算的额外复杂性；实验未在更多样化或更大规模的恶意软件数据集上进行验证。

13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices

✅ 7.5/10 | 前25% | #音频分类 | #脉冲神经网络 | #边缘计算 #生物启发计算

👥 作者与机构

第一作者：Bin Liu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室）
通讯作者：Wenjuan Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室，邮箱：wenjuan.li@ia.ac.cn）
作者列表：Bin Liu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Wenjuan Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Bing Li（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Chunfeng Yuan（中国科学院自动化研究所多模态人工智能系统国家重点实验室）、Kun Shang（广东省无创脑机接口多模态重点实验室）、Shaobing Gao（四川大学计算机科学与技术学院）、Weiming Hu（上海科技大学信息科学与技术学院，中国科学院自动化研究所多模态人工智能系统国家重点实验室）

💡 毒舌点评

这篇论文的亮点在于其高度原创的“生物启发式”架构设计，将小波变换、脉冲神经网络与双通路处理有机结合，为解决音频分类在边缘设备上的部署难题提供了新颖且有效的思路，参数效率指标（1.9M参数达95.91%准确率）极具吸引力。但其短板也很明显：一是实验仅在多个中小型数据集上验证，缺乏对更大规模、更复杂真实场景的测试，且所有模型均为“从头训练”，未能与当前主流的预训练范式进行公平对比，削弱了其结论的普适性；二是虽然声称面向边缘部署，但未提供在实际嵌入式设备（如STM32、RISC-V）上的功耗与延迟实测数据，效率分析仍停留在FLOPs和模拟器层面。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用了公开基准数据集（US8K, ESC-50, SCV2, GTZAN, AudioSet），但论文未说明其具体获取方式。
Demo：未提及。
复现材料：论文提供了详细的训练设置（数据预处理、增强、优化器、学习率策略、损失权重）、模型变体规格（参数量、尺寸）和硬件环境（4x RTX 2080 Ti），但这些信息分散在正文和表格中，未提供统一的配置文件或检查点。附录未提供额外细节。
论文中引用的开源项目：未明确提及。
总结：论文中未提及开源计划。尽管给出了较多训练细节，但由于核心代码和权重未公开，其可复现性较低。

📌 核心摘要

要解决的问题：在IoT和边缘计算背景下，音频分类模型面临高性能（大参数）与低资源（有限算力/内存）之间的根本矛盾。现有模型要么参数冗余无法部署，要么压缩后精度下降显著。
方法核心：提出WaveSpikeNet，一种受人类听觉系统启发的轻量级架构。其核心包括：(1) 可学习离散小波变换（LDWT）进行任务自适应的频率分解；(2) 模仿听觉皮层“腹侧-背侧”通路的双通路异构处理架构，分别使用传统的残差块处理低频稳态特征，使用简化的Leaky Integrate-and-Fire（LIF）脉冲神经网络处理高频瞬态特征；(3) 多级注意力融合模块进行有效整合。
与已有方法相比新在哪里：首次成功地将可学习小波变换、脉冲神经网络和多级注意力机制融合用于音频分类。与传统的同质化（如全卷积）或均匀压缩方法不同，它通过生物启发的异构处理（低频CNN，高频SNN）来提升参数效率，而非简单地减少参数量。
主要实验结果：在UrbanSound8K数据集上，Base模型（1.9M参数）达到95.91%准确率，超越参数量为其4倍多的ResNetSE（7.8M参数，95.07%），参数效率（准确率/参数量）显著提升。在ESC-50、GTZAN等数据集上也从头训练取得有竞争力的结果。在AudioSet上，以约35倍少于CNN14的参数量，取得了更高的mAP（0.234 vs 0.221）。消融实验验证了双通路设计、可学习小波和脉冲机制的有效性。
实际意义：为在资源受限的边缘设备（如树莓派）上部署高性能音频分类模型提供了一种有前景的新架构，可能推动智能传感在智能家居、工业监测等领域的应用。
主要局限性：(1) 缺乏在真实物理边缘设备上的功耗、延迟等硬件指标实测；(2) 所有实验均为从头训练，未能与当前主流的预训练-微调范式进行对比，其性能上限和泛化能力有待进一步验证；(3) 论文未提供代码、模型权重等开源材料，可复现性存疑。

14. Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing

✅ 7.5/10 | 前25% | #音频分类 | #自适应处理 | #信号处理 #音频前端

👥 作者与机构

第一作者：Hanyu Meng（悉尼新南威尔士大学，The University of New South Wales, Sydney, Australia）
通讯作者：未说明
作者列表：Hanyu Meng（悉尼新南威尔士大学）、Vidhyasaharan Sethu（悉尼新南威尔士大学）、Eliathamby Ambikairajah（悉尼新南威尔士大学）、Qiquan Zhang（阿里巴巴集团，通义语音实验室，Tongyi Speech Lab, Alibaba Group, China）、Haizhou Li（香港中文大学（深圳）人工智能学院，School of Artificial Intelligence, The Chinese University of Hong Kong, Shenzhen, China）

💡 毒舌点评

论文的亮点在于将自适应机制从频谱分解（如滤波器Q值）下沉到了动态范围压缩（PCEN）阶段，并通过一个极简的神经控制器实现，思路清晰且在多个任务上验证了有效性，特别是在噪声和响度变化场景下表现突出。然而，其“自适应”本质上仍是对两个参数进行实时回归预测，创新程度有限，且未与当前更强的音频表示学习（如AST, BYOL-A等）或端到端自适应方法进行充分对比，说服力稍显不足。

🔗 开源详情

代码：提供了GitHub代码仓库链接：https://github.com/Hanyu-Meng/LEAF-APCEN。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：使用了四个公开数据集（ESC-50, FMA-Small, CREMA-D, VoxCeleb1），论文中未提及是否提供数据集下载脚本或处理代码。
Demo：未提供在线演示。
复现材料：论文详细说明了模型配置（如滤波器数、GRU隐藏层大小、训练超参数等），并提及“详细数值设置请参见第3.2节”，为复现提供了基础。未提供预训练检查点或配置文件。
论文中引用的开源项目：代码基于LEAF框架（参考文献[6]），后端使用了EfficientNetB0（参考文献[29]）。训练使用了Adam优化器（参考文献[30]）。

📌 核心摘要

本文旨在解决传统可学习音频前端（如LEAF）参数在训练后固定，无法适应动态复杂声学环境（如背景噪声、响度变化）的问题。方法核心是提出一个名为LEAF-APCEN的自适应前端框架。它首先将原始四参数的PCEN简化为仅包含α和γ两个关键参数的SimpPCEN；然后，设计了一个轻量级神经控制器，该控制器以当前帧的子带能量和上一帧的处理结果为输入，通过双向GRU和MLP动态预测当前帧的SimpPCEN参数，从而实现输入依赖的、时频自适应的动态范围压缩。与已有方法相比，新在两点：1）首次将音频前端的自适应调节聚焦于子带能量归一化（PCEN）环节，而非滤波器组设计；2）实现了完全由神经网络驱动的、闭环的参数自适应，而非预定义的调整策略。主要实验结果在四个音频分类任务（环境声、音乐流派、语音情感、说话人识别）上进行了验证。在干净条件下，LEAF-APCEN在除音乐流派外的任务上均取得最优，例如在说话人识别（VoxCeleb1）上比固定LEAF提升8.5个百分点（41.34% -> 49.84%）。在复杂声学条件下（混合噪声与响度变化），LEAF-APCEN优势更加明显，在声场分类、语音情感和说话人识别任务上大幅领先基线，如在声场分类（ESC-50）上达到55.75%（Fixed LEAF为40.00%）。实际意义在于，它为构建更鲁棒的音频感知系统提供了一种轻量、有效的自适应前端设计方案，能够提升各类音频应用在现实复杂环境中的性能。主要局限性包括：自适应机制局限于PCEN参数，未联合前端其他组件；实验对比未涵盖最新的音频基础模型；论文未提供多通道或流式处理场景的验证。

15. Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

✅ 7.5/10 | 前25% | #音频分类 | #对比学习 | #少样本学习 #增量学习

👥 作者与机构

第一作者：Kai Guo（北京理工大学）
通讯作者：Xiang Xie†*（北京理工大学， †北京理工大学珠海校区）
作者列表：Kai Guo（北京理工大学）， Xiang Xie（北京理工大学，北京理工大学珠海校区）， Shangkai Zhao（北京理工大学）

💡 毒舌点评

该论文精准地“手术”解决了EDE模型膨胀的痛点，并通过引入对比学习“补血”提升性能，实验结果亮眼，工程改进思路清晰。但理论分析稍显薄弱，为何自适应融合后对比学习效果更佳，未给出更深层次的解释；且对比学习的应用较为常规，未探索更前沿的对比策略。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开预训练或微调的模型权重。
数据集：论文提供了三个数据集（FSC-89， LS-100， NSynth-100）在ModelScope上的链接，表明数据集是可获取的。
Demo：未提及在线演示。
复现材料：论文详细描述了实验设置（骨干模型、超参数、训练轮数、硬件等），提供了足够信息以尝试复现，但未提供完整的代码或训练脚本。
论文中引用的开源项目：依赖的核心开源项目是AST（Audio Spectrogram Transformer），论文使用了其在AudioSet上预训练的版本。其他引用的基准方法（如iCaRL, FACT, PAN）来自先前工作，论文未说明是否使用其官方实现。

📌 核心摘要

问题：论文针对“全少样本类增量音频分类”（FFCAC）任务，即每个新类音频样本极少且需持续学习新类别的场景。现有基线方法EDE通过拼接多个特征提取器的输出来保留旧知识，但导致模型输入维度随学习进程无限膨胀，影响效率与性能。
方法核心：提出“自适应嵌入融合EDE（AEF-EDE）”。核心是引入一个可学习的加权融合模块，将不同时期（会话）的特征提取器输出进行加权求和，而非简单拼接，从而固定模型输入维度。同时，在增量学习阶段引入监督对比学习损失（LCL），以增强特征的判别性。
创新点：(1) 设计AEF模块，通过可学习参数自适应融合多会话嵌入，避免模型膨胀；(2) 将对比学习策略从基类会话（样本少）调整至增量会话（样本相对多），并证明其在AEF结构下能有效提升性能；(3) AEF与对比学习的结合在多个数据集上超越了原始EDE。
主要实验结果：在三个数据集上，AEF-EDE的平均准确率（AA）均优于EDE和其他方法。例如，在FSC-89上AA为43.39%（EDE为38.74%），在LS-100上为61.15%（EDE为56.65%），在NSynth-100上为56.44%（EDE为51.19%）。消融实验证实了AEF模块与对比学习损失（LCL）的协同有效性。
实际意义：为资源受限的音频持续学习场景（如野外声音监测）提供了一种更高效、可扩展的解决方案。
主要局限性：对比学习在基类会话中因样本过少而失效，作者承认这是未来工作方向；论文未讨论AEF模块的计算复杂度与EDE的具体对比；可学习参数θ的初始化和收敛性未深入分析。

16. Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

✅ 7.5/10 | 前25% | #音频分类 | #增量学习 | #灾难性遗忘 #Hebbian学习

👥 作者与机构

第一作者：Riccardo Casciotti (Tampere University, Signal Processing Research Centre)
通讯作者：未说明
作者列表：Riccardo Casciotti (Tampere University, Signal Processing Research Centre), Francesco De Santis (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Alberto Antonietti (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Annamaria Mesaros (Tampere University, Signal Processing Research Centre)

💡 毒舌点评

亮点：巧妙借用神经科学中的“多巴胺调节”概念，设计了一个简单而有效的核可塑性调制规则，在Hebbian学习框架下稳定了记忆，这是一个优雅的生物启发式工程实现。短板：所有验证仅基于一个规模和难度都有限的环境声数据集ESC-50，这使得“显著提升”和“生物合理性”的说法缺乏更有力的普适性证据，让人怀疑该方法在更大、更复杂的音频任务（如语音、音乐）或开放集增量学习中的真实效用。

🔗 开源详情

代码：是，论文提供了代码仓库链接 https://github.com/RiccardoCasciotti/Hebbian-TIL。
模型权重：论文中未提及公开的预训练模型权重。
数据集：使用的是公开的ESC-50数据集，论文未提及数据获取的特殊说明。
Demo：论文中未提及在线演示。
复现材料：论文给出了关键超参数（top K， α， β，监控间隔）、模型架构描述和评估指标公式。代码仓库应包含更多实现细节。
论文中引用的开源项目：提到了SoftHebb架构 [16]（其基础代码可能已开源），并依赖于ESC-50 [21] 和 UrbanSound8K [26] 数据集。

📌 核心摘要

要解决什么问题：深度学习模型在增量学习（持续学习新任务）时普遍遭遇“灾难性遗忘”，即学习新知识会导致对旧知识的严重遗忘。本文针对音频分类任务，旨在解决此问题。
方法核心是什么：提出一种基于Hebbian学习（生物启发式、无监督）深度神经网络的增量学习方法。其核心创新是“核可塑性”机制，通过监测卷积核在训练中的权重变化和激活值，识别并保护对当前任务重要的“核心核”，同时增强其他核的学习率（可塑性），以此调制网络的学习过程。
与已有方法相比新在哪里：据作者称，这是首次将Hebbian学习与增量学习相结合。与传统基于反向传播的增量学习方法（如EWC）不同，该方法在无监督的特征提取阶段就引入了生物启发的稳定性-可塑性平衡机制，而非仅在损失函数或权重更新上做约束。
主要实验结果如何：在ESC-50数据集的五步任务增量学习设置中，所提方法（带KP）的最终总体准确率为76.3%，显著高于不使用KP的基线（68.7%），并远优于EWC基线（33%）。同时，增量学习指标（FM， BWT）证实了该方法在保留旧任务知识方面的优势。
实际意义是什么：为音频智能系统（如持续识别新环境声音）提供了一种潜在的、计算更生物合理的增量学习范式，可能有助于构建更鲁棒、能持续演化的音频AI模型。
主要局限性是什么：验证数据集（ESC-50）规模小且任务简单；方法依赖任务标签（任务增量学习），未验证在更通用的类增量学习场景下的有效性；性能与同架构的联合学习相比并无优势，表明方法的增量学习能力提升是以牺牲部分模型容量或学习效率为代价的。

17. Attentive Masked Self-Distillation for Respiratory Sound Classification

✅ 7.5/10 | 前25% | #音频分类 | #知识蒸馏 | #数据增强 #医学音频

👥 作者与机构

第一作者：Nuo Chen（浙江大学集成电路学院）
通讯作者：Mingsheng Xu（浙江大学集成电路学院）
作者列表：Nuo Chen（浙江大学集成电路学院）、Mingsheng Xu（浙江大学集成电路学院）

💡 毒舌点评

亮点：论文针对呼吸声分类中数据预处理（循环填充）引入的捷径学习问题，设计了一个巧妙的“注意力掩码”机制，能动态地屏蔽模型容易过度依赖的声谱图区域，这比随机掩码更具针对性，且可视化结果令人信服。短板：尽管在ICBHI上取得了SOTA级别的性能，但实验仅在一个中等规模的数据集上进行，且模型骨架（AST）的参数量巨大（~90M），对于实际的医疗边缘部署可能并不友好，论文对此的讨论不足。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/CcnNnn/AMS-D。
模型权重：论文中未提及是否公开预训练或训练好的模型权重。
数据集：使用公开的ICBHI 2017数据集，但未在论文中说明具体获取方式（通常需自行申请）。
Demo：论文中未提及在线演示。
复现材料：论文给出了主要训练细节：优化器（Adam）、学习率（5e-5及衰减策略）、Batch size（24）、训练轮数（50）、损失函数权重（α=1.0, β=0.03, γ=0.3）、掩码比例（39%）。但未提供完整的配置文件、检查点或环境依赖说明。
论文中引用的开源项目：
- 核心骨干模型：Audio Spectrogram Transformer (AST) [3]。
- 数据集：ICBHI 2017呼吸声数据库 [17]。
- 对比方法：Patch-Mix [4], LungAdapter [18], MVST [20], Gap-Aug [6] 等。
- 训练工具：Adam优化器 [19]。

📌 核心摘要

这篇论文旨在解决基于Transformer的呼吸声分类模型因参数量大、训练数据少而导致的过拟合，以及因音频预处理（循环填充）引入的冗余信息导致的捷径学习问题。方法核心是提出一个名为“注意力掩码自蒸馏”的框架，它结合了渐进式自蒸馏（将前一epoch模型作为教师，用KL散度对齐logits）和一种创新的注意力掩码策略：利用教师模型的特征通过Token权重模块计算每个token的重要性，并在当前epoch的学生模型中掩蔽掉最显著（即最可能成为捷径特征）的token。此外，模型还引入了一个重建任务，以掩蔽的token为目标进行重建，作为正则化项增强表示的鲁棒性。与已有方法相比，其新意在于将知识蒸馏、针对捷径特征的主动掩蔽以及重建正则化三者有机结合。在ICBHI数据集上的实验表明，该方法取得了具有竞争力的结果，敏感性达到60.92%，ICBHI综合得分为67.54%，优于Gap-Aug等强基线。消融实验和可视化分析证实了各组件的有效性以及模型关注临床相关声学区域的能力。该工作的实际意义在于为医疗音频分析提供了一种更鲁棒、泛化能力更强的建模思路，但其局限性在于主要验证集中在一个公开数据集，且使用了参数量庞大的预训练模型，计算效率未做深入探讨。

方法	架构	敏感性(%)	特异性(%)	ICBHI得分(%)
Co-tunning [21]	ResNet50	37.24	79.34	58.29
Patch-Mix CL [4]	AST	43.07	81.66	62.37
SG-SCL [22]	AST	43.55	79.87	61.71
BST [23]	CLAP	45.67	81.40	63.54
LungAdapter [18]	AST	44.37	80.43	62.40
MVST [20]	AST	51.10	81.99	66.55
Gap-aug [6]	CNN14	58.20	77.07	67.64
LoRA [24]	AST	36.11	85.31	60.71
AMS-D (ours)	AST	60.92	74.16	67.54

表1: ICBHI数据集性能对比（引自论文）

掩码策略	敏感性(%)	特异性(%)	ICBHI得分(%)
无掩码	44.28	82.79	66.11
随机掩码	63.14	70.68	66.91
时间区间掩码	63.05	67.64	65.35
频率区间掩码	89.42	16.09	52.75
注意力掩码(ours)	60.92	74.16	67.54

表2: 不同掩码策略性能对比（引自论文）

模型配置	敏感性(%)	特异性(%)	ICBHI得分(%)
基线(AST)	64.47	67.15	65.81
+ 自蒸馏	44.28	82.79	66.11
+ 自蒸馏 + 掩码	49.49	74.35	61.92
AMS-D (完整)	60.92	74.16	67.54

表3: 消融实验（引自论文）

图1: AMS-D训练流程图1展示了AMS-D的整体框架：左侧为渐进式自蒸馏，t-1 epoch的教师模型提供logits用于计算蒸馏损失；右侧为注意力掩码策略，教师模型的最终层特征经Token权重模块生成掩码，应用于t epoch学生的输入，并加入了重建任务。

图2: 掩码策略可视化图2展示了在喘鸣音（crackle）声谱图上不同掩码策略的对比（上排），以及注意力掩码在不同训练阶段的选择频率热图（下排）。它表明，注意力掩码策略能动态地、结构性地屏蔽与病理特征相关的区域（如红框所示的高频区域），而非随机分散。

18. One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence

✅ 7.5/10 | 前25% | #音频分类 | #多任务学习 #彩票假设 | #多任务学习 #彩票假设

👥 作者与机构

第一作者：Maxim K. Surkov（ITMO University）
通讯作者：未说明
作者列表：Maxim K. Surkov（ITMO University）

💡 毒舌点评

亮点：论文将“彩票假设”成功应用于音频多任务学习，设计出仅3万参数即可同时处理三个任务的统一模型，且精度损失极小（AR=-1.3%），实现了单次推理下的极致效率，为边缘端音频智能提供了非常务实的优化蓝图。
短板：虽然实验对比充分，但“MTL-LTH”本质上是现有彩票假设方法的直接套用，方法论的原创性有限；此外，论文仅在三个相对简单的分类任务上验证，对于更复杂音频任务（如语音识别、情感识别）的泛化能力尚不明确。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开预训练模型权重。
数据集：使用的是公开数据集（Mozilla Common Voice, Google Speech Commands V2），但论文中未提供特定的预处理脚本或数据划分信息。
Demo：未提及在线演示。
复现材料：论文详细描述了模型架构、训练设置（优化器、学习率、batch size）、评估指标和硬件信息，提供了复现所需的核心细节。但未提供完整的训练配置、日志或附录。
论文中引用的开源项目：未提及依赖的特定开源工具或模型库。

📌 核心摘要

问题：在资源受限的边缘设备上，同时部署语音命令识别（SCR）、年龄估计（AC）和性别识别（GC）等多个音频任务面临计算开销大、参数冗余的挑战。
方法：提出将彩票假设（LTH）应用于多任务学习（MTL），通过系统性地探索共享编码器深度和多种剪枝策略（如MTL-LTH），发现一个高度稀疏的、可被所有任务共享的子网络（“中奖彩票”）。该子网络使用统一的编码器，为每个任务配备一个极简的解码器。
新意：首次在音频领域系统性地研究将彩票假设应用于多任务学习，旨在发现一个共享的、推理高效的稀疏子网络。与先前需为每个任务单独掩码、多次推理的LT4REC方法不同，本工作确保了计算图的完全共享和单次推理。
实验结果：提出的方法（MTL-LTH应用于c4架构）生成了一个总参数仅约30，000的统一模型，其参数量与单任务模型相当，比集成方法减少66%，且在三个任务上均达到或接近最佳精度，精度降低（AR）仅为-1.3%。消融实验表明，共享4层编码器（c4）是性能最优的架构配置。下表展示了核心实验结果：

表1：不同共享编码器深度（c1-c8）下的多任务学习性能（精度降低AR与参数量SIZE）

配置	硬参数共享(HS) AR	HS 参数量	HS+精简解码器(HS+RD) AR	MTL-LTH AR
c1	-4.7%	87k		-4.1%
c2	-3.4%	79.1k		-2.9%
c3	-1.4%	71k		-2.8%
c4	-1.3%	63k	-1.3%	-1.3%
c5	-2.1%	54.9k	-3.9%	-1.3%
c6	-3.0%	46.9k	-4.7%	-2.6%
c7	-3.0%	38.8k	-5.4%	-3.0%
c8	-7.0%	30.7k	-9.6%	-8.5%

表2：不同剪枝算法对比（模型大小、共享权重数、操作数OPS）

算法	AR	SIZE	SHARE	OPS
MTL-LTH c4	-1.3%	30.0k	6.7k	30.0k
MTL-LTH c5	-1.3%	30.5k	12.1k	30.5k
LT4REC c8 10%	-9.4%	30.0k	22.0k	79.0k
LT4REC c8 15%	-9.0%	29.5k	19.0k	74.7k
LT4REC c8 25%	-9.1%	28.5k	14.3k	66.0k
LT4REC c8 40%	-9.4%	26.3k	8.7k	53.0k
PS 5 cl	-20.5%	30.7k	16.5k	30.7k
LtS 1M	-6.5%	32.2k	23.5k	32.5k

意义：为构建高效、低功耗的边缘端多任务音频智能模型提供了一个清晰的设计蓝图和实证依据，证明了结合架构设计（寻找最优共享深度）与自动化剪枝（发现共享中奖彩票）的有效性。
局限性：仅在三个相对简单的音频分类任务上进行了验证；对于模型在训练数据分布外场景的鲁棒性、任务间潜在负迁移的深入分析不足；未探讨该框架在更复杂音频模型（如Transformer）上的适用性。

19. Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations

✅ 7.5/10 | 前25% | #音频分类 | #数据增强 | #音色分析 #异常检测

👥 作者与机构

第一作者：Tomoya Nishida (Hitachi, Ltd., Research and Development Group)
通讯作者：未说明
作者列表：Tomoya Nishida (Hitachi, Ltd., Research and Development Group)， Harsh Purohit (Hitachi, Ltd., Research and Development Group)， Kota Dohi (Hitachi, Ltd., Research and Development Group)， Takashi Endo (Hitachi, Ltd., Research and Development Group)， Yohei Kawaguchi (Hitachi, Ltd., Research and Development Group)

💡 毒舌点评

本文巧妙地将一个工业界的实际痛点（解释细微异常声音差异）转化为一个可研究的学术问题，并设计了一套无需稀缺配对数据的完整训练管线，这是其最大亮点。然而，模型架构（BEATs + MLP + Transformer + GPT-2）更像是针对特定任务的有效“拼装”，在模型创新性上略显平淡，且“音色感知”的框架虽然有效，但也限定了其只能解释音色类差异，面对其他类型的声音变化时显得力不从心。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：未提及公开其合成的差异描述数据集。基础数据集AudioCaps是公开的。
Demo：未提及。
复现材料：论文详细描述了数据生成流程和模型架构，提供了主要的超参数（如学习率、滤波器参数范围），但缺少完整的训练配置（如batch size）和最终模型检查点信息。
论文中引用的开源项目：使用了BEATs作为音频编码器，GPT-2作为文本解码器，AudioCaps作为基础数据集。

📌 核心摘要

问题：在机器异常声音检测中，不仅需要检测异常，更需要解释异常声音与正常声音的细微差异。然而，训练此类解释模型面临两大挑战：(1) 缺乏目标机器的正常-异常配对训练数据；(2) 真实差异往往很细微，现有方法难以捕捉。
方法核心：提出一个无需配对数据的音色感知音频差异描述框架。核心是通过合成扰动生成训练数据：基于音频描述数据集（AudioCaps），对原始音频施加能改变特定音色属性（如明亮度、低沉度）的微小变换，然后利用LLM自动生成描述这种音色变化的差异文本。同时，设计一个显式融合音色度量指标的模型来捕捉细微差异。
新意：与之前需要配对数据或只能描述大差异的方法相比，本文创新在于：(i) 提出了一个利用合成扰动生成“音频对+差异描述”三元组的自动数据管线；(ii) 设计了一个在推理时也融入计算音色指标的模型，增强了对细微变化的敏感性。
结果：在基于DCASE挑战的真实正常-异常机器声音对上的主观评估中，本文方法获得了最高的平均意见分数（MOS）。如图3所示，其MOS在“Slider”、“Fan”等机器类型上显著高于基线方法。消融实验证明，引入音色条件后，预测音色变化方向的准确率从56.7%提升至89.8%。
意义：为工业设备的预测性维护提供了一种可解释的辅助工具，能够生成符合人类感知的文本来描述声音的细微异常变化。
局限：模型主要针对音色类差异进行设计和优化，对于时间结构变化或新声音事件出现等其他类型的差异解释能力有限（如图4(c)所示）。此外，合成数据可能无法完全覆盖真实异常的复杂分布。

20. Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

✅ 7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试

👥 作者与机构

第一作者：Karim El Khoury† (ICTEAM, UCLouvain, Belgium)， Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium)， Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) （论文注明†表示贡献均等）
通讯作者：未说明
作者列表：Karim El Khoury (ICTEAM, UCLouvain, Belgium)， Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium)， Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium)， Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium)， Benoît Macq (ICTEAM, UCLouvain, Belgium)

💡 毒舌点评

本文提出的“熵最小化”加权策略，是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案，其轻量级（可忽略的计算开销）和无需标注数据的特性使其具备即插即用的实用价值。然而，整篇论文的创新和验证都高度绑定在一个较为陈旧的模型（CLAP-2022）上，缺乏在新近、更强大的音频-语言模型（如Audio-MAE， Pengi）上的验证，这极大地限制了其贡献的通用性和时效性。

🔗 开源详情

代码：论文中未提及代码仓库链接。
模型权重：未提及公开的模型权重（包括预训练ALM权重和优化后的权重向量β）。
数据集：评估所用的数据集（ESC-50， US8K等）为公开学术数据集，但论文未提供获取或预处理的特别说明。
Demo：未提及。
复现材料：提供了优化算法伪代码（Algorithm 1）和关键公式（4, 5, 6），以及详细的超参数设置（表3，表4）。未提供检查点或附录中的额外细节。
论文中引用的开源项目：主要依赖CLAP-2022模型[5]及其相关工作[6, 7]。
论文中未提及开源计划。

📌 核心摘要

要解决什么问题：零样本音频-语言模型（ALMs）的性能对文本提示的措辞极其敏感，使用多提示集成（如平均嵌入、多数投票）是常见缓解方法，但简单集成忽略了不同提示的性能差异，且需要大量工程。
方法核心是什么：本文提出一种熵引导的提示加权方法。通过优化一个加权向量β来组合不同文本模板的预测结果，其核心优化目标是最小化最终预测分布的熵（以低熵作为高置信度的代理），并包含防止偏离零样本预测的正则化项和鼓励权重分布平滑的熵正则化项。
与已有方法相比新在哪里：与传统的多数投票、平均嵌入或其熵加权/剪枝变体不同，本文方法将提示集成为一个可优化的问题，通过一个显式的、可推导的迭代算法来寻找最优权重。该方法是纯零样本的，无需标注数据，且可以应用于单个样本或整个数据集。
主要实验结果如何：在五个音频分类数据集（ESC-50， ESC-Actions， US8K， SESA， VS）上，该方法（数据集级β优化）相比零样本预测平均提升1.4%准确率，相比六种基线集成方法平均提升0.9%-1.4%。在ESC-Actions上提升最高达3.8%。实验还包括了针对正则化参数λzs和剪枝策略的消融研究。

主要实验结果表格（表2）：

方法	ESC-50	ESC-Actions	US8K	SESA	VS	平均
零样本预测	82.6	87.7	75.0	66.7	46.9	71.8
基线集成方法（6种，平均）	~81.6	~90.1	~75.6	~66.7	~47.1	~72.2
本文方法：单样本β	82.9	90.0	74.9	67.2	47.7	72.5
本文方法：数据集β	83.5	90.5	77.3	66.8	47.9	73.2
本文方法：数据集β+剪枝	83.5	91.5	77.4	66.8	48.9	73.6

注：基线集成方法的具体数值见论文表2，此处为估算平均值以突显对比。

实际意义是什么：提供了一个轻量、即插即用的模块，可以无缝集成到现有ALM零样本分类流程中，通过优化提示权重自动提升性能，减轻了人工设计和筛选提示的负担。
主要局限性是什么：所有实验均基于同一个预训练模型（CLAP-2022），该模型已发布数年，未在更新、性能更强的ALM上进行验证；方法的有效性依赖于初始模板集合的质量，论文未探讨如何自动或启发式生成高质量模板；优化过程依赖于批量数据（尽管支持单样本），在严格流式场景下的适用性未讨论。

图1：各数据集相对于零样本预测的准确率提升总结图图1展示了本文方法在五个数据集上相对于零样本预测的准确率提升。可以清晰地看到，其性能提升（尤其是数据集β+剪枝版本）一致优于“多数投票”和“嵌入平均”两种基线集成方法。

图2：35个提示模板在五个数据集上的准确率分布箱线图图2展示了35个手工设计模板在各个数据集上的分类准确率分布。箱线图的离散度清晰地表明，不同提示模板的性能存在巨大差异，这直接说明了进行提示加权的必要性。

21. Directly Trained Spiking Neural Networks with Adaptive Phase Coding

✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络

👥 作者与机构

第一作者：Huaxu He（广东智能科学技术研究院，河南大学）
通讯作者：Yang Liu（河南大学计算机与信息工程学院），Chio-In IEONG（广东智能科学技术研究院）
作者列表：Huaxu He（广东智能科学技术研究院，河南大学）、Zhixing Hou（广东智能科学技术研究院）、Mingkun Xu（广东智能科学技术研究院）、Yongsheng Huang（广东智能科学技术研究院）、Yang Liu（河南大学计算机与信息工程学院）、Chio-In IEONG（广东智能科学技术研究院）

💡 毒舌点评

亮点：论文提出的“自适应相位编码”机制概念清晰、实现简洁，且巧妙地通过“层间时间打乱”消融实验，为“网络是否真的在利用时间信息”这一核心假设提供了直接证据，这在SNN可解释性研究中很有价值。
短板：创新深度有限，本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子；实验部分未能与近年来涌现的多种直接训练SNN方法（如SLTT、GLIF等）进行公平、全面的对比，削弱了其宣称的“改进”的说服力。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：未提及。论文使用的数据集（CIFAR10/100， DVS-Gesture， SHD）均为公开标准数据集。
Demo：未提及。
复现材料：论文提供了一些关键设置（骨干网络名称、时间步数、APC参数初始化及约束策略），但缺少完整的训练脚本、配置文件和详细参数。
论文中引用的开源项目：论文引用了QKFormer [19]作为骨干网络，这是构建在其上的一个开源SNN模型。其他引用多为通用SNN研究。

📌 核心摘要

本文旨在解决直接训练的脉冲神经网络（SNN）在利用脉冲时间信息方面的不足，现有方法大多退化为等效的速率编码，限制了SNN处理时序信息和实现低功耗的潜力。为此，论文提出了“自适应相位编码”（APC）机制，其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数（β_t, λ_t），用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同，APC使网络能在端到端训练中自主学习每个时间步的重要性，并且该参数被扩展至每个层的每个通道，以实现更精细的时序调制。实验结果表明，在静态数据集CIFAR-10/100上，APC能将脉冲发放率降低约20%，同时精度仅下降约0.85%；在时序数据集DVS-Gesture和SHD上，APC显著提升了分类精度，分别提高了1.73%和17.76%，其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明，APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块，能提升其在时序任务上的性能。主要局限性在于，在静态数据集上精度略有下降，且实验验证的骨干网络和任务类型相对单一。

22. Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #Conformer #鲁棒性

👥 作者与机构

第一作者：Milan Marocchi, Matthew Fynn（*表示贡献相等）
通讯作者：未说明
作者列表：Milan Marocchi（Curtin University），Matthew Fynn（Curtin University），Yue Rong（Curtin University）
机构：Curtin University, Bentley 6102, WA, Australia（未说明具体学院或实验室）

💡 毒舌点评

论文的亮点在于将相对复杂的Conformer架构成功应用于心音信号，并设计了一个实用的多通道噪声段拒绝流程，在真实噪声数据集上验证了其有效性。短板是，其噪声拒绝核心算法（能量阈值）的创新性较为有限，且消融实验部分缺失，使得我们难以精确评估各个组件（如对比学习、中心损失、噪声拒绝）的具体贡献。

🔗 开源详情

代码：提供了完整的代码仓库链接：https://github.com/MilanMarocchi/noise-robust-cad-conformer。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：数据集来自特定医院的采集，论文中未提及公开该数据集。
Demo：未提供在线演示。
复现材料：论文提供了详细的超参数配置（表1）、训练策略、硬件环境、评估指标定义等，有利于复现。代码仓库的提供是最大的复现支持。
论文中引用的开源项目：提到了使用的开源工具包括PyTorch、Optuna（用于超参优化）、AdamW优化器（参考文献[14]）。

📌 核心摘要

要解决什么问题：在真实临床噪声环境下，提高基于心音图（PCG）信号的冠状动脉疾病（CAD）检测的鲁棒性和准确性。
方法核心是什么：提出一个包含噪声感知预处理和深度学习分类的端到端流程。核心包括：(1) 一种基于能量的多通道噪声段拒绝算法，利用听诊器内置的心声麦克风（HM）和噪声参考麦克风（NM）识别并剔除受非平稳噪声污染严重的信号段；(2) 一个将梅尔频率倒谱系数（MFCC）作为输入的Conformer编码器，并结合监督混合对比学习（包含对比损失、分类损失和中心损失）进行训练。
与已有方法相比新在哪里：首次将Conformer模型应用于心音分类任务；提出了一种联合利用HM和NM能量信息的噪声段拒绝方法；在同一个框架内集成了多通道MFCC特征提取、Conformer建模和混合对比学习，以应对真实世界噪声数据。
主要实验结果如何：在297名受试者的数据集上，所提出的方法（带噪声拒绝）在受试者级别取得了78.4%的准确率和78.2%的平衡准确率（UAR），相比不进行噪声拒绝的基线模型，准确率和UAR分别提升了4.1%和4.3%。与之前基于Wav2Vec 2.0的方法相比，准确率和UAR分别提升了1.3%和3.9%。具体实验数据如下表所示（仅列受试者级别关键指标）：

方法	准确率 (Acc)	平衡准确率 (UAR)	真阳性率 (TPR)	真阴性率 (TNR)	MCC
不带噪声拒绝的MFCC-Conformer	74.3±0.09%	73.9±0.10%	80.9±0.11%	66.9±0.30%	0.490±0.019
本文方法（带噪声拒绝的MFCC-Conformer）	78.4±0.29%	78.2±0.32%	81.9±0.49%	74.5±0.97%	0.570±0.058
Noisy Wav2Vec 2.0 [13]	77.1±1.50%	74.3±1.73%	86.5±1.30%	62.0±2.76%	0.510±0.035

实际意义是什么：为在真实世界噪声条件下（如嘈杂的医院环境）进行无创、低成本的CAD预筛查提供了更鲁棒的深度学习解决方案，有助于推动基于可穿戴设备的心脏病早期预警技术。
主要局限性是什么：实验仅在一个来源的特定数据集上进行验证；噪声拒绝算法的阈值（2.5倍中值）是固定的，缺乏自适应性讨论；论文未提供充分的消融实验以区分各技术组件（噪声拒绝、Conformer、对比学习等）的独立贡献。

23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

✅ 7.0/10 | 前50% | #音频分类 | #脉冲神经网络 | #音视频 #零样本

👥 作者与机构

第一作者：Ziyu Wang（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）
通讯作者：Wenrui Li（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）
作者列表：Ziyu Wang（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Wenrui Li（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Hongtao Chen（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Jisheng Chu（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Hengyu Man（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）、Xiaopeng Fan（哈尔滨工业大学，鹏城实验室，哈尔滨工业大学苏州研究院）

💡 毒舌点评

亮点：论文敏锐地抓住了音视频零样本学习中“时间建模”和“能效”两大痛点，提出的STFE和ETS模块设计目标明确，且通过减少时间步长实现了可观的能耗降低。短板：模型在复杂长视频（ActivityNet）上表现出的“过拟合已见类别、损害未知类别泛化”的现象，恰恰点出了其时间建模可能“用力过猛”而牺牲了通用性，这一核心矛盾在论文中未得到充分讨论和解决。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用公开数据集（VGGSound, UCF101, ActivityNet），未提及额外数据。
Demo：未提供在线演示。
复现材料：提供了主要超参数（见03.细节详述），但缺少优化器、学习率调度、数据预处理/增强细节、完整训练配置文件等。
论文中引用的开源项目：引用了预训练模型SeLaVi[17]（“Labelling unlabelled videos from scratch with multi-modal self-supervision”），但未提供其具体开源链接。
总体开源情况：论文中未提及开源计划。

📌 核心摘要

问题：现有音视频零样本学习（AVZSL）方法普遍存在时间线索利用不足的问题，常依赖简单的特征平均或基础脉冲神经元，无法捕捉深层时间依赖，且能效有待优化。
方法核心：提出脉冲时序增强网络（STEN）。其核心是在Spikeformer架构中集成可学习三元脉冲神经元（LTS）和时空融合模块（STFE），并通过增强时序Spikeformer（ETS）自适应整合相邻时间步信息。
新意：相比已有方法（如AVMST），STEN通过LTS增强特征表示能力，通过STFE联合建模时间局部动态和通道依赖，通过ETS捕获微观时序变化。同时利用脉冲神经网络（SNN）的事件驱动稀疏性，通过优化时间步长大幅降低能耗。
主要实验结果：
- 在VGGSound数据集上，GZSL调和平均（HM）达到8.04，比基线AVMST（7.68）提升4.7%，ZSL指标提升13.6%。
- 在UCF101数据集上，GZSL的HM达到34.27，比AVMST（29.91）提升14.6%，Seen类准确率大幅提升。
- 在ActivityNet数据集上，Seen类指标提升40.8%，但Unseen类和HM略有下降。
- 能效方面，与AVMST相比，SNN能耗降低41.7%，总能耗降低15.6%。
实际意义：为AVZSL任务提供了一种在保持竞争力的同时，显著降低计算能耗的解决方案，有助于将该技术部署到资源受限的边缘设备。
主要局限性：在时序更复杂、视频更长的ActivityNet数据集上，模型表现出对已见类别过拟合的倾向，牺牲了在未见类别上的泛化能力，表明其时间建模策略的稳健性有待提升。此外，论文未提及开源计划，可复现性存疑。

24. A Dynamic Gated Cross-Attention Framework for Audio-Text Apparent Personality Analysis

✅ 7.0/10 | 前25% | #音频分类 | #多模态模型 | #人格分析 #跨模态

👥 作者与机构

第一作者：Yunan Li（西安电子科技大学计算机科学与技术学院；西安大数据与智能视觉重点实验室；陕西省智能人机交互与可穿戴技术重点实验室）
通讯作者：Zixiang Lu（西安电子科技大学计算机科学与技术学院；西安大数据与智能视觉重点实验室；陕西省智能人机交互与可穿戴技术重点实验室）
作者列表：Yunan Li（同上）、Zixiang Lu（同上）、Yang Ma（西安电子科技大学计算机科学与技术学院）、Haozhe Bu（西安电子科技大学计算机科学与技术学院）、Zhuoqi Ma（西安电子科技大学计算机科学与技术学院；西安大数据与智能视觉重点实验室；陕西省智能人机交互与可穿戴技术重点实验室）、Qiguang Miao（西安电子科技大学计算机科学与技术学院；西安大数据与智能视觉重点实验室；陕西省智能人机交互与可穿戴技术重点实验室）

💡 毒舌点评

该论文提出了一种结构清晰的音频-文本双流融合框架，其动态门控机制为处理模态特异性与交互性提供了合理的解决方案。然而，其核心创新（交叉注意力+门控）在多模态融合领域已不算新奇，且实验仅限于一个数据集，缺乏跨数据集或跨任务的泛化验证，说服力有限。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用了公开的ChaLearn First Impressions V2数据集，但论文中未说明具体获取方式。
Demo：未提及。
复现材料：仅提供了部分训练细节（优化器、学习率范围、损失函数类型）和硬件信息，但缺乏完整的超参数配置、数据预处理脚本、训练日志等，复现难度较大。
论文中引用的开源项目：提到了Adam优化器[18]，以及参考了损失函数设计[7]，但未明确列出依赖的开源代码库或预训练模型（如RoBERTa的具体版本）。
总体：论文中未提及开源计划。

📌 核心摘要

要解决什么问题：针对从音频和文本中推断人格特质的表观人格分析（APA）任务，现有方法在融合异质模态时存在语义对齐不足和动态贡献调节困难的问题。
方法核心是什么：提出一个基于动态门控交叉注意力（DGCA）的框架。首先使用注意力增强的ResNet（AttResNet）和RoBERTa分别编码音频和文本；然后通过双向交叉注意力机制（BCAM）建模细粒度交互；最后引入动态门控模块（GMM）和单模态保留门，自适应地平衡模态贡献并保留特异性信息。
与已有方法相比新在哪里：与简单的拼接或加权融合不同，该方法设计了双向交叉注意力以对称捕捉跨模态依赖，并创新性地集成了两组门控机制：一组（GMM）用于抑制跨模态对齐中的噪声，另一组（单模态保留门）用于显式保留原始模态特征，防止信息在融合中丢失。
主要实验结果如何：在ChaLearn First Impressions V2数据集上，该方法在大五人格特质预测的平均分上达到0.9010，优于文中对比的所有基线方法（如Sun et al. 0.8966， Li et al. 0.8967， Zhu et al. 0.8984）。消融实验证明，AttResNet比基础ResNet性能更优，BCAM和GMM的引入共同带来了性能提升（从0.8906提升至0.9010）。具体结果见下表。

表1：与现有方法的性能对比（ChaLearn First Impressions V2）

方法	EXT	NEU	AGR	CON	OPN	平均
Sun et al. [8]	0.8954	0.8960	0.9015	0.8894	0.9008	0.8966
Li et al. [7]	0.8953	0.8951	0.9010	0.8920	0.9002	0.8967
Zhu et al. [11]	0.8933	0.9066	0.8939	0.8946	0.8928	0.8984
Ours	0.8987	0.8999	0.9039	0.8997	0.9030	0.9010

表2：不同音频编码模块的消融实验

模态	EXT	NEU	AGR	CON	OPN	平均
ResNet	0.8942	0.8942	0.9005	0.8912	0.8996	0.8959
AttResNet	0.8972	0.8983	0.9007	0.8990	0.9007	0.8997

表3：BCAM和GMM模块的消融实验

BCAM	GMM	EXT	NEU	AGR	CON	OPN	平均
×	×	0.8897	0.8908	0.8940	0.8865	0.8923	0.8906
✓	×	0.8955	0.8965	0.8992	0.8977	0.9000	0.8979
✓	✓	0.8987	0.8999	0.9039	0.8997	0.9030	0.9010

实际意义是什么：该研究为基于语音和文本的人格分析提供了一个有效的多模态融合框架，对于人机交互、个性化服务等场景有潜在应用价值，尤其是在视频数据不可用的隐私敏感场景下。
主要局限性是什么：实验仅在一个公开数据集（ChaLearn V2）上进行验证，缺乏在更多样化数据集或真实场景下的泛化能力评估；论文未讨论模型的可解释性细节；未提供代码和模型权重。

25. Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models

✅ 7.0/10 | 前25% | #音频分类 | #迁移学习 | #生物声学 #多任务学习

👥 作者与机构

第一作者：Chaoyue Niu（谢菲尔德大学计算机学院）
通讯作者：未明确说明（论文第一作者邮箱为 c.niu@sheffield.ac.uk，最后一位作者 Ning Ma 邮箱为 n.ma@sheffield.ac.uk，可能是导师或通讯作者）
作者列表：Chaoyue Niu（谢菲尔德大学计算机学院）、Veronica Rowe（谢菲尔德大学计算机学院）、Guy J. Brown（谢菲尔德大学计算机学院）、Heather Elphick（谢菲尔德儿童NHS基金会信托）、Heather Kenyon（谢菲尔德儿童NHS基金会信托）、Lowri Thomas（谢菲尔德儿童NHS基金会信托）、Sam Johnson（Passion for Life Healthcare）、Ning Ma（谢菲尔德大学计算机学院）

💡 毒舌点评

亮点：论文在方法设计上表现出临床问题驱动的巧思，例如将氧气去饱和的时间延迟作为物理先验知识融入多任务学习框架，使模型更符合呼吸生理学过程，这比简单地使用SpO2标签更具说服力。
短板：然而，论文最大的硬伤在于验证的“小作坊”模式——用15个孩子的数据做全部开发和评估，且缺乏外部验证集，这使得所有声称的“改进”都笼罩在严重的过拟合和选择偏倚风险之下，大大削弱了其临床应用的前景。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：儿童数据集因涉及患者隐私，未公开，也未提供获取方式。成人数据集引用自[15]，但未说明其是否公开。
Demo：未提及。
复现材料：论文提供了一些训练超参数（如学习率、批量大小、epoch数），但未提供模型具体架构、完整代码或配置文件。
论文中引用的开源项目：未提及依赖的开源工具或模型。

📌 核心摘要

问题：儿童阻塞性睡眠呼吸暂停（OSA）诊断困难，依赖儿童耐受性差的多导睡眠图，而基于声学的非侵入性筛查方法因儿童数据稀缺难以开发。
方法核心：提出一个迁移学习框架，将在大规模成人睡眠声学数据上预训练的CNN模型适配到儿童OSA检测任务中。关键创新是整合了氧饱和度（SpO2）信息，并建模了从呼吸事件发生到血氧下降的生理性时间延迟。
新意：系统比较了单任务与多任务学习、编码器冻结与全微调等策略。最核心的创新是将生理延迟（成人中位数为26秒）作为先验知识，通过全局延迟和针对每个儿童的个体化延迟两种方式集成到多任务学习中。
主要结果：在15晚儿童数据上的5折交叉验证显示，采用“多任务学习 + 全微调 + 个体化延迟”的最佳模型，其预测AHI与临床金标准AHI的平均绝对误差（MAE）为2.81，均方根误差（RMSE）为3.86。这显著优于不进行迁移学习的成人基线模型（MAE：4.45，RMSE：6.81）。关键对比数据如下表所示：
模型配置（缩写说明） MAE RMSE
成人单任务无微调 (S-NF) 4.45 6.81
成人多任务无微调 (M-NF) 3.64 6.30
最佳：多任务全微调个体化延迟 (M-UF-SD) 2.81 3.86
实际意义：证明了利用成人数据进行迁移学习，并整合生理学知识，可以有效缓解儿童数据稀缺问题，为开发低成本、居家友好的儿童OSA智能手机筛查工具提供了可行路径。
主要局限性：研究的核心局限在于验证数据集规模极小（仅15名儿童），缺乏外部验证，模型泛化能力存疑。此外，数据收集于单一中心，可能无法代表更广泛的儿童人群。

模型配置（缩写说明）	MAE	RMSE
成人单任务无微调 (S-NF)	4.45	6.81
成人多任务无微调 (M-NF)	3.64	6.30
最佳：多任务全微调个体化延迟 (M-UF-SD)	2.81	3.86

26. Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

✅ 7.0/10 | 前25% | #音频分类 | #对比学习 | #生物声学 #数据增强

👥 作者与机构

第一作者：Heejoon Koo（伦敦大学学院，RSC LAB）
通讯作者：June-Woo Kim（RSC LAB，光州科学技术院）
作者列表：Heejoon Koo（伦敦大学学院，RSC LAB）、Miika Toikkanen（RSC LAB）、Yoon Tae Kim（RSC LAB，韩国科学技术院）、Soo Yong Kim（RSC LAB）、June-Woo Kim†（RSC LAB，光州科学技术院）

💡 毒舌点评

本文的亮点在于构建了一个系统性较强的去偏框架，将因果推理中的反事实估计与公平学习领域的对抗去偏相结合，并针对医疗数据特点设计了具体的元数据增强策略，逻辑自洽。短板是创新性主要体现在技术组合与特定领域适配上，且实验部分的广度有限，仅在一个主任务（呼吸音分类）和两个数据集上验证，缺乏对更通用音频任务或更复杂偏见场景的探讨。

🔗 开源详情

详��

代码：是，提供代码仓库链接：https://github.com/RSC-Toolkit/BTS-CARD。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：ICBHI和SPRSound均为公开数据集，论文中给出了具体引用和获取信息。
Demo：论文中未提及提供在线演示。
复现材料：论文中提供了详细的训练数据集描述、预处理步骤、训练超参数、损失函数配置以及评估协议，复现信息较为充分。
论文中引用的开源项目/模型：RUBi用于融合，Clinical TinyBERT用于元数据文本编码，Audio-CLAP/BTS作为基础模型，AdamW优化器。

📌 核心摘要

要解决的问题：多模态呼吸音分类模型易受患者元数据（如年龄、性别、采集设备）产生的虚假关联（伪相关）影响，导致在不同临床环境（分布外数据）下泛化性能显著下降。
方法核心：提出BTS-CARD框架，通过三重机制缓解偏见：1）基于因果图的反事实去偏，通过估计并减去自然直接效应（NDE）来抑制元数据对预测的直接虚假影响；2）对抗去偏，在NDE路径上引入梯度反转层，学习对位置和设备不敏感的特征表示；3）反事实元数据增强，在训练中用中性占位符替换敏感元数据，模拟干预以打破虚假依赖。
与已有方法相比新在哪里：首次将反事实推理与对抗去偏相结合用于多模态呼吸音分类。不同于简单地删除或掩码元数据，本文通过精心设计的反事实估计和对抗学习，旨在保留元数据中可能包含的有益间接信息，同时抑制其直接带来的偏见。
主要实验结果：在ICBHI（分布内）和SPRSound（分布外）数据集上，BTS-CARD在ICBHI Score（敏感性与特异性均值）指标上均优于强基线（如BTS）。具体而言，在分布外设置下，本文方法取得了61.96%的分数，显著高于BTS的53.42%。消融实验表明，三个组件对性能均有贡献，其中去除反事实元数据增强对分布外性能影响最大。参数分析显示，推理时去除直接效应（α=0）反而能获得最佳分布外性能。
实际意义：该方法提升了呼吸音分类模型在不同医院、不同设备间的泛化能力和鲁棒性，对于推动临床AI系统的实际部署具有积极意义。
主要局限性：研究的泛用性有待验证，仅在单一任务和特定数据集组合上进行评估。对抗去偏主要针对采集位置和设备，对年龄、性别等其他敏感属性的去偏效果在实验中未显示出优势，其普适性值得商榷。

27. PADAM: Perceptual Audio Defect Assessment Model

✅ 7.0/10 | 前50% | #音频分类 | #对比学习 | #预训练 #音频安全

👥 作者与机构

第一作者：Alex Mackin, Pratha Khandelwal（共同贡献，论文中未明确区分第一作者）
通讯作者：论文中未明确标注通讯作者
作者列表：Alex Mackin (Amazon Prime Video), Pratha Khandelwal (Amazon Prime Video), Veneta Haralampieva (Amazon Prime Video), Michael Lau (Amazon Prime Video), Benoit Vallade (Amazon Prime Video), David Higham (Amazon Prime Video), Josh Anderson (Amazon Prime Video)

💡 毒舌点评

亮点：合成缺陷生成流程设计得相当扎实，考虑了从源到转码的整个制作管道，并针对七种缺陷给出了具体的生成算法和参数范围，这使得模型训练数据更贴近真实的工业场景。短板：模型在区分“技术缺陷”和“创意意图”上表现拙劣（生产评估中68.1%的“问题”实为创意意图），这暴露了纯信号层面检测的根本局限，也让“无参考感知评估”的“感知”二字打了折扣。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：合成数据生成流程描述详细，但未提供生成的脚本或数据本身。未提及。
Demo：未提及。
复现材料：论文提供了合成数据生成的详细参数范围、模型架构和训练超参数，为复现提供了必要的信息基础，但缺少可直接运行的配置和脚本。
论文中引用的开源项目：引用了AST[37]、ViViT[39]、SimCLR[11]、InfoNCE[40]等模型的实现框架概念，但未提及依赖的具体开源代码库。
总结：论文中未提及任何开源计划。复现依赖于读者根据文中描述自行搭建流程。

📌 核心摘要

问题：专业媒体内容中的音频缺陷（如削波、丢包、噪声）会严重影响用户体验，但传统检测方法难以应对多样化的创意内容和大规模处理流程。
方法核心：提出PADAM模型，一个三阶段的无参考感知评估架构：(1) 通过音视频对比学习训练一个通用的音频特征提取器；(2) 使用融合质量指标的软聚类对比学习，训练一个感知质量头；(3) 使用SVM分类器进行鲁棒的缺陷检测。为解决标注数据稀缺，设计了一套合成缺陷生成工作流，模拟七种常见音频缺陷及其在制作管道中的交互。
新在何处：主要在于将现有的对比学习、自监督预训练和合成数据生成技术，针对专业媒体音频缺陷检测这一特定工业场景进行了系统性的整合与适配。创新性地提出了融合多质量指标的“软分配”对比损失，以更好地处理质量评估的不确定性。
主要结果：在离线测试集（包含真实缺陷）上，PADAM的片段级F1分数达到0.66，标题级（经时间过滤后）F1分数达到0.75，显著优于Audio Artifacts、DNSMOS、NISQA、SRMR和SCOREQ等基线模型（见下表）。在17K标题的生产流量评估中，模型仅将0.8%（135个）标题标记为需人工审查，其中包含35个真实缺陷，人工审查的精确率为25.9%（若将创意意图也算作正确检测，则达94.1%）。

表2：与基线模型在离线测试集上的片段级性能对比

模型	阈值	精确率 (↑)	召回率 (↑)	F1分数 (↑)
AA	-	0.02	0.50	0.04
DNSMOS	2.12	0.03	0.27	0.05
NISQA	1.11	0.03	0.58	0.05
SRMR	0.33	0.19	0.38	0.25
SCOREQ	1.24	0.03	0.26	0.05
PADAM	0.67	0.79	0.56	0.66

表3：PADAM组件消融研究及与基线模型在标题级（经时间过滤）的性能对比

模型	滤波器	阈值	精确率 (↑)	召回率 (↑)	F1分数 (↑)
基线模型
DNSMOS	100s/100s	2.12	0.67	0.20	0.31
NISQA	120s/120s	1.11	0.04	0.20	0.07
SRMR	100s/100s	0.28	0.43	0.30	0.35
SCOREQ	20s/20s	0.99	0.01	0.10	0.02
PADAM消融
+特征提取器	45s/45s	0.63	0.20	0.80	0.32
+质量头	90s/110s	0.62	0.57	0.40	0.47
+SVM分类器	20s/80s	0.67	1.00	0.60	0.75

实际意义：该模型已在Amazon Prime Video生产环境中部署，能有效辅助内容操作员进行质量审查，大幅降低人工检查范围。
主要局限：模型最大的软肋是无法区分音频缺陷和具有相似声学特征的创意意图（如雨声与噪声）。此外，离线评估数据集规模较小，且仅覆盖了七种缺陷中的三种。

28. Enhanced Generative Machine Listener

✅ 7.0/10 | 前25% | #音频分类 | #生成模型 | #深度学习 #音频编码

👥 作者与机构

第一作者：未说明
通讯作者：未说明
作者列表：Vishnu Raj（Dolby Laboratories）、Gouthaman KV（Dolby Laboratories）、Shiv Gehlot（Dolby Laboratories）、Lars Villemoes（Dolby Laboratories）、Arijit Biswas（Dolby Laboratories）

💡 毒舌点评

亮点：论文将主观听测分数建模问题，从传统的单点预测提升到对分数概率分布（Beta分布）的建模，这一理论视角的升级更为本质，能自然处理分数的边界和偏态分布。短板：实验虽全面，但核心创新是改进损失函数（Beta loss）和数据扩展，缺乏对模型架构本身（如Inception块）的深入剖析或创新，且置信区间的预测价值未被定量验证，略显“画饼”。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开模型权重。
数据集：论文中提到了使用的训练集和测试集来源（如ODAQ），但未说明是否公开或如何获取其扩展的完整训练数据集。
Demo：未提供在线演示。
复现材料：论文提供了较为详细的训练配置（GPU型号、batch size、优化器、学习率、训练步数、语谱图参数），但缺少网络具体架构配置、完整的预处理脚本和检查点信息。
论文中引用的开源项目：引用了多个公开的神经音频编解码器模型（如Encodec, Descript Audio Codec, MDCTNet），这些可能作为测试数据的一部分。也提到了PEAQ和ViSQOL的开源实现。

📌 核心摘要

问题：自动化的客观音频质量评估模型通常输出单一分数，无法捕捉主观评价中的内在不确定性和变异性，尤其是在边界或歧义情况下。
核心方法：提出GMLv2，一个基于Beta分布的生成式模型。它通过神经网络预测Beta分布的形状参数（α, β），从而联合估计期望的MUSHRA分数（分布均值）和不确定性（分布方差/形状）。
创新点：相较于使用高斯/逻辑斯蒂分布的GMLv1，Beta分布天然定义在[0,1]区间，完美匹配归一化的MUSHRA分数，无需后处理修正，且其灵活的形状能更好地拟合有偏或双峰的听众评分分布。

主要实验结果：在8个涵盖传统编解码器（AAC， Dolby AC-4等）和神经编解码器（Encodec， DAC等）的测试集上，GMLv2在皮尔逊相关性（Rp）、斯皮尔曼相关性（Rs）和离群点率（OR）上均显著优于PEAQ、ViSQOL-v3和重新训练后的GMLv1（见下表）。聚合Rp/Rs达到0.9526/0.9205，OR降至0.0964。表1：主要实验结果对比

评测集	PEAQ (Rp/Rs)	ViSQOL (Rp/Rs)	GMLv1* (Rp/Rs/OR)	GMLv2 (Rp/Rs/OR)
USAC-1	0.47/0.40	0.81/0.84	0.91/0.90/0.045	0.92/0.90/0.045
USAC-2	0.42/0.20	0.77/0.78	0.89/0.84/0.067	0.93/0.89/0.067
USAC-3	0.56/0.62	0.82/0.90	0.92/0.92/0.046	0.94/0.93/0.046
Binaural 1	0.75/0.79	0.90/0.93	0.95/0.93/0.182	0.98/0.94/0.182
Binaural 2	0.42/0.56	0.96/0.85	0.98/0.91/0.012	0.99/0.91/0.012
NAC Mono	0.34/0.31	0.89/0.86	0.92/0.94/0.833	0.97/0.94/0.071
NAC Stereo	0.58/0.40	0.82/0.89	0.93/0.90/0.589	0.95/0.93/0.078
ODAQ	0.71/0.65	0.70/0.80	0.81/0.81/0.817	0.83/0.83/0.271
聚合	0.56/0.52	0.85/0.86	0.93/0.90/0.725	0.95/0.92/0.096

实际意义：为音频编码（特别是神经编解码器）的研发提供了一个更可靠、可解释的自动化质量评估工具，能够量化预测的不确定性，加速评估迭代。
主要局限性：(1) 论文中未提供模型权重和代码开源计划，复现依赖外部资源；(2) 虽然模型预测了分布参数，但文中明确指出“置信区间的定量评估留待未来工作”；(3) 模型架构主体沿用前作的Inception块，创新主要集中在损失函数和训练数据扩展。

29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

✅ 7.0/10 | 前25% | #音频分类 | #信号处理 | #实时处理 #多模态模型

👥 作者与机构

第一作者：Sina Miran（完成主要工作时隶属Starkey Hearing Technologies，现隶属于Apple Inc.）
通讯作者：Henning Schepker（Starkey Hearing Technologies，邮箱：henning.schepker@starkey.de）
作者列表：
1. Sina Miran（Starkey Hearing Technologies, Eden Prairie, MN, US; 现为 Apple Inc.）
2. Henning Schepker（Starkey Hearing Technologies, Eden Prairie, MN, US）
3. Ivo Merks（现为 Chromatic，完成工作时隶属Starkey Hearing Technologies）
4. Martin McKinney（Starkey Hearing Technologies, Eden Prairie, MN, US）

💡 毒舌点评

亮点：巧妙地将惯性传感器（IMU）这一“非听觉”模态引入声反馈消除，利用头部运动与声学路径变化的相关性来动态调整算法参数，在稳态性能上确实优于纯音频基线方法，思路新颖且实用。
短板：实验仅在5名受试者和有限的几种日常活动上进行，且最终的端到端AFC性能提升（如图3所示）并非全面碾压所有基线，尤其在外部物体导致路径变化但头部未动时存在检测延迟，其普鲁棒性和泛化能力仍需在更大规模、更复杂的现实场景中验证。

🔗 开源详情

代码：论文中未提及任何代码仓库链接。
模型权重：未提及。本文算法为传统信号处理方法，不涉及深度学习模型权重。
数据集：论文中提到的声反馈路径和IMU数据由作者自行录制，未说明是否公开及如何获取。
Demo：未提供在线演示。
复现材料：论文在正文中和算法1中给出了详细的算法流程、关键参数（滤波器阶数、平滑系数、步长值、阈值选择原则）和实验设置（采样率、滤波器长度、增益等），但缺乏录制设备的具体型号、受试者具体信息、预处理代码等，属于中等复现信息。
论文中引用的开源项目：未提及依赖任何特定的开源项目。算法基于经典的NLMS和PEM方法。

📌 核心摘要

问题：助听器中的声反馈（啸叫）限制了最大可用增益并产生伪影。自适应反馈消除算法的步长调整是关键，传统方法仅依赖音频信号，易受输入音频特性影响，在稳态（无反馈路径变化）下性能受限。
方法核心：提出利用集成在助听器中的惯性测量单元（IMU）检测头部运动，当检测到强加速度（预示可能发生反馈路径变化）时，增大自适应滤波器（基于PEM-NLMS）的步长以实现快速收敛；否则使用小步长以获得更准确的稳态估计。
与已有方法相比新在哪里：突破了传统AFC步长调整仅依赖单一音频信息的局限，开创性地引入多模态（音频+运动）信息，通过物理运动信号为算法提供更直接、更可靠的反馈路径变化“预警”。
主要实验结果：
- 在五种日常活动（咀嚼、打电话、戴帽子、摇头、站坐）的实测数据上，IMU信号检测反馈路径变化的AUC值在0.81-0.87之间（见图2），表明检测可靠。
- 在端到端AFC性能对比中（归一化失调 MIS），IMU-AFC在咀嚼和打电话等路径变化场景下能快速跟踪（接近“快速滤波器”性能），而在稳态时又能获得低失调（接近“慢速滤波器”性能），综合表现优于纯音频的变步长方法（VSS）和影子滤波器方法（Shadow）（见图3）。
实际意义：为助听器等可穿戴设备的信号处理提供了新的多模态融合范式，有望提升用户体验，减少啸叫，增加舒适可用的增益。
主要局限性：检测延迟问题（当外部物体移动导致路径变化但头部未及时运动时）；实验规模有限；最终性能提升并非在所有条件下都显著；需要额外的IMU硬件。

30. AFT: An Exemplar-Free Class Incremental Learning Method for Environmental Sound Classification

✅ 7.0/10 | 前25% | #音频分类 | #知识蒸馏 | #迁移学习 #低资源

👥 作者与机构

第一作者：Xinyi Chen（华南理工大学，暨黄埔超级机器人研究院）
通讯作者：Yang Xiao（墨尔本大学）
作者列表：Xinyi Chen（华南理工大学，暨黄埔超级机器人研究院）、Xi Chen（香港中文大学（深圳））、Zhenyu Weng（华南理工大学，暨黄埔超级机器人研究院）、Yang Xiao（墨尔本大学）

💡 毒舌点评

本文巧妙地将特征空间变换的思想引入无样例增量学习，通过主动对齐新旧特征来缓解遗忘，比单纯的知识蒸馏更直接，实验结果也确实漂亮，在特定任务上带来了稳定的性能提升。然而，论文对AFT网络本身的参数量和计算开销避而不谈，对于一个旨在部署于“边缘设备”的方法而言，这种“选择性失明”有点像是在画饼时省略了面粉的成本。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及公开权重。
数据集：使用了公开数据集UrbanSound8K和DCASE 2019 Task 1，论文中未提供新的数据集。
Demo：未提及。
复现材料：论文提供了骨干网络型号（TCResNet-8）、主要数据处理步骤（采样率、MFCC维数）、优化器（Adam）、学习率（1e-3）、batch size（128）、训练轮数（50）以及损失权重搜索范围。但AFT网络结构、具体超参数（如α， β， γ的最终选择值）和训练硬件未说明。
论文中引用的开源项目：引用了TCResNet-8 [27]、Adam优化器 [28]等基础方法和工具。
论文中未提及开源计划。

📌 核心摘要

要解决什么问题：在环境声分类的类增量学习中，模型学习新声音类别时会灾难性地遗忘旧类别知识。现有无样例方法（不存储历史数据）在处理声学特征相似的类别（如“电钻”和“手提钻”）时，由于特征空间发生漂移，会导致严重的识别混淆。
方法核心是什么：提出声学特征变换（AFT）框架，其核心是一个可训练的AFT网络（M），用于将上一阶段模型（旧模型）提取的特征映射到当前阶段（新模型）的特征空间中，从而直接对齐新旧特征，缓解特征漂移。同时，采用“选择性压缩”策略，通过筛选每个类别的高质量原型特征来构建更清晰、鲁棒的类边界。
与已有方法相比新在哪里：不同于传统知识蒸馏（LWF）仅约束模型输出或传统正则化方法（EWC， SI）约束参数，AFT主动地对特征表示空间进行变换和对齐，是一种更直接、更针对特征漂移问题的解决方案。同时，结合了选择性特征压缩来增强原型特征的代表性。

主要实验结果如何：在UrbanSound8K和DCASE 2019 Task 1两个数据集上，以TCResNet-8为骨干网络，AFT方法取得了最优性能。主要结果对比如下：

方法	UrbanSound8K ACC(%)	UrbanSound8K BWT	DCASE 2019 Task 1 ACC(%)	DCASE 2019 Task 1 BWT
Finetune (下界)	26.700	-0.368	22.900	-0.267
EWC	29.284	-0.358	23.472	-0.264
SI	42.267	-0.264	26.802	-0.233
LWF	52.285	-0.198	46.965	-0.097
LDC	56.703	-0.157	48.867	-0.104
AFT (本文)	60.464	-0.147	52.762	-0.077
Joint (上界)	93.204	-	66.725	-
AFT相比最强基线LDC，在UrbanSound8K上提升了3.76个百分点，在DCASE 2019 Task 1上提升了3.90个百分点，同时BWT（衡量遗忘程度）也有改善。消融实验证明，AFT模块和选择性压缩（POS）模块都对最终性能有贡献。t-SNE可视化图（图1，图5）直观展示了AFT如何纠正特征漂移，恢复清晰的类边界。

实际意义是什么：为需要在隐私敏感场景（如无法保存用户音频数据的边缘设备）下持续学习新环境声音的应用（如野生动物监测、智能家居）提供了一种有效的解决方案。
主要局限性是什么：1) 论文未提供AFT网络自身的详细结构、参数量及其带来的额外计算成本分析，这对于声称适用于“边缘设备”的方法是关键的缺失信息。2) 实验设置相对简单（固定5个任务），未探讨任务数量、类别相似度变化等更复杂场景下的性能。3) 未与最新的无样例增量学习方法进行对比。

31. Transferable Audio Lottery Tickets: Gradient Accumulation for Extreme Sparsity

✅ 7.0/10 | 前25% | #音频分类 | #迁移学习 | #模型压缩 #鲁棒性

👥 作者与机构

第一作者：Hyunjae Kim（KAIST 文化技术研究生院）
通讯作者：未明确指定，论文通讯邮箱列表包含 {present, juhan.nam, kmlee2}@kaist.ac.kr
作者列表：Hyunjae Kim（KAIST 文化技术研究生院）、Juhan Nam（KAIST 文化技术研究生院）、Kyung Myun Lee（KAIST 文化技术研究生院；KAIST 数字人文与计算社会科学学院）

💡 毒舌点评

亮点：论文提出了一个简单而有效的梯度累积策略（GA-LTH），显著提升了在极端稀疏（<1%参数保留）条件下发现可训练“中奖票”的能力，并验证了这些子网络在语音、音乐、环境声等不同音频子任务间的可迁移性，为音频模型的超轻量化部署提供了新思路。短板：技术贡献更侧重于对训练过程的调优而非根本性理论突破，且只在ResNet18上验证，对于更复杂的模型（如Transformer）的适用性未做探讨，理论解释相对薄弱。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及。
数据集：使用了公开数据集（ESC-50， Speech Commands， GTZAN等），论文中说明了数据集来源和划分方式。
Demo：未提供在线演示。
复现材料：论文在第4节“EXPERIMENTAL SETUP”中给出了相对详细的实现细节（数据集、预处理、模型架构、优化器参数、训练轮数等），但未提供完整的配置文件或训练日志。
论文中引用的开源项目：提到了ResNet18架构，但未指明具体引用哪个开源实现。依赖的数据集（如ESC-50）是公开的。

📌 核心摘要

问题：大型神经网络在音频领域性能优异但计算负担重，轻量化需求迫切。彩票假设（LTH）揭示了稀疏子网络的潜力，但其在跨音频子领域（如语音、音乐、环境声）的有效性和如何发现极端稀疏的“中奖票”尚未被充分探索。
方法核心：提出在LTH的子网络搜索（剪枝）阶段引入类似动量的梯度累积（GA-LTH）。该策略通过额外累加历史梯度来增强极稀疏网络的梯度信号，从而更稳定地找到可训练子网络。
与已有方法相比新在哪里：首次系统性地在三大音频子领域验证LTH，并提出GA-LTH策略。与传统LTH和一次性剪枝（UMP， LMP）相比，GA-LTH在极端稀疏（剩余参数<1%）时能发现不发生层崩溃、性能鲁棒的子网络，并证明了这些子网络可跨子领域迁移。

主要实验结果：

在三个源数据集（ESC-50， Speech Commands， GTZAN）上，GA-LTH在超过99%剪枝率后，性能下降远小于标准LTH和基线方法，在ESC-50上甚至以0.08%的参数保留了接近密集模型的精度（见图2a）。
迁移实验（表1）显示，在极端稀疏（剩余0.13%）条件下，从ESC-50迁移的GA-LTH子网络在UrbanSound8k等目标数据集上仅损失2-5%的绝对精度，而其他方法性能崩溃至随机水平。

源数据集	目标数据集	GA-LTH (0.13%)	LTH (0.13%)	UMP (0.13%)	LMP (0.13%)
ESC-50	UrbanSound8k	66.2%	12.0%	12.0%	13.2%
Speech Commands	LibriCount	50.5%	8.4%	8.4%	9.9%
GTZAN	Nsynth	34.3%	1.3%	1.4%	1.1%
(注：数值为分类绝对精度)

图2: 梯度累积效果

图2(a)显示GA-LTH在极高稀疏度下性能显著优于其他方法。图2(c)的热力图对比表明，标准LTH会出现层崩溃（黑色区域），而GA-LTH保持了更均衡的层稀疏度分布。

实际意义：证明了通过改进训练策略，可以在音频分类任务中找到极端稀疏且可跨任务迁移的模型结构，为在资源受限的边缘设备上部署多种音频分析模型（如同时用于语音唤醒和环境声识别）提供了可能性。
主要局限性：研究局限于ResNet18架构和特定的音频分类任务，未在语音识别、生成等任务或更复杂的模型上验证。梯度累积策略的理论理解有待深化，且最优衰减因子α可能因任务而异。

32. A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

✅ 7.0/10 | 前25% | #音频分类 | #对比学习 #大语言模型 | #水声目标识别 #对比学习

👥 作者与机构

第一作者：Jingkai Cao（东华大学计算机科学与技术学院）
通讯作者：Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）
作者列表：Jingkai Cao（东华大学计算机科学与技术学院），Shicheng Ding（Tabor Academy, Massachusetts, USA），Shuai Yu（大连理工大学信息与通信工程学院），Wei Li（复旦大学计算机科学与技术学院）

💡 毒舌点评

亮点：该工作巧妙地利用LLM（Gemini 2.5）生成细粒度的声学语义描述，构建知识库，以此“丰富”简单的类别标签，从而更精准地对齐音频与文本特征，有效缓解了多模态学习中常见的信息不对称问题。短板：方法严重依赖于外部LLM生成的文本质量，且整个推理流程（特别是LKR模块）引入了额外的检索和融合计算开销。最致命的是，代码和模型均未开源，这极大限制了其在实际研究社区中的可验证性和影响力。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及是否公开。
数据集：使用的是公开数据集DeepShip [20]和ShipsEar [23]，但论文未提供获取方式链接。
Demo：未提供。
复现材料：论文提供了非常详细的训练配置、损失函数权重、数据预处理步骤等文字描述，但未提供配置文件、检查点或附录中的额外细节。
论文中引用的开源项目：主要依赖于预训练的 CLAP 模型 [13] 作为基础编码器。

📌 核心摘要

问题：现有的水声目标识别（UATR）方法，无论是纯声学分类器还是早期的多模态方法，都存在“语义间隙”。后者通常仅使用粗糙的类别标签文本（如“这是一艘货船的声音”），无法充分描述音频信号中丰富的细节，导致文本引导能力不足，模型难以学到更具判别性的声学特征。
方法核心：本文提出了一个LLM驱动的声学语义增强框架（ASE-CLAP）。核心在于引入LLM驱动的知识检索（LKR）模块，利用LLM为每类船舶生成多条详细的声学特性描述，并编码成“声学-语义知识库”。在推理时，为每个类别检索最相关的语义描述并融合，生成比原始标签更丰富的“语义原型”。随后，通过多层次对比学习（全局级+原型级），将音频嵌入与这些细化的文本表示进行对齐。
创新性：与已有工作相比，新在：（1）首次将LLM生成的知识显式引入水声目标识别的文本表示中，实现了从“标签”到“知识增强原型”的升级；（2）设计了多层次对比学习机制，同时对齐全局类别信息和细粒度声学语义，增强了特征判别力。
实验结果：在DeepShip和ShipsEar两个公开数据集上，ASE-CLAP均取得了最优性能。例如，在DeepShip数据集上，OA（总体准确率）达到84.5%，超越了最强的多模态基线（MF-UATR, 79.3%）5.2个百分点，也显著优于纯声学模型（MHT-Transformer, 78.8%��。消融实验表明，LKR模块和多层次对比学习均带来了性能提升。图2的可视化显示，本方法学得的嵌入空间聚类更紧凑、类间分离度更高。
实际意义：该工作为提升UATR系统的识别精度提供了一种有效的多模态学习范式，证明了引入领域特定语义知识的价值，对水下声学感知、海洋监测等应用有积极意义。
主要局限性：（1）对生成高质量语义描述的LLM存在强依赖；（2）LKR模块在推理时引入了额外的检索和融合计算复杂度；（3）论文未公开代码、模型和生成描述的具体提示词，可复现性受限。

33. S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

✅ 7.0/10 | 前25% | #音频分类 | #知识蒸馏 | #自监督学习 #模型压缩

👥 作者与机构

第一作者：Mohammed Ali El Adlouni（LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）
通讯作者：未明确说明（论文中注明与Aurian Quelennec贡献相等，Slim Essid为†标注）
作者列表：Mohammed Ali El Adlouni（LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）、Aurian Quelennec（LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）、Pierre Chouteau（LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）、Geoffroy Peeters（LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）、Slim Essid（NVIDIA，论文工作完成于LTCI, T´el´ecom Paris, Institut Polytechnique de Paris, Palaiseau, France）

💡 毒舌点评

亮点：这篇论文精准地戳中了当前音频AI领域一个真实的痛点——强大的自监督基础模型因过于庞大而难以落地，并为此提出了一种简洁、通用且有效的“仅嵌入”蒸馏框架，填补了方法论上的空白。短板：方法虽然巧妙，但深度有限，更像是一次成功的工程适配而非理论突破；对为何仅对齐最终嵌入就足以传递复杂知识的机制缺乏深入探讨，且实验中部分消融结果（如BDS的不一致性）未能得到令人信服的解释。

🔗 开源详情

代码：论文提供了代码仓库链接：https://github.com/MedAliAdlouni/ssondo
模型权重：论文中未提及是否公开蒸馏后的学生模型或教师模型权重。
数据集：使用的是公开数据集AudioSet和多个下游评估数据集（OpenMIC, NSynth, GTZAN, MTT, FSD50K, ESC-50, US8K），论文中未提供其处理后的特定版本。
Demo：未提及提供在线演示。
复现材料：论文详细说明了训练超参数、数据处理流程、模型架构选择和评估协议，为复现提供了良好基础。
论文中引用的开源项目：论文中明确提及并依赖的主要开源项目包括其代码仓库本身，以及作为对比和基础的教师模型：M2D [1] 和 MATPAC++ [2]。学生模型如MobileNetV3 [19]、DyMN、ERes2Net [20] 也是基于已有的公开架构。

📌 核心摘要

问题：当前最先进的通用音频自监督基础模型（如M2D， MATPAC++）参数量庞大（数亿级），推理成本高，难以部署在移动端等资源受限设备上。
方法核心：提出S-SONDO，一个自监督知识蒸馏（KD）框架。其核心创新在于仅使用教师和学生的最终输出嵌入进行对齐，无需类标签（logits）或中间层特征，也无需特定的模型架构假设。
与已有方法对比的新颖性：这是首个针对通用音频、且完全依赖嵌入进行自监督蒸馏的框架。相比传统KD（需logits）和部分SSL KD（依赖中间层或特定架构），它更灵活、普适。
主要实验结果：在多个音频任务上验证有效。将86M参数的教师模型（M2D/MATPAC++）蒸馏到1.4M-8.7M参数的学生模型，在4/6种师生组合中，蒸馏后的学生性能超过了直接用监督数据训练的同类学生模型。最强组合（MATPAC++ → MobileNetV3）的学生保留了教师平均性能的96.4%，同时参数量减少约30倍。消融实验表明，余弦损失（Cosine Loss）效果最优，基于聚类的平衡数据采样（BDS）对小容量学生有益但效果不稳定。
实际意义：为将强大的音频基础模型高效部署到边缘设备提供了一条可行路径，降低了高性能音频AI的应用门槛。
主要局限性：1）对BDS方法在不同场景下效果差异的原因分析不足；2）实验主要集中在音频分类任务，对更复杂的音频理解任务的泛化性未验证；3）对仅用最终嵌入就能有效蒸馏的理论机制解释较浅。

34. Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models

✅ 7.0/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #实时处理

👥 作者与机构

第一作者：未说明（论文作者列表无排序信息）
通讯作者：未说明
作者列表：Guilherme Zucatelli, Ricardo Barioni, Gabriela Dantas（SiDi - Intelligence & Innovation Center, S˜ao Paulo, Brazil）

💡 毒舌点评

亮点在于巧妙地将复杂、难以实时化的非平稳性统计指标（INS）“蒸馏”成易于学习的二进制标签，并训练出专用轻量模型（NANSA），实现了速度上近4000倍的飞跃。短板则在于，这套方法的“地基”——HLC标签的生成——本身仍然依赖那个被诟病“计算不友好”的原始INS算法，颇有“用更累的方法证明自己可以轻松”的悖论感，且任务场景相对狭窄。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文未提及公开模型权重。
数据集：论文使用了公开的AudioSet、DCASE和FSD50K数据集，但未说明其生成标签的具体数据划分或获取方式。
Demo：未提及在线演示。
复现材料：论文给出了一些训练超参数（学习率、优化器、epoch数）和模型结构尺寸，但关于数据预处理、HLC算法具体实现代码、训练脚本等关键复现材料均未提供。
论文中引用的开源项目：论文引用了PANNs、AST、PaSST等开源模型作为基线，但未说明是否基于其官方代码进行微调。

📌 核心摘要

要解决什么问题？传统的声学非平稳性客观评估方法（如INS）计算复杂度高，需要生成合成参考信号并进行多尺度频谱比较，难以应用于实时处理或资源受限的设备。
方法核心是什么？提出硬标签准则（HLC）算法。该算法将INS在不同观测尺度下的值划分为几个区域，通过多数投票为整个信号生成一个二值（平稳/非平稳）标签。利用此标签作为监督信号，训练了专用的声学非平稳性评估网络（NANSA及其轻量版NANSALW）。
与已有方法相比新在哪里？首次提出一种客观的、自动化的准则（HLC）将多尺度的INS连续值转化为可用于监督学习的全局标签。基于此，设计了专门针对非平稳性评估的轻量级Transformer模型（NANSA），避免了通用大模型的冗余计算。

主要实验结果如何？在AudioSet、DCASE和FSD50K三个数据集上，NANSA模型的分类准确率最高达到94.25%（比最强基线AST高1.8个百分点），EER（等错误率）最低降至2.68%（比最强基线降低49.1%）。最关键的是，NANSA推理速度比传统INS算法快约466倍，NANSALW快约3957倍。关键实验数据表格：

模型	参数量 (M)	MMACs	AudioSet Acc (%)	AudioSet EER (%)	AudioSet F1	DCASE Acc (%)	DCASE EER (%)	DCASE F1	FSD50K Acc (%)	FSD50K EER (%)	FSD50K F1
PANNs	81.04	1736	90.82	9.25	0.925	98.27	6.37	0.578	92.52	7.21	0.931
AST	94.04	16785	92.37	7.92	0.938	98.20	5.48	0.594	93.86	6.26	0.943
PaSST	83.35	15021	92.02	8.24	0.936	98.35	5.26	0.612	94.18	5.80	0.948
NANSA	5.50	585	94.25	5.87	0.954	99.01	2.68	0.801	95.41	4.59	0.958
NANSALW	0.66	88	93.27	6.73	0.946	98.89	2.91	0.780	94.93	4.95	0.955

实际意义是什么？为声学信号非平稳性评估提供了一种高效、可部署的替代方案，使其能够应用于实时语音处理、边缘计算设备等场景，支撑基于非平稳性的下游音频任务。
主要局限性是什么？ 1) HLC标签生成过程本身仍然依赖计算密集的传统INS方法，只是将计算压力转移到了离线标签生成阶段。2) 方法丢失了INS原本提供的多尺度、连续的平稳性信息，仅输出一个二值标签。3) 论文未提供开源代码或详细复现指南。

35. Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features

✅ 7.0/10 | 前25% | #音频分类 | #多模态模型 | #预训练 #自监督学习

👥 作者与机构

第一作者：Steffen Freisinger（Technische Hochschule Nürnberg， Keßlerplatz 12, 90489 Nürnberg, Germany）
通讯作者：未说明（论文所有作者邮箱格式均为firstname.lastname@th-nuernberg.de，未指定通讯作者）
作者列表：Steffen Freisinger（Technische Hochschule Nürnberg）、Philipp Seeberger（Technische Hochschule Nürnberg）、Tobias Bocklet（Technische Hochschule Nürnberg）、Korbinian Riedhammer（Technische Hochschule Nürnberg）

💡 毒舌点评

亮点：该方法巧妙地将音频特征的提取从“整句”聚焦到“句子边界”的短暂窗口（Siamese设计），并证明这种针对“边界”的细粒度声学特征比粗粒度的句子特征对主题分割更有效，是一个设计合理且经实验证实的洞见。短板：尽管实验表明音频特征有效，但论文对于“具体是哪些声学线索（如停顿、音高变化、音效）被模型学到并用于分割”缺乏更深入的分析或可视化，使得“音频为什么有用”的机理部分稍显薄弱，更多停留在经验验证层面。

🔗 开源详情

代码：论文提供了明确的GitHub仓库链接：https://github.com/steffrs/multimodal-topic-segmentation，包含模型检查点和评估脚本。
模型权重：论文中提到“我们的模型检查点…可以在此找到”，表明已公开模型权重。
数据集：实验主要基于公开的YTSEG数据集，但论文未说明如何从其来源获取，也未提供预处理后的数据。跨语言评估使用的AVLECTURES、VIDEOAULA、LECTUREDE亦为公开数据集。
Demo：论文中未提及在线演示。
复现材料：论文提供了详细的训练参数（优化器、学习率、批大小、dropout、梯度采样方案、损失函数权重等）、模型架构描述、评估指标定义，复现信息充分。
论文中引用的开源项目：主要依赖项包括：
- 音频编码器：wav2vec 2.0 (facebook/wav2vec2-base), HuBERT (facebook/hubert-base-ls960), UniSpeech-SAT (microsoft/unispeech-sat-base-plus)。
- 文本编码器：MiniLM (sentence-transformers/all-MiniLM-L6-v2), 多语言MiniLM (paraphrase-multilingual-MiniLM-L12-v2), MPNet (paraphrase-multilingual-mpnet-base-v2), RoBERTa (all-roberta-large-v1)。
- 序列编码器：RoFormer。
- ASR工具：Whisper, Vosk。
- 对齐工具：Aeneas, Montreal Forced Aligner。
- 分词工具：SpaCy。
开源计划：论文已提供开源代码仓库链接和权重，表明已完成开源。

📌 核心摘要

这篇论文旨在解决多模态内容（如视频、播客）中自动主题分割的挑战，特别是现有方法未能充分利用音频信息的问题。核心方法是提出一个名为MultiSeg的多模态模型，该模型联合微调了一个文本编码器（MiniLM）和一个孪生音频编码器（如wav2vec 2.0），关键创新在于将音频特征的提取聚焦于句子边界的短时窗口，以捕捉更相关的声学提示（如语调变化、场景切换音效）。与仅使用更大文本模型（MiniSeg+）或多模态基线（使用冻结的L3-Net编码整句音频）相比，MultiSeg在YouTube视频数据集（YTSEG）上取得了显著的性能提升（F1从48.83提升至52.98）。该模型还表现出对ASR转录文本噪声的更强鲁棒性，并在葡萄牙语和德语的讲座数据集上展示了良好的跨语言泛化能力。实际意义在于为音视频内容的理解与导航提供了更可靠的技术基础。主要局限性在于，模型对音频特征的具体利用方式仍较“黑盒”，且性能提升可能受限于边界窗口内声学线索的显著性。

主要实验结果表格：

方法	文本特征	音频特征	F1 ↑	Prec ↑	Rec ↑	Pk ↓	B ↑
主要结果 (YTSEG测试集)
Cross-segment BERT [5]	-	-	48.41 ± 0.94	46.91 ± 1.13	50.02 ± 1.10	26.47 ± 0.48	40.72 ± 0.94
MiniSeg+ (文本增强)	-	-	48.83 ± 0.96	51.87 ± 1.13	46.13 ± 1.09	25.91 ± 0.46	41.17 ± 0.99
MiniSeg + L3-Net	-	L3-Net (整句)	47.61 ± 0.89	47.58 ± 0.84	47.65 ± 1.18	27.17 ± 0.48	37.75 ± 0.99
MultiSeg (本文方法)	MiniLM	wav2vec 2.0 (边界)	52.98 ± 0.93	52.77 ± 0.89	53.19 ± 1.18	23.93 ± 0.50	45.09 ± 1.02

ASR模型 (WER%)	MiniSeg+ (∆ F1)	MultiSeg (∆ F1)	MiniSeg+ (∆ B)	MultiSeg (∆ B)
鲁棒性测试 (WER增长下的性能下降)
Oracle (原始文本)	48.83 (基准)	52.98 (基准)	41.17 (基准)	45.09 (基准)
Whisper tiny (24.88%)	-5.78	-2.57	-6.27	-3.72
Vosk-small (38.13%)	-12.75	-5.83	-13.23	-7.08

数据集	语言	模型	F1 ↑	B ↑
跨语言评估
VIDEOAULA	葡萄牙语	Ml. MiniSeg+	30.39 ± 2.68	18.85 ± 2.01
VIDEOAULA	葡萄牙语	Ml. MultiSeg	50.59 ± 3.14	33.58 ± 2.97
LECTUREDE	德语	Ml. MiniSeg+	38.24 ± 3.15	25.72 ± 2.97
LECTUREDE	德语	Ml. MultiSeg	45.17 ± 3.03	29.78 ± 3.22

36. Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

✅ 6.5/10 | 前50% | #音频分类 | #时频分析 | #水下声学目标检测 #可学习前端

👥 作者与机构

第一作者：未说明（论文中未明确标注“第一作者”，仅按署名顺序首位列出）。
通讯作者：Xinwei Luo（东南大学水声信号处理教育部重点实验室）。
作者列表：Lu Chen（东南大学水声信号处理教育部重点实验室、新加坡国立大学计算学院）、Xinwei Luo（东南大学水声信号处理教育部重点实验室）、Kenji Kawaguchi（新加坡国立大学计算学院）、Hanlu Zhou（东南大学水声信号处理教育部重点实验室）。

💡 毒舌点评

这篇论文的亮点在于它非常务实地找到了一个“中间地带”——在保留STFT这个稳健先验的基础上，只让Mel滤波器组和动态压缩（PCEN）变得可学习，从而以极低的计算成本换取了在非目标干扰下的性能提升，这种工程上的权衡很聪明。然而，其短板也同样明显：论文只和几个非常基础的固定特征（如STFT、log-Mel）做对比，却没有与该领域（水声检测）近年来提出的更强大的深度学习模型直接竞争，这让人对其“优越性”的幅度和实际应用价值打上一个问号。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：未提及是否公开模型权重。
数据集：使用的是公开数据集ShipsEar和DeepShip，但论文未提供数据处理脚本或具体链接。
Demo：未提及。
复现材料：提供了详细的模型架构（TResNet-M）、超参数（学习率、权重衰减、批大小等）、训练策略（OneCycleLR、warm-up比例）以及特征提取的具体参数（STFT窗长、Mel bins等），这些信息对复现至关重要。
论文中引用的开源项目：主要引用了TResNet模��、PCEN算法以及相关数据集论文，未明确提及使用了哪些开源代码库。

📌 核心摘要

问题：水下声学目标检测面临非目标船只信号干扰的挑战，传统的固定音频特征（如STFT、log-Mel谱）缺乏自适应能力，导致检测性能下降。
方法：提出learnMel前端，它在STFT基础上，将Mel滤波器组参数化为可训练的权重，并用可学习的通道能量归一化（PCEN）替代固定对数压缩。learnMel与后端的TResNet检测模型联合优化。
新颖性：不同于完全从头学习的前端（如LEAF），learnMel保留了STFT框架的稳定性，仅优化关键的频域投影和动态压缩环节，在灵活性和计算成本之间取得了平衡。
主要结果：在ShipsEar数据集上，PCEN-learnMel方法的ROC-AUC（94.504±0.207%）和精确度（85.65±1.65%）均优于所有固定特征基线。其计算开销（0.25 MB特征内存）与log-Mel相近，远低于LEAF（156.25 MB）。在DeepShip数据集上，所有方法表现均近乎完美（AUC > 99.99%），但learnMel仍取得了最低的FAR（0.07%）。
实际意义：为水下声学信号处理提供了一种轻量且鲁棒的前端解决方案，能有效抑制非目标干扰，提升检测可靠性。
局限性：研究仅聚焦于“检测”这一二分类任务，未探讨目标识别等更复杂任务；对比基线有限，未与当前水声检测领域的SOTA深度学习模型对比；在ShipsEar上，PCEN-learnMel的检测概率（PD）略低于PCEN-Mel，显示可学习性在某些情况下可能引入轻微不稳定。

37. Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

✅ 6.5/10 | 前25% | #音频分类 | #多任务学习 | #CNN-LSTM #医疗声学

👥 作者与机构

第一作者：Xiaolei Xu（谢菲尔德大学计算机科学学院）
通讯作者：未说明
作者列表：Xiaolei Xu（谢菲尔德大学计算机科学学院）、Chaoyue Niu（谢菲尔德大学计算机科学学院）、Guy J. Brown（谢菲尔德大学计算机科学学院）、Hector Romero（Passion for Life Healthcare）、Ning Ma（谢菲尔德大学计算机科学学院）

💡 毒舌点评

这篇论文的亮点在于其开创性思路：首次尝试从夜间呼吸声这一单一模态中，直接估计出通常需要接触式传感器才能获取的“呼吸努力”生理信号，从而为无感的睡眠监测扫清了一个关键障碍。然而，其短板也相当明显：呼吸努力的估计精度（CCC 0.48）仅达到中等相关性，这直接导致了后续融合策略带来的性能提升幅度有限，甚至在某些关键阈值（如AHI≥30）上不如直接使用音频特征，让人对“估计信号”的实际增益打个问号。

🔗 开源详情

论文中未提及任何代码、模型权重、数据集的公开链接或在线演示。也未说明是否有公开计划。复现所需的训练细节（如优化器、学习率、超参数搜索范围）和检查点信息均未提供。论文中引用的开源项目主要为前序工作[9, 12]的数据集和基线方法。

📌 核心摘要

本文针对阻塞性睡眠呼吸暂停症（OSA）诊断依赖复杂多导睡眠图（PSG）且普及困难的问题，提出一种仅需智能手机音频即可进行OSA筛查的新方法。其核心是设计了一个两阶段框架：首先训练一个模型从夜间呼吸/打鼾声中估计腹部呼吸努力信号，然后冻结该模型，提取其潜在表征作为“呼吸努力嵌入”，与另一个音频编码器提取的声学嵌入在潜在空间进行融合，最终用于OSA事件检测和严重程度分类。与已有方法相比，其新意在于首次实现了从音频直接推断呼吸努力，摆脱了对额外传感器的依赖，维持了纯声学方法的可扩展性。实验在157晚、103名参与者的家庭录音数据集上进行，结果显示：呼吸努力估计器达到0.48的平均CCC；融合估计的呼吸努力后，在AHI阈值5（检测轻度OSA）时，敏感性达到0.88，优于音频基线（0.86）和使用真实努力信号的“Oracle”系统（0.81），AUC为0.86。该方法的实际意义在于为低成本、无感、长期的OSA家庭监测提供了可行的技术路径。其主要局限性包括：呼吸努力的估计精度受限于复杂家庭环境噪声，导致融合收益有限；缺乏充分的消融实验以证明性能提升完全来自呼吸努力表征而非模型容量增加。

38. Thinking While Listening: Simple Test Time Scaling for Audio Classification

✅ 6.5/10 | 前50% | #音频分类 | #测试时缩放 | #预训练 #大语言模型

👥 作者与机构

第一作者：Prateek Verma（斯坦福大学电气工程系）
通讯作者：未说明
作者列表：Prateek Verma（斯坦福大学电气工程系）、Mert Pilanci（斯坦福大学电气工程系）

💡 毒舌点评

本文将LLM领域的“测试时缩放”概念移植到音频分类，思路清晰，用轻量级的GPT-2微调击败百亿参数大模型的结果也颇具启发性。但遗憾的是，论文在方法细节的深度打磨和与最新技术的全面比较上显得有些“想得不够深”，比如缺乏不同音频编码器、不同聚合策略的系统消融，更像是一个概念验证报告而非坚实的技术突破。

🔗 开源详情

代码：论文中未提及代码链接。
模型权重：论文中未提及是否公开了微调后的嵌入矩阵或任何其他模型权重。
数据集：使用了公开数据集ESC-50和FSD-50K，但未提供预处理脚本或划分细节。
Demo：未提及。
复现材料：提供了一些关键超参数（如补丁长度、采样次数范围、训练轮数、学习率），但缺少优化器、批量大小、随机种子、完整配置文件等核心复现信息。
论文中引用的开源项目：引用了AST[17]， YAMNet[18]， GPT-2[20]， AudioSet[21]， ESC-50[26]， FSD-50K[27]。

📌 核心摘要

问题：论文旨在探索如何将大型语言模型中的“推理”和“测试时缩放”能力引入音频分类任务，在模型权重固定的情况下，仅通过增加推理时的计算来提升性能。
方法核心：提出“边听边想”框架。首先，利用预训练的音频模型（如AST， YAMNet）对输入音频进行补丁级（如500ms）的因果预测，通过多次采样为每个补丁生成一个包含类别和置信度的“推理轨迹”。然后，将这个轨迹输入一个冻结的大语言模型（如GPT-2， GPT-OSS-20B），利用其推理能力聚合轨迹信息，做出最终分类。
与已有方法相比新在哪里：传统音频分类管道（如AST）直接输出单个概率向量。本文方法在推理时构建了动态的、基于证据累积的“推理链”，并将分类任务转化为LLM可以处理的序列推理问题。其创新在于将音频模型的输出（而非原始音频）作为LLM的推理输入，并利用测试时缩放来提升性能。
主要实验结果：在ESC-50数据集（单标签）上，冻结的AST模型通过增加采样轨迹长度（从1到32）并用GPT-2聚合，准确率从79.3%提升至88.3%，接近全量微调的88.8%。在FSD-50K数据集（多标签）上，增加采样轨迹长度同样能持续提升AUC。论文中关键实验结果表格如下：

表1: ESC-50数据集上，基于YAMNet骨干网络，不同采样长度下零样本文本推理模型的准确率对比

模型	采样长度/输出预测	1	2	4	16
GPT-OSS 20B		53.5	58.75	57.6	61.25
Qwen-3 14B		52.3	55.5	57.2	54.25

表2: ESC-50数据集上，使用不同温度/采样轨迹长度，冻结AST骨干网络与GPT-2的准确率对比

温度	模型	采样长度 / op prediction	1	2	4	16	32
1.0	YAMNet		72.0	77.4	80.8	83.8	84.5
1.0	AST		79.3	83.5	86.3	87.3	88.3
1.2	AST		76.8	84.8	85.3	87.0	87.0
1.5	AST		72.5	80.5	82.8	86.5	88.5
2.0	AST		53.5	65.3	77.3	84.8	83.8
1.0	AST	Full Model Finetune [17]	88.8

实际意义：为在部署后持续提升固定音频模型性能提供了一种新范式，即通过增加推理时的计算（多次采样和LLM推理）而非重新训练模型。轻量级方案（微调GPT-2嵌入层）的发现对资源受限场景有参考价值。
主要局限性：1) 方法引入了额外的LLM推理步骤，增加了延迟和计算成本；2) 对LLM的依赖性强，其推理能力直接决定最终性能；3) 实验部分缺乏对关键组件（如不同聚合策略、轨迹长度增长上限）的深入消融；4) 论文未提供代码和模型，可复现性差。

39. Snore Sound Classification Based on Physiological Features and Adaptive Loss Function

✅ 6.5/10 | 前25% | #音频分类 | #时频分析 | #信号处理 #生物声学

👥 作者与机构

第一作者：Hongxi Wu（中国科学院声学研究所、中国科学院大学）
通讯作者：Xueshuai Zhang（中国科学院声学研究所、中国科学院大学），Qingwei Zhao（中国科学院声学研究所、中国科学院大学）
作者列表：Hongxi Wu（中国科学院声学研究所、中国科学院大学）、Xueshuai Zhang（中国科学院声学研究所、中国科学院大学）、Shaoxing Zhang（北京大学第三医院）、Qingwei Zhao（中国科学院声学研究所、中国科学院大学）、Yonghong Yan（中国科学院声学研究所、中国科学院大学）

💡 毒舌点评

亮点：将鼾声病理生理机制（气道阻塞导致的高能爆发、不稳定频谱）巧妙地转化为具体的音频特征（STD、SIM）和损失函数权重设计，使模型具有明确的医学可解释性，而非黑箱。短板：整体贡献更像一个精心设计的工程流水线，而非具有广泛影响力的模型创新。在未公开核心数据集和代码的情况下，其声称的性能增益难以被社区独立验证和直接应用。

🔗 开源详情

代码：论文中未提及代码链接或开源计划。
模型权重：未提及。
数据集：数据集来源于北京大学第三医院，但论文未提及是否公开或如何申请获取。
Demo：未提及。
复现材料：论文提供了详细的训练配置（优化器、学习率调度、batch size、epoch数）、特征提取参数（FFT点数、滤波器数、帧长帧移）以及关键超参数（高能量帧比例20%、损失函数中的k和α），复现所需的核心技术细节较为充分。
论文中引用的开源项目：未明确提及依赖的开源工具或模型。使用了华为M5平板进行数据采集，但这不是软件工具。

📌 核心摘要

问题：传统多导睡眠图（PSG）侵入性强、成本高，阻碍了阻塞性睡眠呼吸暂停（OSA）的广泛筛查。基于鼾声的非接触分析受噪声、数据不平衡和特征可解释性差的困扰。
方法核心：提出一个生理学启发的鼾声分类框架，包括：a) 高能量帧选择：选取能量最高的20%帧，以抑制边界噪声并聚焦于区分性最强的病理声学区域；b) 三个生理特征提取：从高能量帧中提取频带能量比（ER）、帧位置时间标准差（STD）和帧间频谱余弦相似度（SIM），分别对应频域能量分布、时间集中度和频谱稳定性；c) 自适应能量比损失函数：根据样本的ER值动态调整病理性鼾声类别的损失权重，以缓解类别不平衡并强调典型病理模式。
创新点：与传统数据驱动特征相比，新方法的核心在于特征设计的生理可解释性以及损失函数的自适应性，两者均根植于病理鼾声与简单鼾声的声学差异。
实验结果：在来自北京大学第三医院的115例患者数据集上进行验证。最佳配置（特征拼接 + 自适应损失，k=4, α=2）相比基线，AUC提升1.9%（0.819→0.838），准确率（ACC）提升2.3%（75.7%→78.0%），非加权平均召回率（UAR）提升3.3%（72.3%→75.6%），病理性鼾声的灵敏度（SEN）提升6.9%（58.5%→65.4%），同时特异性（SPE）保持可比水平。关键实验结果如下表所示：

表2：不同生理特征对鼾声分类性能的影响

Method	AUC	ACC(%)	UAR(%)	SEN(%)	SPE(%)
Base	0.819	75.7	72.3	58.5	86.1
+ ER	0.825	75.7	71.1	52.5	89.8
+ STD	0.826	75.9	73.2	62.2	84.3
+ SIM	0.836	76.3	73.6	62.4	84.8
+ STD + SIM + ER	0.827	76.0	72.7	59.3	86.1

表3：自适应能量比损失函数性能（节选关键行）

Method	Concat	(k, α)	AUC	ACC(%)	UAR(%)	SEN(%)	SPE(%)
Base	×	–	0.819	75.7	72.3	58.5	86.1
Adaptive Loss	✓	(4,2)	0.838	78.0	75.6	65.4	85.7

图2展示了三个生理特征（ER、STD、SIM）在简单鼾声（蓝色）和病理性鼾声（橙色）上的箱线图分布。STD和SIM特征显示出明显的可分性：病理性鼾声的STD更高、SIM更低。

图3展示了10,000个鼾声片段的频带能量比（ER）分布，简单鼾声整体呈现更高的ER值，而病理性鼾声的ER值相对集中且较低。

实际意义：为家庭环境下的OSA非接触、可解释筛查提供了一种有潜力的技术方案，模型决策过程具有明确的生理依据。
主要局限性：a) 数据源单一（仅一家医院），模型的泛化性未验证；b) 核心创新集中在特征工程和损失函数，分类网络本身较为常规；c) 论文未提供公开数据集或代码，限制了复现与后续研究。

ICASSP 2026 - 音频分类#

📋 论文详情#

🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals#

🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding#

🥉 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing#

4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference#

5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion#

6. A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings#

7. A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features#

8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification#

9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification#

10. Audio Classification Models are Vulnerable to Filter Perturbations#

11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification#

12. FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention#

13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices#

14. Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing#

15. Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification#

16. Incremental Learning for Audio Classification with Hebbian Deep Neural Networks#

17. Attentive Masked Self-Distillation for Respiratory Sound Classification#

18. One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence#

19. Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations#

20. Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification#

21. Directly Trained Spiking Neural Networks with Adaptive Phase Coding#

22. Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection#

23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning#

24. A Dynamic Gated Cross-Attention Framework for Audio-Text Apparent Personality Analysis#

25. Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models#

26. Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness#

27. PADAM: Perceptual Audio Defect Assessment Model#

28. Enhanced Generative Machine Listener#

29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor#

30. AFT: An Exemplar-Free Class Incremental Learning Method for Environmental Sound Classification#

31. Transferable Audio Lottery Tickets: Gradient Accumulation for Extreme Sparsity#

32. A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition#

33. S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models#

34. Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models#

35. Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features#

36. Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference#

37. Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening#

38. Thinking While Listening: Simple Test Time Scaling for Audio Classification#

39. Snore Sound Classification Based on Physiological Features and Adaptive Loss Function#

📎 相关论文

ICASSP 2026 - 音频分类

📋 论文详情

🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals

🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and Diverse Audio Understanding

🥉 Automated Dysphagia Screening Using Noninvasive Neck Acoustic Sensing

4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference

5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion

6. A Metric Learning Approach to Heart Murmur Detection from Phonocardiogram Recordings

7. A Robust KNN Approach for Multi-Class Laryngeal Disease Detection using MFCC Features

8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spectrogram Fusion for Underwater Ship Noise Classification

9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid VIT-1D CNN Architecture for Phonocardiogram Classification

10. Audio Classification Models are Vulnerable to Filter Perturbations

11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-Label Bias Correction for Respiratory Sound Classification

12. FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention

13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audio Classification on Edge Devices

14. Adaptive Per-Channel Energy Normalization Front-End for Robust Audio Signal Processing

15. Adaptive Embedding Fusion with Contrastive Learning for Robust Fully Few-Shot Class-Incremental Audio Classification

16. Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

17. Attentive Masked Self-Distillation for Respiratory Sound Classification

18. One Model–Three Tasks: Discovering a Shared Winning Ticket for Low-Complexity Audio Intelligence

19. Timbre-Aware Audio Difference Captioning for Anomalous Machine Sounds without Paired Training Data via Synthetic Perturbations

20. Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

21. Directly Trained Spiking Neural Networks with Adaptive Phase Coding

22. Noise-Robust Contrastive Learning with an MFCC-Conformer for Coronary Artery Disease Detection

23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual Learning

24. A Dynamic Gated Cross-Attention Framework for Audio-Text Apparent Personality Analysis

25. Transfer Learning for Paediatric Sleep Apnoea Detection using Physiology-Guided Acoustic Models

26. Empowering Multimodal Respiratory Sound Classification with Counterfactual Adversarial Debiasing for Out-of-Distribution Robustness

27. PADAM: Perceptual Audio Defect Assessment Model

28. Enhanced Generative Machine Listener

29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an Inertial Sensor

30. AFT: An Exemplar-Free Class Incremental Learning Method for Environmental Sound Classification

31. Transferable Audio Lottery Tickets: Gradient Accumulation for Extreme Sparsity

32. A LLM-Driven Acoustic Semantic Enriched Framework for Underwater Acoustic Target Recognition

33. S-SONDO: Self-Supervised Knowledge Distillation for General Audio Foundation Models

34. Acoustic Non-Stationarity Objective Assessment with Hard Label Criteria for Supervised Learning Models

35. Reading Between the Waves: Robust Topic Segmentation Using Inter-Sentence Audio Features

36. Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

37. Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

38. Thinking While Listening: Simple Test Time Scaling for Audio Classification

39. Snore Sound Classification Based on Physiological Features and Adaptive Loss Function