ICLR 2026 - 音频分类

共 6 篇论文

← 返回 ICLR 2026 总览

排名	论文	评分	分档
🥇	MindMix: A Multimodal Foundation Model for Auditory Percepti	9.0分	前10%
🥈	Resp-Agent: An Agent-Based System for Multimodal Respiratory	9.0分	前10%
🥉	PACE: Pretrained Audio Continual Learning	9.0分	前10%
4.	Unmute the Patch Tokens: Rethinking Probing in Multi-Label A	7.5分	前25%
5.	SNAP-UQ: Self-supervised Next-Activation Prediction for Sing	7.5分	前25%
6.	Better Together: Leveraging Unpaired Multimodal Data for Str	7.0分	前25%

📋 论文详情

🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习

👥 作者与机构

第一作者：Rui Liu（香港理工大学）
通讯作者：Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学）
作者列表：Rui Liu（香港理工大学），Zhige Chen（香港理工大学），Shu Peng（香港理工大学），Wenlong You（香港理工大学），Zhi-An Huang（香港城市大学（东莞）），Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学）

💡 毒舌点评

亮点：这篇论文最大的亮点是“用事实说话”——它不像许多基础模型论文那样只提理论创新，而是直接用一套横跨注意力解码、情感分析、音乐检索的“组合拳”实验结果，无可辩驳地证明了其提出的CALRA模块在建立深度神经-声学对齐上的巨大威力，尤其是在AAD任务上近乎100%的准确率堪称惊艳。短板：然而，论文也坦承了“配对数据稀缺”这一阿喀琉斯之踵。当前实验所用的100多小时对齐数据量，相对于其宣称的“基础模型”定位和庞大的单模态预训练数据（3500+小时）而言仍显单薄，这限制了我们对模型在更复杂、更嘈杂的真实世界声学场景下是否依然如此“全能”且“鲁棒”的判断。

📌 核心摘要

这篇论文旨在解决现有EEG基础模型在听觉感知解码任务中效果有限的问题，其根源在于模型缺乏与声学刺激信息的深度耦合。作者提出了MindMix，一个专门为学习神经-声学对齐表征而设计的多模态基础模型。与以往方法相比，MindMix的创新在于：1) 采用两阶段训练，先用大规模单模态EEG数据预训练一个高容量编码器，再用配对的EEG-音频数据进行跨模态对齐；2) 引入了一个新颖的“跨注意力低秩对齐”（CALRA）模块，该模块包含类型特定对齐器、双向跨注意力机制和共享低秩融合，实现了模态间细粒度的深度交互。在听觉注意力解码（AAD）、听觉情感识别和跨模态音乐检索等多个任务上的实验表明，MindMix显著超越了现有的任务特定模型和单模态基础模型。例如，在KUL数据集上的AAD任务，MindMix达到了99.82%的平衡准确率，远超最强基线DARNet的94.81%。该工作为多模态脑解码和听觉脑机接口的研究奠定了重要基础。其主要局限性在于，当前领域内大规模配对EEG-音频语料库的稀缺，限制了对模型性能缩放定律的进一步探索。

详细分析

01.模型架构

MindMix采用双流架构，通过对比学习目标在共享嵌入空间中对齐EEG和音频表征。整体流程如图1所示：输入一对EEG片段（\(S_{EEG}\)）和音频片段（\(S_{Audio}\)），分别通过各自的编码器生成初始嵌入（\(E_{proj}, A_{proj}\)），然后输入核心的CALRA模块进行深度交互和对齐，输出最终对齐嵌入（\(E_{aligned}, A_{aligned}\)），用于对比损失计算。

MindMix框架概览图图1：MindMix整体框架图。展示了从输入EEG-音频对，经过双流编码器、CALRA模块，到对比学习输出的完整流程。

EEG编码器（\(f_{EEG}\)）：

功能：从嘈杂、多通道的EEG信号中提取鲁棒的、可迁移的神经表征。
内部结构与关键设计：
- 通道无关分块：为处理不同数据集间电极配置的差异性，将每个EEG通道独立分割为固定长度的时间块，再通过1D卷积得到初始嵌入。这种策略允许模型处理异构通道配置。
- 离散神经表征：引入共享码本将初始嵌入量化为离散的神经令牌（\(v \in \mathcal{V}\)），旨在学习更结构化、更鲁棒的表征。
- 位置与空间嵌入：在量化后的令牌上添加可学习的时间位置嵌入（T）和空间（通道）嵌入（E）。空间嵌入将标准10-20系统的电极名称映射为向量，使模型能区分不同通道的解剖来源，无论总通道数如何变化。
预训练目标：EEG编码器通过多任务自监督目标进行预训练，如图2所示。
- 掩码令牌预测：随机掩码部分块嵌入，主Transformer编码器根据可见部分预测被掩码的原始神经令牌，损失为\(L_M\)。
- 频谱重构：并行的一个较小Transformer编码器从未掩码嵌入重构原始块的傅里叶频谱（幅度A和相位ψ），损失为\(L_S\)。

EEG编码器预训练架构图图2：EEG编码器的多任务预训练架构。展示了掩码令牌预测（主分支）和频谱重构（辅助分支）两个并行任务。

音频编码器（\(f_{Audio}\)）：

功能：提取音频的高阶语义表征。
结构：采用预训练的Wav2Vec 2.0模型作为骨干，提取其最后隐藏状态序列，经平均池化后通过线性投影层得到初始音频嵌入\(A_{proj}\)。

跨注意力低秩对齐模块（CALRA）：

功能：实现EEG和音频表征的深度、语境感知的对齐，是MindMix的核心创新。它采用“先精炼，后对比”的策略。
三大组件：
- 类型特定对齐器：根据听觉刺激类型（如语音、音乐）将输入嵌入路由到不同的可学习变换（\(f_k\)），以适应不同刺激类型下的神经响应差异。
- 双向跨注意力：在全局嵌入向量层面，让EEG嵌入从音频嵌入检索相关上下文，同时音频嵌入也从EEG嵌入检索神经特征，实现双向信息交互。
- 共享低秩对齐：将跨注意力输出的表征投影到一个共享的低维瓶颈空间，并进行元素级乘积（\(\odot\)），以强制执行双线性交互，捕捉复杂的非线性跨模态依赖关系。最终通过残差连接和层归一化得到对齐后的嵌入。
设计动机：CALRA旨在超越简单的线性投影或早期融合（如拼接），通过全局精炼和深度双线性交互，捕捉EEG-Audio之间细粒度的、乘法依赖的映射关系。

图3：CALRA模块结构图。清晰地展示了类型特定对齐、双向跨注意力和共享低秩对齐三个组件的串联流程。

02.核心创新点

首个面向听觉解码的多模态基础模型框架（MindMix）：区别于主要基于单模态EEG数据训练的基础模型（如LaBraM, EEGPT），MindMix在设计之初就整合了大规模配对的EEG-音频数据，通过两阶段训练（先单模态EEG预训练，再多模态对齐）来显式地学习深度耦合的神经-声学表征。
新颖的CALRA对齐模块：CALRA模块是实现深度对齐的技术核心。它通过类型特定路由、双向全局跨注意力以及关键的低秩双线性融合，克服了传统投影对齐（如CLIP）或简单拼接融合在建模EEG-音频复杂关系时的不足，实现了更精细、更强大的模态间交互。
大规模、多任务、多数据集的综合验证：论文不仅提出了模型，还在三个具有不同特性的听觉解码任务族（AAD、情感识别、音乐检索）上，使用了六个公开数据集进行了全面评估。实验结果全面超越了强基线，并通过详尽的消融研究验证了每个组件的有效性。

03.细节详述

训练数据：
- 阶段1（单模态预训练）：使用超过3500小时的EEG数据，来自9个公开数据集，涵盖运动想象、癫痫检测、睡眠分期等多种范式。
- 阶段2（多模态对齐）：使用超过100小时的配对EEG-音频数据，来自7个公开数据集，包含音乐、竞争性语音（AAD）和自然故事聆听等多种听觉刺激。
- 预处理：EEG信号经过1-40Hz带通滤波、下采样至200Hz、分割为2秒不重叠的epoch，并进行逐通道z-score标准化。音频信号重采样至16kHz，分割为2秒epoch，并进行峰值归一化。
损失函数：整个框架通过端到端的对比学习目标（InfoNCE损失，公式10）进行优化。该损失最大化批次内正确EEG-音频对的余弦相似度，同时最小化错误对的相似度。温度参数τ是可学习的。
训练策略：
- 优化器：AdamW（β1=0.9, β2=0.95, weight_decay=0.05）。
- 学习率调度：采用余弦学习率调度，并有10个epoch的线性warmup。峰值学习率：预训练和对齐阶段为1e-4，下游微调阶段为1e-5。
- 批次大小：阶段1为512，阶段2为256，阶段3（下游微调）为64。
- 训练轮数：根据验证集性能收敛情况确定。
关键超参数：见下表（摘自论文附录表A2）。
训练硬件：8张NVIDIA A6000 GPU。总预训练计算量约240 GPU小时（阶段1约160小时，阶段2约80小时）。
推理细节：未提及特殊的解码策略或流式设置，使用2秒决策窗口。
正则化技巧：使用了层归一化（Layer Normalization）、残差连接。模型架构中提及了Dropout（论文中未详细说明具体应用位置和比率）。

类别	超参数	值
EEG编码器	Transformer层数	12
	嵌入维度	200
	注意力头数	10
	前馈网络维度	800
	分块编码器	3层1D CNN
	分块维度	200
	输出通道数	8
CALRA模块	输入/输出维度	256
	低秩维度	128
	注意力头数	4
	FFN隐藏维度	512
优化器	类型	AdamW
	微调学习率	1 × 10⁻⁵
	权重衰减	0.01
	Adam Betas	(0.9, 0.95)
	Warmup轮数	3

04.实验结果

论文在三个任务族上进行了评估，主要结果见表2。MindMix在所有任务和指标上均取得了最佳性能，优势显著。

表2：主要性能对比（摘录）

任务	方法	数据集	指标1	指标2
语音AAD	DARNet	KUL	Balanced Acc: 0.9481±0.036	Weighted F1: 0.9567±0.025
	MindMix	KUL	Balanced Acc: 0.9982±0.008	Weighted F1: 0.9991±0.004
情感分析	LaBraM	HR-EEG4EMO	Balanced Acc: 0.7295±0.082	Weighted F1: 0.7829±0.081
	MindMix	HR-EEG4EMO	Balanced Acc: 0.8878±0.045	Weighted F1: 0.8869±0.046
音乐检索	MusicAAD	MAD-EEG	Duo Acc: 0.9425±0.028	Trio Acc: 0.8722±0.038
	MindMix	MAD-EEG	Duo Acc: 0.9475±0.025	Trio Acc: 0.8824±0.042

关键消融实验（表3）：

CALRA模块有效性：移除CALRA，改用标准共注意力（Co-Attention）或简单拼接MLP（Concat-MLP），性能在AAD（KUL）上从99.82%分别下降至97.85%和95.93%，在情感识别（EEG4EMO）上从88.78%分别下降至86.29%和85.74%。
EEG编码器选择：将自定义EEG编码器替换为LaBraM或CBraMod骨干，性能也出现明显下降（AAD降至97.44%和96.37%）。
CALRA组件拆解：移除双向跨注意力（w/o Cross-Attention）导致性能下降最大（AAD降至94.35%），证明其是CALRA最关键的组件。

MindMix与其单模态变体的性能对比图图4：MindMix全模型与其单模态（EEG-Only）变体的性能对比。直观展示了跨模态对齐带来的巨大性能增益。

神经科学解释：

Mel频谱重构：从对齐后的EEG嵌入（\(E_{aligned}\)）重构音频Mel频谱，MindMix的皮尔逊相关系数（PCC）在DTU和KUL上分别达到0.88和0.91，显著优于基线。
空间注意力拓扑图：模型的注意力权重高度集中在左颞叶区域，这与主听觉皮层和语音处理的左侧化现象高度一致，表明模型学习到了具有生物学意义的表征。

神经科学可解释性分析图图5：神经科学可解释性分析。(a) 从EEG重构的Mel频谱图对比；(b) EEG编码器空间注意力权重的脑地形图，显示了与听觉皮层一致的激活模式。

05.评分理由

学术质量（6.5/7）：创新性强，提出了首个专门的EEG-音频多模态对齐基础模型。技术方案设计合理，CALRA模块有理论支撑和充分的消融验证。实验极其充分，涵盖了多种任务、多个数据集、多种基线对比以及深入的分析（包括鲁棒性、效率、跨数据集泛化）。结果令人信服，性能提升显著。轻微不足在于对极端数据稀缺情况下的泛化能力探索有限。
选题价值（1.8/2）：选题处于神经科学、BCI和多模态AI的交叉前沿，具有很高的理论价值和潜在的应用前景（如新型人机交互、神经疾病诊断）。对于关注音频智能和脑科学的读者有很强吸引力。
开源与复现加成（0.7/1）：论文公开了代码仓库链接，提供了详尽的数据集列表、预处理流程、模型架构细节、全部超参数配置、计算成本分析以及评估协议，复现指引非常完备。主要扣分点是未明确��明是否开源预训练模型权重。

开源详情

代码：论文中提供了代码仓库链接：https://github.com/CookieMikeLiu/MindMix。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：论文中使用的所有数据集均为公开可用，并详细列出了名称、来源和小时数。
Demo：论文中未提及在线演示。
复现材料：论文提供了极其详尽的复现材料，包括：标准化数据预处理流程、完整的模型架构描述、所有训练超参数配置（表A2）、分阶段的训练策略、详细的评估协议（包括严格的跨试验评估）、以及计算成本分析。
论文中引用的开源项目：依赖的开源模型包括Wav2Vec 2.0、LaBraM、CBraMod、EEGNet等。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/CookieMikeLiu/MindMix。
模型权重：论文中未提及是否公开预训练模型权重。
数据集：论文中使用的所有数据集均为公开可用，并详细列出了名称、来源和小时数。
Demo：论文中未提及在线演示。
复现材料：论文提供了极其详尽的复现材料，包括：标准化数据预处理流程、完整的模型架构描述、所有训练超参数配置（表A2）、分阶段的训练策略、详细的评估协议（包括严格的跨试验评估）、以及计算成本分析。
论文中引用的开源项目：依赖的开源模型包括Wav2Vec 2.0、LaBraM、CBraMod、EEGNet等。

🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强

👥 作者与机构

第一作者：Pengfei Zhang (香港科技大学（广州）)
通讯作者：Li Liu (香港科技大学（广州）， avrillliu@hkust-gz.edu.cn)
作者列表：Pengfei ZHANG (香港科技大学（广州）)， Tianxin Xie (香港科技大学（广州）)， Minghao Yang (香港科技大学（广州）)， Li Liu* (香港科技大学（广州）)

💡 毒舌点评

亮点：这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统，用LLM（Thinker-A2CA）动态决定“合成什么”来弥补诊断器的短板，把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习，这个系统设计思想很有启发性。短板：不过，整个系统有点像个精心组装的乐高，依赖多个重型组件（LLM， BEATs， Longformer，流匹配模型），对于呼吸音这个相对垂直的应用场景，其工程复杂度和算力需求是否与性能增益完全匹配，值得商榷。另外，生成的“合成临床音频”虽然用于训练有效，但缺乏真实生理细节的验证，其临床保真度仍需医生在严格双盲测试中评判。

📌 核心摘要

要解决的问题：深度学习在呼吸音分析中面临两大挑战：一是将音频信号转为频谱图会导致瞬态事件（如啰音）的信息损失；二是缺乏大规模、高质量的多模态（音频+临床文本）标注数据，且存在严重的类别不平衡。
方法核心：提出Resp-Agent，一个由中央控制器（Thinker-A2CA）编排的多智能体闭环系统。该系统能主动分析诊断器的弱点，并调度生成器进行针对性合成，从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合，并用稀疏音频锚点捕捉瞬态事件；生成器采用两阶段设计，先用LLM在文本诊断和参考音频风格条件下生成离散音频单元，再用流匹配解码器重建波形。
新在何处：1) 系统范式：首次将呼吸音的分析（诊断）和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构：提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制，实现高效且精细的文本-音频跨模态对齐。3) 生成器设计：将文本LLM改造为可控的多模态音频单元生成器，并采用流匹配进行波形重建。4) 基准数据：构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k（22.9万条记录）。
主要实验结果：在ICBHI基准上，Resp-Agent的诊断性能（ICBHI Score 72.7%）超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上，使用Thinker指导合成的平衡数据后，多模态诊断器的宏观F1从0.212大幅提升至0.598，证实了闭环生成策略的有效性。生成器在可控性（风格/内容解耦）和保真度（FAD 1.13）上也优于强基线（如微调的StableAudio Open）。关键实验结果见下表：

模型/方法	数据集	指标	原始（不平衡）	平衡后
诊断器对比
Conformer (音频基线)	Resp-229k Test-CD	Macro-F1	0.1935	0.5360
Resp-Agent Diagnoser (Ours)	Resp-229k Test-CD	Macro-F1	0.2118	0.5980
生成器策略对比
No-Synth (基线)	Resp-229k Test-CD	Macro-F1	0.212	-
Class-Prior Rebalancing	Resp-229k Test-CD	Macro-F1	-	0.512
Thinker-A2CA (Ours)	Resp-229k Test-CD	Macro-F1	-	0.598
生成器音频保真度对比
StableAudio Open (微调)	个体化重建	FAD ↓	1.54	-
Resp-Agent Generator (Ours)	个体化重建	FAD ↓	1.13	-

实际意义：为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式，即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。
主要局限性：1) 系统复杂度高，涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效，但其真实性和临床细节（如相位、微结构）仍需更严格的评估。3) 评估主要集中在诊断性能，对生成音频的直接临床效用（如用于教学或模拟）验证不足。

🥉 PACE: Pretrained Audio Continual Learning

🔥 9.0/10 | 前10% | #音频分类 | #持续学习 | #预训练 #自监督学习

👥 作者与机构

第一作者：Chang Li (清华大学心理与认知科学系)
通讯作者：Liyuan Wang (liyuanwang@tsinghua.edu.cn，清华大学心理与认知科学系)
作者列表：Chang Li（清华大学心理与认知科学系）、Kanglei Zhou（清华大学心理与认知科学系）、Liyuan Wang†（清华大学心理与认知科学系）（注：*表示共同第一作者，†表示通讯作者）

💡 毒舌点评

亮点：这是一篇问题定义清晰、实验极其扎实的“工程科学”论文。它首次将音频持续学习（ACL）问题系统化，并通过精巧的分析（如图1、图3）揭示了音频域与视觉域CL的根本差异，提出的PACE方法在6个差异巨大的基准上均显著刷新SOTA，特别是将性能逼近了联合训练上界。短板：方法设计虽然有效，但各模块（改进FSA、子空间正交PEFT、边界感知扰动）组合起来略显复杂，调参空间可能不小。此外，对于计算资源敏感的场景，其多会话自适应（MSA）阶段的额外开销是否总能接受，论文讨论略显不足。

🔗 开源详情

代码：论文中提及“we will release all constructed benchmarks and reproduced baselines along with our codebase upon acceptance”，但未在当前文本提供具体代码仓库链接。
模型权重：未提及公开预训练EAT模型的权重获取方式（可能默认为已有公开模型）。
数据集：论文构建的CL基准分割将随代码发布。原始数据集（ESC-50, US8K等）均为公开可用。
Demo：未提及在线演示。
复现材料：提供了详细的超参数设置（表5）、训练硬件（NVIDIA A800 GPU）、关键算法伪代码（Algorithm 1）以及大量的消融实验结果和敏感性分析，复现细节充分。
引用的开源项目：论文依赖或对比的开源项目包括：EAT模型、SSLAM模型、RanPAC、ACL、L2P、DualPrompt等持续学习基线方法。

📌 核心摘要

本文针对预训练音频模型在数据分布动态变化的现实场景中面临灾难性遗忘的问题，首次系统研究了音频持续学习（Audio Continual Learning， ACL）。论文的核心工作包括：

问题诊断：通过构建涵盖粗粒度（环境声、关键词）和细粒度（说话人、乐器）的6个音频CL基准，发现直接迁移视觉CL方法（如基于PEFT的L2P、DualPrompt）在音频上性能严重下降，根源在于音频骨干网络（如EAT）强调低层频谱细节而非高层语义，导致严重的上游-下游任务不匹配和跨会话表示偏移（如图1(a)所示，表示偏移远大于类间距离）。
方法创新：提出PACE（Pretrained Audio Continual lEarning）框架。其核心是阶段式对齐：(1) 改进的第一会话自适应（FSA）：仅微调骨干网络的深层（通过CKA确定边界），并采用非对称训练策略（低头学习率、先训头后冻头），最后替换为解析分类器，在粗粒度任务上有效利用预训练知识并避免表示饱和。(2) 自适应多会话子空间正交PEFT（MSA）：在后续会话中，通过LoRA减法和梯度投影，将参数更新约束在旧表示的零空间内，实现可控的骨干网络适应，平衡稳定性与可塑性。(3) 边界感知正则化：通过对输入音频进行时频掩码扰动生成“边界样本”，并设计损失函数将特征拉向类中心、推离边界点，增强类内紧凑性和类间可分性。
结果：在6个基准上，PACE一致显著优于所有基线。例如，在细粒度TIMIT-2上，PACE（90.95%）比最强基线RanPAC（85.63%）高出+5.32%，仅比联合训练上界（95.22%）低4.27%；在VocalSet上，PACE（69.08%）比SOTA高出+6.26%，比联合训练（76.65%）低7.57%。
意义与局限：PACE为构建鲁棒、可扩展的预训练音频CL系统提供了有效方案。局限在于其多阶段适应策略可能增加训练时间（尽管论文在附录E.4中证明其效率仍优于多数PEFT基线），且主要验证于EAT和SSLAM两个骨干，对更多架构的泛化性有待探索。

4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估

👥 作者与机构

第一作者：Lukas Rauch (卡塞尔大学)
通讯作者：未说明
作者列表：Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE)

💡 毒舌点评

亮点：这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠��”的核心症结（池化瓶颈），并给出了一个简洁有效的解决方案，让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。短板：其提出的“二值化原型探针”本质上是现有原型网络的变体和简化，在方法创新深度上稍显不足，更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器，其结论在更广泛的音频表示（如波形、离散token）上的普适性有待验证。

🔗 开源详情

代码：是，提供了GitHub仓库链接：https://github.com/lurauch/unmute-patch-tokens/。
模型权重：未提及是否公开探针模型的权重。论文使用的是已公开的SSL编码器检查点。
数据集：是，部分数据集（desed, spass, urban-sed）已上传至Hugging Face Hub：https://huggingface.co/datasets/lrauch/desed, https://huggingface.co/datasets/lrauch/spass, https://huggingface.co/datasets/lrauch/urban-sed。其他数据集为公开标准数据集。
Demo：未提及。
复现材料：提供了非常详细的附录，包括数据集详细描述（D.1）、池化方法汇总与复杂度（D.3）、完整的超参数搜索设置与范围（D.4）、以及计算资源说明（C）。
依赖的开源项目：论文未在正文中明确列出所有代码依赖项，但从方法描述可推断依赖标准深度学习框架（如PyTorch）及用于超参数搜索的库（如Optuna）。
开源计划：论文已提供代码和数据链接，属于已开源状态。

📌 核心摘要

问题：当前音频自监督学习（SSL）领域，尽管探针（Probing）是评估模型表征质量的标准范式，但在追求AudioSet基准SOTA性能时仍依赖昂贵的全模型微调。论文指出，根本原因是标准的全局池化（如使用[cls] token）在处理多标签音频分类中的稀疏、局部声音事件时形成了信息瓶颈，导致探针性能无法反映模型真实潜力。
方法：论文提出二值化原型探针（Protobin）。它维护一组可学习的、类无关的全局原型，通过将原型二值化（±1）来鼓励正交性。在推理时，它将音频片段的每个token与所有原型计算余弦相似度，然后通过最大池化聚合每个原型的全局匹配分数，最终通过一个线性层将原型分数映射到类别logits。这实现了类别条件化、多向量的信息聚合。
新意：与传统的线性探针（单向量）、注意力池化探针相比，该方法采用多向量、按原型（类条件）聚合的策略。相较于先前的类依赖原型方法，本文将其简化为类无关设计，并移除了显式的正交性损失，通过二值化隐式实现，且大幅降低了内存消耗（32倍）。
结果：在跨越13个数据集、6个编码器的大规模基准测试中，Protobin在平均上显著优于线性探针（+14.41% mAP on 通用音频）和注意力池化方法。它能将冻结编码器的探针性能提升至接近微调的水平（如在as20k数据集上，Protobin弥补了63%的与微调的性能差距）。关键发现包括：线性探针会扭曲模型排名（如ASiT和SSLAM的排名逆转）；池化瓶颈在多标签任务中比在多分类任务中更严重；监督微调主要增强[cls] token而非token map本身。
意义：该工作建立了一个可靠、高效的音频SSL模型评估新范式。它证明了通过改进池化方法，探针评估可以成为微调的一种有竞争力的替代方案，挑战了当前为追求SOTA而依赖全模型微调的惯性，有助于更公平、低成本地评估和比较音频SSL模型。
局限：研究主要聚焦于clip-level分类任务，未验证该方法在帧级任务（如事件检测）上的效果。所有实验基于冻结的ViT-base声谱图编码器，结论在更小、更大或不同架构（如CNN、波形编码器）模型上的适用性需进一步确认。

5. SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

✅ 7.5/10 | 前25% | #音频分类 | #自监督学习 | #低资源 #模型评估

👥 作者与机构

第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador）
通讯作者：未说明（论文中未明确标注通讯作者）
作者列表：
- Ismail Lamaakal*（Mohammed First University, Multidisciplinary Faculty of Nador）
- Chaymae Yahyati*（Mohammed First University, Multidisciplinary Faculty of Nador）
- Khalid El Makkaoui（Mohammed First University, Multidisciplinary Faculty of Nador）
- Ibrahim Ouahbi（Mohammed First University, Multidisciplinary Faculty of Nador）
- Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI）（*表示共同第一作者）

💡 毒舌点评

论文的亮点在于将“不确定性”这个通常需要复杂计算的概念，巧妙地转化为对网络内部“可预测性”的衡量，并以此构建了一个极度轻量、无需额外状态、完美适配MCU的单次推理方案，实用性极强。但其短板是“自监督”的标签略有牵强，更像是为不确定性估计任务设计的辅助回归损失；此外，论文对tap位置选择、rank大小等关键设计选择的敏感性分析不够深入，给实际部署时的调优留下了“黑箱”。

🔗 开源详情

代码：论文中提供了代码仓库链接：https://github.com/Ism-ail11/SNAP-UQ。
模型权重：未提及是否公开预训练模型权重。
数据集：使用的是公开数据集（MNIST, CIFAR-10, TinyImageNet, SpeechCommands v2），论文未提及公开自定义数据集。
Demo：未提及。
复现材料：提供了非常充分的复现材料。包括：完整的算法伪代码（Algorithm 1 & 2）；附录中详细说明了数据集预处理（A）、训练/校准/构建细节（B）、基线调优（C）、腐蚀/OOD协议（D）和评估指标（F）。论文中列出了所有关键超参数及其选择范围。提供了代码仓库链接。
引用的开源项目：论文依赖TensorFlow Lite Micro、CMSIS-NN等TinyML工具链，并引用了多个基线方法的开源实现（如Temperature Scaling, Mahalanobis）。

📌 核心摘要

问题：在资源极端受限的微控制器（MCU）上部署的TinyML模型，缺乏轻量、实时的在线不确定性估计能力，难以检测数据分布偏移、模型错误或性能下降，影响了边缘设备的鲁棒性和可靠性。
方法核心：提出SNAP-UQ，一种基于“自监督下一层激活预测”的单次前向传播不确定性估计方法。在主干网络的少数几层（“tap点”）附加小型预测头，用低维投影预测下一层激活的统计量（均值和方差），通过实际激活与预测值之间的“惊讶度”（标准化预测误差）来量化网络内部动态的异常程度，多个tap点的惊讶度聚合后经轻量单调映射得到最终不确定性分数。
创新点：与依赖多次前向传播（如MC Dropout）、集成模型或依赖输出层置信度的方法不同，SNAP-UQ完全基于单次前向传播中网络内部层的动态变化构建不确定性信号，无需状态缓冲、额外分支或架构修改，且所有运算为整数友好型（int8量化），增量部署开销仅几十KB Flash和<2%额外计算。
主要实验结果：
- 可部署性：在Big-MCU和Small-MCU上，SNAP-UQ相比基线EE-ens和DEEP，Flash占用减少37%-57%，延迟降低24%-35%，能耗降低约20-30%，并在CIFAR-10任务的Small-MCU上，基线因内存溢出无法运行而SNAP-UQ仍可部署（见表1）。
- 监控与检测：在损坏数据流上，SNAP-UQ的精度下降检测AUPRC（如MNIST-C上0.66）优于所有基线（见表2），且随腐蚀严重度增加提升最快（见图2）。在故障检测（ID✓— ID×, ID✓— OOD）任务上，SNAP-UQ在多个数据集上取得最高或并列最高的AUROC（如SpeechCommands上ID✓— ID×为0.94，见表3）。
- 校准：在分布内（ID）数据上，SNAP-UQ的NLL、Brier Score和ECE相比基线BASE和温度缩放均有改善（见表4）。
实际意义：为TinyML生态系统提供了一种即插即用的在线监控工具，可在不增加显著资源开销的前提下，提升部署在MCU上的AI应用的可信度和安全性，适用于传感器漂移、环境变化等现实场景。
主要局限性：方法依赖于能访问和附加在主干网络的中间层激活上；使用对角/低秩协方差可能无法完全建模复杂的跨通道相关性；性能对tap点位置和投影器秩的选择有一定敏感性。

6. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models

✅ 7.0/10 | 前25% | #音频分类 | #自监督学习 #迁移学习 | #多模态模型 #自监督学习

👥 作者与机构

第一作者：Sharut Gupta (MIT CSAIL)
通讯作者：未说明（论文中未明确标注通讯作者）
作者列表：Sharut Gupta (MIT CSAIL), Shobhita Sundaram (MIT CSAIL), Chenyu Wang (MIT CSAIL), Stefanie Jegelka (TU Munich, MIT CSAIL), Phillip Isola (MIT CSAIL)

💡 毒舌点评

亮点在于其理论部分严谨地证明了无配对多模态数据在信息论层面的价值，为“跨模态知识蒸馏无需配对”提供了坚实论据，实验也相当全面。短板是UML的框架（共享权重，交替训练）相对直观，并非一个复杂的“新模型”，且其实验验证主要围绕视觉分类，对理论承诺的“适用于音频”只做了初步展示，深度稍显不足。

🔗 开源详情

代码：论文中未提及代码仓库链接。仅提供了项目主页（https://unpaired-multimodal.github.io/）。
模型权重：未提及公开预训练或训练好的模型权重。
数据集：实验中使用的数据集均为公开基准（MultiBench， ImageNet-ESC，以及各种标准图像分类数据集）。
Demo：未提供在线演示。
复现材料：提供了非常详细的复现材料。附录B包含了完整的实验细节，如硬件环境（V100 GPU）、数据集描述与预处理、训练协议（优化器、学习率范围、轮数等）、以及超参数搜索网格（Table 5）。这为研究者复现实验提供了充分的信息。
论文中引用的开源项目：论文依赖了多个开源模型和库，包括：
- 视觉编码器：ViT (Dosovitskiy et al., 2020), DINOv2, CLIP。
- 文本编码器：OpenLLaMA, BERT (Devlin et al., 2019), RoBERTa, GPT-2。
- 音频编码器：AudioCLIP (Guzhov et al., 2021)。
- 框架：PyTorch。
- 优化器：AdamW (Loshchilov & Hutter, 2017)。
- 数据集：MultiBench (Liang et al., 2021), ImageNet-ESC (Lin et al., 2023) 等。

📌 核心摘要

本文旨在解决多模态学习中对昂贵且有限的配对数据（如图像-文本对）的依赖问题。其核心方法是提出无配对多模态学习器（UML），这是一个模态无关的训练范式，让单一模型在不同模态的输入（如图像和文本）之间交替训练并共享权重。这一设计基于不同模态是对同一底层现实的不同投影的假设，使得模型无需显式的对齐关系就能从跨模态结构中受益。与已有方法相比，UML的新颖之处在于它完全摒弃了对模态间配对关系的要求，甚至摒弃了用于推断对齐的中间目标。理论上，论文在线性数据生成假设下证明了，加入无配对的辅助模态数据可以严格增加关于共享潜在变量的Fisher信息，从而得到更准确的表示。实验上，论文展示了UML在多个图像和音频分类基准上，无论是自监督还是监督、少样本还是全数据设置下，都能稳定提升仅基于目标模态的基线模型性能。例如，在MUSTARD数据集上，图像表示的分类准确率从59.66%提升至63.28%（Table 1）。实际意义在于，该方法能够轻松利用互联网上大量存在的、无需配对的多模态数据来提升特定模态模型的性能，具有广泛的应用潜力。其主要局限性在于，目前的实验主要集中在分类任务，对生成等其他任务的有效性有待验证，且论文未深入探究无配对设置下可能出现的梯度干扰、模态崩溃等优化挑战。

ICLR 2026 - 音频分类#

📋 论文详情#

🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment#

📌 核心摘要#

详细分析#

01.模型架构#

02.核心创新点#

03.细节详述#

04.实验结果#

05.评分理由#

开源详情#

🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis#

🥉 PACE: Pretrained Audio Continual Learning#

4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification#

5. SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML#

6. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models#

📎 相关论文

ICLR 2026 - 音频分类

📋 论文详情

🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📌 核心摘要

详细分析

01.模型架构

02.核心创新点

03.细节详述

04.实验结果

05.评分理由

开源详情

🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

🥉 PACE: Pretrained Audio Continual Learning

4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

5. SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

6. Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models