音频分类 | 语音/音频论文速递

ICLR 2026 - 音频分类论文列表

ICLR 2026 - 音频分类共 6 篇论文 ← 返回 ICLR 2026 总览排名论文评分分档 🥇 MindMix: A Multimodal Foundation Model for Auditory Percepti 9.0分前10% 🥈 Resp-Agent: An Agent-Based System for Multimodal Respiratory 9.0分前10% 🥉 PACE: Pretrained Audio Continual Learning 9.0分前10% 4. Unmute the Patch Tokens: Rethinking Probing in Multi-Label A 7.5分前25% 5. SNAP-UQ: Self-supervised Next-Activation Prediction for Sing 7.5分前25% 6. Better Together: Leveraging Unpaired Multimodal Data for Str 7.0分前25% 📋 论文详情 🥇 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习 ...

MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment

📄 MindMix: A Multimodal Foundation Model for Auditory Perception Decoding via Deep Neural-Acoustic Alignment #多模态模型 #音频分类 #预训练 #对比学习 #跨模态 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #预训练 #对比学习学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.7 | 置信度高 👥 作者与机构第一作者：Rui Liu（香港理工大学）通讯作者：Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学）作者列表：Rui Liu（香港理工大学），Zhige Chen（香港理工大学），Shu Peng（香港理工大学），Wenlong You（香港理工大学），Zhi-An Huang（香港城市大学（东莞）），Jibin Wu（香港理工大学），Kay Chen Tan（香港理工大学） 💡 毒舌点评亮点：这篇论文最大的亮点是“用事实说话”——它不像许多基础模型论文那样只提理论创新，而是直接用一套横跨注意力解码、情感分析、音乐检索的“组合拳”实验结果，无可辩驳地证明了其提出的CALRA模块在建立深度神经-声学对齐上的巨大威力，尤其是在AAD任务上近乎100%的准确率堪称惊艳。短板：然而，论文也坦承了“配对数据稀缺”这一阿喀琉斯之踵。当前实验所用的100多小时对齐数据量，相对于其宣称的“基础模型”定位和庞大的单模态预训练数据（3500+小时）而言仍显单薄，这限制了我们对模型在更复杂、更嘈杂的真实世界声学场景下是否依然如此“全能”且“鲁棒”的判断。 📌 核心摘要这篇论文旨在解决现有EEG基础模型在听觉感知解码任务中效果有限的问题，其根源在于模型缺乏与声学刺激信息的深度耦合。作者提出了MindMix，一个专门为学习神经-声学对齐表征而设计的多模态基础模型。与以往方法相比，MindMix的创新在于：1) 采用两阶段训练，先用大规模单模态EEG数据预训练一个高容量编码器，再用配对的EEG-音频数据进行跨模态对齐；2) 引入了一个新颖的“跨注意力低秩对齐”（CALRA）模块，该模块包含类型特定对齐器、双向跨注意力机制和共享低秩融合，实现了模态间细粒度的深度交互。在听觉注意力解码（AAD）、听觉情感识别和跨模态音乐检索等多个任务上的实验表明，MindMix显著超越了现有的任务特定模型和单模态基础模型。例如，在KUL数据集上的AAD任务，MindMix达到了99.82%的平衡准确率，远超最强基线DARNet的94.81%。该工作为多模态脑解码和听觉脑机接口的研究奠定了重要基础。其主要局限性在于，当前领域内大规模配对EEG-音频语料库的稀缺，限制了对模型性能缩放定律的进一步探索。详细分析 01.模型架构 MindMix采用双流架构，通过对比学习目标在共享嵌入空间中对齐EEG和音频表征。整体流程如图1所示：输入一对EEG片段（\(S_{EEG}\)）和音频片段（\(S_{Audio}\)），分别通过各自的编码器生成初始嵌入（\(E_{proj}, A_{proj}\)），然后输入核心的CALRA模块进行深度交互和对齐，输出最终对齐嵌入（\(E_{aligned}, A_{aligned}\)），用于对比损失计算。 ...

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #自监督学习 #参数高效微调 🔥 9.0/10 | 前10% | #音频分类 | #持续学习 | #预训练 #自监督学习学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Chang Li (清华大学心理与认知科学系) 通讯作者：Liyuan Wang (liyuanwang@tsinghua.edu.cn，清华大学心理与认知科学系) 作者列表：Chang Li（清华大学心理与认知科学系）、Kanglei Zhou（清华大学心理与认知科学系）、Liyuan Wang†（清华大学心理与认知科学系）（注：*表示共同第一作者，†表示通讯作者） 💡 毒舌点评亮点：这是一篇问题定义清晰、实验极其扎实的“工程科学”论文。它首次将音频持续学习（ACL）问题系统化，并通过精巧的分析（如图1、图3）揭示了音频域与视觉域CL的根本差异，提出的PACE方法在6个差异巨大的基准上均显著刷新SOTA，特别是将性能逼近了联合训练上界。短板：方法设计虽然有效，但各模块（改进FSA、子空间正交PEFT、边界感知扰动）组合起来略显复杂，调参空间可能不小。此外，对于计算资源敏感的场景，其多会话自适应（MSA）阶段的额外开销是否总能接受，论文讨论略显不足。 🔗 开源详情代码：论文中提及“we will release all constructed benchmarks and reproduced baselines along with our codebase upon acceptance”，但未在当前文本提供具体代码仓库链接。模型权重：未提及公开预训练EAT模型的权重获取方式（可能默认为已有公开模型）。数据集：论文构建的CL基准分割将随代码发布。原始数据集（ESC-50, US8K等）均为公开可用。 Demo：未提及在线演示。复现材料：提供了详细的超参数设置（表5）、训练硬件（NVIDIA A800 GPU）、关键算法伪代码（Algorithm 1）以及大量的消融实验结果和敏感性分析，复现细节充分。引用的开源项目：论文依赖或对比的开源项目包括：EAT模型、SSLAM模型、RanPAC、ACL、L2P、DualPrompt等持续学习基线方法。 📌 核心摘要本文针对预训练音频模型在数据分布动态变化的现实场景中面临灾难性遗忘的问题，首次系统研究了音频持续学习（Audio Continual Learning， ACL）。论文的核心工作包括： ...

Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis

📄 Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis #音频分类 #多模态模型 #流匹配 #数据增强 #生物声学 🔥 9.0/10 | 前10% | #音频分类 | #多模态模型 | #流匹配 #数据增强学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Pengfei Zhang (香港科技大学（广州）) 通讯作者：Li Liu (香港科技大学（广州）， avrillliu@hkust-gz.edu.cn) 作者列表：Pengfei ZHANG (香港科技大学（广州）)， Tianxin Xie (香港科技大学（广州）)， Minghao Yang (香港科技大学（广州）)， Li Liu* (香港科技大学（广州）) 💡 毒舌点评亮点：这篇论文最漂亮的地方在于它提出了一个“分析-生成”闭环的智能体系统，用LLM（Thinker-A2CA）动态决定“合成什么”来弥补诊断器的短板，把数据增强从一个被动的预处理步骤变成了主动的、对抗性的课程学习，这个系统设计思想很有启发性。短板：不过，整个系统有点像个精心组装的乐高，依赖多个重型组件（LLM， BEATs， Longformer，流匹配模型），对于呼吸音这个相对垂直的应用场景，其工程复杂度和算力需求是否与性能增益完全匹配，值得商榷。另外，生成的“合成临床音频”虽然用于训练有效，但缺乏真实生理细节的验证，其临床保真度仍需医生在严格双盲测试中评判。 📌 核心摘要要解决的问题：深度学习在呼吸音分析中面临两大挑战：一是将音频信号转为频谱图会导致瞬态事件（如啰音）的信息损失；二是缺乏大规模、高质量的多模态（音频+临床文本）标注数据，且存在严重的类别不平衡。方法核心：提出Resp-Agent，一个由中央控制器（Thinker-A2CA）编排的多智能体闭环系统。该系统能主动分析诊断器的弱点，并调度生成器进行针对性合成，从而将诊断与生成任务统一。诊断器采用“模态编织”将文本与音频token融合，并用稀疏音频锚点捕捉瞬态事件；生成器采用两阶段设计，先用LLM在文本诊断和参考音频风格条件下生成离散音频单元，再用流匹配解码器重建波形。新在何处：1) 系统范式：首次将呼吸音的分析（诊断）和生成整合到一个由LLM驱动的闭环智能体框架中。2) 诊断器架构：提出基于稀疏全局注意力的“模态编织”和“音频锚点”机制，实现高效且精细的文本-音频跨模态对齐。3) 生成器设计：将文本LLM改造为可控的多模态音频单元生成器，并采用流匹配进行波形重建。4) 基准数据：构建并开源了首个大规模、多来源、跨机构的多模态呼吸音基准Resp-229k（22.9万条记录）。主要实验结果：在ICBHI基准上，Resp-Agent的诊断性能（ICBHI Score 72.7%）超越先前最佳音频模型超过5个百分点。在自建的跨机构Resp-229k基准上，使用Thinker指导合成的平衡数据后，多模态诊断器的宏观F1从0.212大幅提升至0.598，证实了闭环生成策略的有效性。生成器在可控性（风格/内容解耦）和保真度（FAD 1.13）上也优于强基线（如微调的StableAudio Open）。关键实验结果见下表：模型/方法数据集指标原始（不平衡）平衡后诊断器对比 Conformer (音频基线) Resp-229k Test-CD Macro-F1 0.1935 0.5360 Resp-Agent Diagnoser (Ours) Resp-229k Test-CD Macro-F1 0.2118 0.5980 生成器策略对比 No-Synth (基线) Resp-229k Test-CD Macro-F1 0.212 - Class-Prior Rebalancing Resp-229k Test-CD Macro-F1 - 0.512 Thinker-A2CA (Ours) Resp-229k Test-CD Macro-F1 - 0.598 生成器音频保真度对比 StableAudio Open (微调) 个体化重建 FAD ↓ 1.54 - Resp-Agent Generator (Ours) 个体化重建 FAD ↓ 1.13 - 实际意义：为数据稀缺且不平衡的医疗音频分析提供了一种强大的范式，即通过智能体驱动的闭环生成来主动构建更鲁棒的模型。开源的Resp-229k基准和代码将加速呼吸音领域的多模态研究。主要局限性：1) 系统复杂度高，涉及多个大模型的训练与协调。2) 生成的合成音频虽用于训练有效，但其真实性和临床细节（如相位、微结构）仍需更严格的评估。3) 评估主要集中在诊断性能，对生成音频的直接临床效用（如用于教学或模拟）验证不足。 🏗️ 模型架构 Resp-Agent是一个由中央控制器协调的多智能体系统，包含三个核心模块：Thinker（规划者）、Generator（生成器）和 Diagnoser（诊断器），形成一个“诊断->发现问题->指导合成->改进诊断”的闭环。 ...

SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML

📄 SNAP-UQ: Self-supervised Next-Activation Prediction for Single-Pass Uncertainty in TinyML #音频分类 #自监督学习 #低资源 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #自监督学习 | #低资源 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Ismail Lamaakal（Mohammed First University, Multidisciplinary Faculty of Nador）通讯作者：未说明（论文中未明确标注通讯作者）作者列表： Ismail Lamaakal*（Mohammed First University, Multidisciplinary Faculty of Nador） Chaymae Yahyati*（Mohammed First University, Multidisciplinary Faculty of Nador） Khalid El Makkaoui（Mohammed First University, Multidisciplinary Faculty of Nador） Ibrahim Ouahbi（Mohammed First University, Multidisciplinary Faculty of Nador） Yassine Maleh（Sultan Moulay Slimane University, Laboratory LaSTI）（*表示共同第一作者） 💡 毒舌点评论文的亮点在于将“不确定性”这个通常需要复杂计算的概念，巧妙地转化为对网络内部“可预测性”的衡量，并以此构建了一个极度轻量、无需额外状态、完美适配MCU的单次推理方案，实用性极强。但其短板是“自监督”的标签略有牵强，更像是为不确定性估计任务设计的辅助回归损失；此外，论文对tap位置选择、rank大小等关键设计选择的敏感性分析不够深入，给实际部署时的调优留下了“黑箱”。 ...

Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification

📄 Unmute the Patch Tokens: Rethinking Probing in Multi-Label Audio Classification #音频分类 #自监督学习 #探针评估 #模型评估 #基准测试 ✅ 7.5/10 | 前25% | #音频分类 | #探针评估 | #自监督学习 #模型评估学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Lukas Rauch (卡塞尔大学) 通讯作者：未说明作者列表：Lukas Rauch (卡塞尔大学), René Heinrich (卡塞尔大学, 弗劳恩霍夫IEE), Houtan Ghaffari (根特大学), Lukas Miklautz (MPI of Biochemistry), Ilyass Moummad (INRIA Montpellier), Bernhard Sick (卡塞尔大学), Christoph Scholz (卡塞尔大学, 弗劳恩霍夫IEE) 💡 毒舌点评亮点：这篇论文做了一件“对”且“必要”的事——它系统性地指出并验证了音频SSL领域普遍存在的“用线性探针评估却不靠��”的核心症结（池化瓶颈），并给出了一个简洁有效的解决方案，让探针评估重获可信度。实验规模和设计的严谨性也值得称赞。短板：其提出的“二值化原型探针”本质上是现有原型网络的变体和简化，在方法创新深度上稍显不足，更像是一个工程上优化得很好的“修补”方案。研究完全基于冻结的声谱图编码器，其结论在更广泛的音频表示（如波形、离散token）上的普适性有待验证。 ...

A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks

📄 A Brain-Inspired Gating Mechanism Unlocks Robust Computation in Spiking Neural Networks #脉冲神经网络 #音频分类 #鲁棒性 #神经形态计算 ✅ 7.0/10 | 前25% | #音频分类 | #脉冲神经网络 | #鲁棒性 #神经形态计算学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qianyi Bai（天津大学智能与计算学院，天津大学计算机科学与技术学院）通讯作者：Qiang Yu（天津大学智能与计算学院，认知计算与应用天津市重点实验室）作者列表：Qianyi Bai（天津大学智能与计算学院，天津大学计算机科学与技术学院）、Haiteng Wang（天津大学智能与计算学院，天津大学未来技术学院）、Qiang Yu（天津大学智能与计算学院，通讯作者） 💡 毒舌点评亮点：论文成功地将生物神经元中“动态电导”这一相对复杂的生理现象，抽象并简化为一个可计算、可训练的“门控机制”，并用令人信服的实验（尤其是广泛的噪声和对抗攻击测试）证明了它在提升SNN鲁棒性上的显著效果。短板：虽然与LIF等基础SNN模型对比充分，但与更近期、同样旨在提升SNN性能和鲁棒性的复杂模型（如文中提到的HetSyn、TC-LIF等）的对比，有时仅在特定设置下（如参数量更少）占优，在绝对性能上并未全面碾压，其“通用最优”的结论有待更广泛验证。 🔗 开源详情代码：论文中未直接提供代码仓库链接。但致谢中提及工作部分由小米基金会支持，且在实验部分多次提到“reproduced using public code”，暗示基线代码可能来源于公开实现。DGN本身的实现细节已在附录伪代码（算法1）和超参数表（表5）中充分公开。模型权重：未提及是否公开训练好的模型权重。数据集：实验所用数据集（Ti46Alpha, TIDIGITS, SHD, SSC）均为学术界公开的标准基准，论文未提供自有数据集。 Demo：未提及在线演示。复现材料：非常充分。附录A.1-A.5包含了完整的数学推导、模型伪代码、所有实验的详细超参数设置、噪声/攻击生成算法、以及大量未在正文中完全展示的实验结果表格（表11-16）。论文中引用的开源项目：论文未明确列出其依赖的特定开源代码库或工具。但基线模型的复现可能基于了社区已有的SNN实现（如SpikingJelly等，但论文未明确说明）。 📌 核心摘要解决的问题：传统脉冲神经网络（SNN）使用的漏积分发放（LIF）神经元模型过于简化，忽略了生物神经元中动态的离子通道电导调节机制，导致其处理噪声和时序变化的能力有限，鲁棒性不足。方法核心：提出了一种新型的动态门控神经元（DGN）模型。其核心是在神经元膜电位的更新方程中，引入了依赖于突触输入活动的动态电导项（C_i * D_i），该项与固有的泄漏电导（g_l）共同构成一个“门控”因子，动态调节膜电位的衰减速率。与已有方法相比新在哪里：与静态参数（如LIF）或引入静态可学习门控（如GLIF）的SNN模型不同，DGN的门控机制是动态的、输入依赖的、且直接源于生物电导调节原理。论文还首次从理论上将这种动态电导与LSTM中的门控机制进行了类比和功能映射。主要实验结果：DGN在多个语音分类数据集（Ti46Alpha, TIDIGITS, SHD, SSC）上取得了有竞争力的准确率。关键鲁棒性结果（见表2）：在TIDIGITS数据集上，前馈DGN在加性噪声（p=0.006）下准确率为95.34%，而LIF仅为46.83%；在PGD攻击（ε=0.003）下，DGN准确率为86.76%，LIF为15.39%。DGN在多种噪声和攻击下均展现出显著优于LIF、ALIF、HeterLIF以及RNN/LSTM的鲁棒性。实际意义：为构建更鲁棒、更能适应非理想环境（如含噪声的传感器输入）的神经形态计算系统提供了新的神经元模型设计范式，有助于推动SNN在边缘计算、低功耗设备等实际场景中的应用。主要局限性：模型的计算开销和参数量（见表3）相比标准LIF有所增加；论文主要聚焦于语音分类任务，在视觉等其他脉冲神经网络典型应用场景下的泛化性未得到验证；动态电导机制引入的额外超参数（如τ_s, C_i）可能增加调优难度。 🏗️ 模型架构论文提出的动态门控神经元（DGN）模型是对标准LIF神经元的扩展，其核心架构在于修改了膜电位的更新动力学，引入了动态的突触后电导。 ...

Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #端到端 #音频分类 #模型评估 #开源工具 ✅ 7.5/10 | 前25% | #音频分类 | #端到端 | #模型评估 #开源工具学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Saanjali Maharaj（University of Toronto）通讯作者：未明确标注，根据署名顺序推断为Prasanth B. Nair（University of Toronto）作者列表：Saanjali Maharaj（University of Toronto）、Prasanth B. Nair（University of Toronto） 💡 毒舌点评 LRNNs通过将乘积结构激活函数“可学习化”，确实为表示高阶交互提供了一个理论上优雅、实验上高效的框架，特别是在信号表示任务上超越了SIREN等知名方法。然而，其每层的计算开销（涉及大量小MLP）和内存占用（中间乘积项）不容小觑，论文对此的优化策略（如核融合）仅停留在概念层面，并未给出实际性能数据，这在实际部署时可能成为瓶颈。 🔗 开源详情代码：论文提供了代码仓库链接：https://github.com/dacelab/lrnn。模型权重：论文中未提及是否公开预训练模型权重。数据集：论文中使用的图像（Cameraman, Retina, ImageNet, DIV2K, Kodak, Parrot）、音频、PDE数据集和CT数据集，未说明是否公开或如何获取。 Demo：论文中未提及在线演示。复现材料：论文在附录B和各实验章节提供了详细的架构规格、超参数和训练流程。复现材料主要依赖这些文本描述和提供的代码仓库。论文中引用的开源项目：PyTorch深度学习框架。 📌 核心摘要要解决什么问题：现代神经网络受限于固定的激活函数，难以自适应地学习任务相关的表示，尤其在捕捉高阶特征交互和控制频谱偏差（如对高频信号的表示）方面存在不足。方法核心是什么：提出深层低秩分离神经网络（LRNNs），其核心是为每个神经元设计“可学习的乘积结构激活函数”。具体地，输入先经过线性投影，然后通过多个可学习的、参数化的小型单变量函数变换，最后将这些变换结果相乘，形成一个高度灵活的非线性激活。与已有方法相比新在哪里：与固定激活函数（ReLU, SIREN）相比，LRNN的激活函数本身是可学习的，并且其乘积结构天然擅长建模特征间的乘性/高阶交互。与同样使用可学习激活函数的KANs相比，LRNN通过结构化的乘积形式，在理论上能以更少的参数缓解维数灾难，并在实践中训练更稳定。主要实验结果如何：在多个基准测试上达到或超越SOTA。图像表示：在1000张ImageNet图像上，LRNN-SPDER在40dB PSNR目标上达到100%成功率，远超SIREN（1.8%）和SPDER（26.4%）。音频表示：MSE比基线低3-11倍。PDE求解：误差比SIREN低两个数量级，且参数减少8倍。稀疏CT重建：PSNR（29.13 dB）和SSIM（0.7455）均为最优。实际意义是什么：为构建更高效、表达能力更强的神经网络提供了一种新的通用构建块。在需要高精度信号表示（如医学成像、科学计算）和处理高维数据交互的任务中具有显著优势。主要局限性是什么：计算和内存开销相对较高，特别是反向传播时需要存储大量中间乘积项；虽然提供了优化思路（如核融合、混合精度），但未给出具体实现和验证；架构的有效性高度依赖于单变量组件函数的设计（如使用周期激活函数）。 🏗️ 模型架构 LRNN是对MLP的推广，其核心是引入了“乘积结构激活函数”的神经元。 ...

Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition

📄 Learnable Fractional Superlets with a Spectro-Temporal Emotion Encoder for Speech Emotion Recognition #语音情感识别 #时频分析 #端到端 #音频分类 ✅ 7.5/10 | 前25% | #语音情感识别 | #时频分析 | #端到端 #音频分类学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Alaa Nfissi (Concordia University, Concordia Institute for Information Systems Engineering; Université TÉLUQ, Data Science Laboratory (DOT-Lab)) 通讯作者：Brian L. Mishara (University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices)（根据作者列表顺序及机构性质推断）作者列表：Alaa Nfissi（Concordia University， Université TÉLUQ）、Wassim Bouachir（Université TÉLUQ, Data Science Laboratory (DOT-Lab)）、Nizar Bouguila（Concordia University, Concordia Institute for Information Systems Engineering）、Brian L. Mishara（University of Québec at Montréal, Psychology Department; Center for Research and Intervention on Suicide, Ethical Issues and End-of-Life Practices） 💡 毒舌点评这篇论文将经典的信号处理理论（Superlet）与现代可微学习框架结合得堪称教科书级别，数学推导和实验设计都非常严谨扎实，特别是那张展示学习到的分数阶分布与频率关系的可视化图（图5）非常直观地展示了模型的“可解释性”。但其短板在于，以“紧凑”为名的STEE编码器在搭配LFST前端后，实际计算开销（FLOPs、延迟、显存）远高于STFT、LEAF等基线（见附录表5），这使得“高效”二字在实时或资源受限场景下需要打上问号，论文在“效率-性能”权衡的讨论上稍显不足。 ...

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #参数高效微调 🔥 8.5/10 | 前25% | #音频分类 | #持续学习 | #预训练 #参数高效微调学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Chang Li*（清华大学心理与认知科学系）通讯作者：Liyuan Wang†（清华大学心理与认知科学系）作者列表：Chang Li（清华大学心理与认知科学系）、Kanglei Zhou（清华大学心理与认知科学系）、Liyuan Wang†（清华大学心理与认知科学系） 💡 毒舌点评亮点在于其开创性地为预训练音频模型的持续学习建立了首个系统性基准，并深刻剖析了音频域区别于视觉域的独特挑战（如严重的表示偏移），问题定位准、分析透彻。短板则是所提出的PACE方法涉及多个阶段和组件（如FSA、MSA、边界正则化），整体框架略显复杂，其在更极端的跨域（如从音乐到语音）或超大规模任务序列下的泛化能力和计算开销有待进一步验证。 🔗 开源详情代码：论文在“Reproducibility statement”中承诺“upon acceptance”发布代码库，但未提供具体链接。论文中未提及当前可用的代码链接。模型权重：未提及公开的预训练或适配后的模型权重。数据集：论文中使用的6个CL基准均为公开数据集（ESC-50， UrbanSound8K， SC2， TIMIT， VocalSet），但论文中未说明是否提供了额外的划分或处理脚本。 Demo：未提及在线演示。复现材料：提供了极其详细的训练细节（附录D）、超参数敏感性分析（附录E.6）、算法伪代码（附录B）和数据集统计（表5），为复现提供了充分信息。论文中引用的开源项目：引用了多个开源工具和模型，包括预训练音频模型EAT（Chen et al., 2024）、SSLAM（Alex et al., 2025），以及持续学习方法RanPAC（McDonnell et al., 2023）、ACL（Zhuang et al., 2022）、LoRASub（Liu & Chang, 2025）等。总结：论文中提及了明确的开源计划，并提供了详实的复现指南，但具体的代码和权重发布需等待论文接收。 📌 核心摘要问题：预训练音频模型（PTMs）在现实世界中数据分布持续变化的场景下，直接应用现有的视觉域持续学习（CL）方法（如PEFT）性能会严重下降。根本原因在于音频骨干网络更强调低层频谱细节而非结构化语义，导致严重的“上游-下游表示不对齐”，引发跨会话的剧烈表示偏移和灾难性遗忘。方法核心：提出PACE框架，分三阶段解决上述问题。阶段1：改进的首次适应（FSA），通过限制头部学习率、后期层LoRA适配和替换解析分类器，稳定地适配第一个任务，避免表示饱和。阶段2：自适应多会话子空间正交PEFT，允许骨干网络在后续会话中进行受控适应，同时通过梯度投影到先前表示的零空间来约束表示漂移。阶段3：骨干网络固定，进入稳定期。新在何处：首次系统构建了音频CL基准；首次深入分析了音频CL特有的挑战（表示饱和与偏移）；提出了首个专门针对音频PTMs特性的、兼顾可塑性与稳定性的统一CL框架PACE，融合了音频特定的PEFT策略、子空间投影和基于时频掩码的边界感知正则化。实验结果：在3个粗粒度（ESC-50， US8K， SC2）和3个细粒度（TIMIT-2， TIMIT-3， VocalSet）共6个音频CL基准上，PACE大幅超越所有基线方法。在细粒度任务上优势尤为明显，如在TIMIT-2上比次优基线RanPAC高5.32%，在VocalSet上高6.26%。PACE将性能与联合训练上界的差距显著缩小（例如，在ESC-50上差距仅0.75%，在VocalSet上差距从13.8%降至7.57%）。关键消融实验验证了FSA、MSA、梯度投影和边界正则化的必要性。实际意义：为构建能够持续适应新环境、新说话人、新声音的健壮、可扩展的音频智能系统（如语音助手、智能环境监测）提供了理论基础和有效方法。主要局限性：框架的多阶段设计和多个超参数（如Nstop， ρlayer）增加了部署和调优的复杂性。方法对计算资源（特别是早期阶段的骨干网络适应）有一定要求。对于领域差距极大（如从环境声到音乐）的超复杂CL序列的有效性有待验证。 🏗️ 模型架构 PACE是一个分阶段的统一框架，旨在重新对齐预训练音频骨干网络的表示以适应持续学习目标。 ...