音频分类 | 语音/音乐/音频论文速递

Hierarchical Activity Recognition and Captioning from Long-Form Audio

📄 Hierarchical Activity Recognition and Captioning from Long-Form Audio #音频事件检测 #音频分类 #多任务学习 #预训练 #统一音频模型 ✅ 7.5/10 | 前25% | #音频事件检测 | #多任务学习 | #音频分类 #预训练学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Peng Zhang（萨里大学视觉、语音与信号处理中心 CVSSP）通讯作者：未说明作者列表：Peng Zhang（萨里大学CVSSP）、Qingyu Luo（萨里大学CVSSP）、Philip J.B. Jackson（萨里大学CVSSP）、Wenwu Wang（萨里大学CVSSP） 💡 毒舌点评这篇论文的亮点在于它像一个严谨的“包工头”，为“长音频层级理解”这个新工地（MultiAct数据集）和一套标准施工流程（统一层级模型）打了样，实验全面且开源承诺明确。短板则是所用的砖瓦（模型组件）多为现有库存，施工方法（框架创新）更偏向于系统集成而非原创性突破，面对复杂长程依赖时，模型表现仍有明显瓶颈（如序列预测的误差随上下文增长）。 🔗 开源详情代码：提供代码仓库链接 github.com/PennyZhang9/MultiAct。模型权重：论文中未明确说明是否公开预训练模型权重，但提供了开源代码仓库，权重可能包含在其中或后续发布。数据集：MultiAct数据集公开，遵循CC BY许可（音频部分受EPIC-KITCHENS非商业许可约束）。 Demo：论文中未提及。复现材料：提供了主要模型架构图和实验设置描述，但关键训练超参数在正文中未详细列出，复现细节需参考代码仓库。论文中引用的开源项目： Auditory SlowFast (ASF)：音频特征提取骨干网络。 ActionFormer：用于音频活动检测的基线模型。 BART：用于字幕生成的预训练语言模型解码器。 Conformer：用于序列预测任务的编码器。 GPT-4o：用于辅助数据集标注的LLM。 📌 核心摘要要解决的问题：现有音频理解研究大多局限于短片段和孤立事件，缺乏对真实世界长音频中具有层次化（活动-子活动-事件）和序列化结构的复杂人类活动的理解。方法核心：提出MultiAct新数据集，包含带有多层级时间标注和双粒度文本描述的长音频；并设计一个统一的层级模型框架，联合处理层级分类、检测、序列预测和多分辨率字幕生成任务。与已有方法相比新在哪里：主要新在任务定义和数据资源上。MultiAct是首个提供长时程、三层级语义标注及配对描述的音频数据集。模型框架旨在统一解决上述多个层级化任务，而非针对单一任务。主要实验结果：层级分类任务：在评估集上，活动分类Top-1准确率达83.3%，子活动分类最佳Top-1为51.3%。检测任务：子活动检测的平均AP在IoU@0.5时为22.0%，事件检测为12.5%，揭示了边界定位的挑战。序列预测任务：使用CTC的Conformer模型，在训练上下文长度为2时AER最低（验证集66.7%），随上下文变长误差上升。字幕生成任务：层级模型在大多数指标上优于基于规则的基线，例如在评估集的高阶摘要任务中，ROUGE-L从20.7提升至28.3，CIDEr从2.2提升至11.1。实际意义：为长音频的层级结构理解研究建立了基准，推动了从孤立事件识别到复杂活动理解的研究范式转变，其建模思路可应用于监控、智能家居等领域。主要局限性：模型在处理长程依赖（如长序列预测）和精确边界定位（检测任务中高IoU性能下降）方面仍存在挑战；模型架构缺乏核心原创性；数据集规模（~9小时）和场景多样性（厨房）有待扩充。 🏗️ 模型架构论文提出的统一层级框架（见图2）包含三个主要组件，协同工作以处理长音频的层级理解和生成任务。 ...

ICASSP 2026 - 音频分类论文列表

ICASSP 2026 - 音频分类共 39 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Len 9.5分前10% 🥈 ACAVCaps: Enabling Large-Scale Training for Fine-Grained and 8.5分前25% 🥉 Automated Dysphagia Screening Using Noninvasive Neck Acousti 8.0分前25% 4. AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Sp 8.0分前25% 5. Non-Line-of-Sight Vehicle Detection via Audio-Visual Fusion 8.0分前25% 6. A Metric Learning Approach to Heart Murmur Detection from Ph 7.7分前25% 7. A Robust KNN Approach for Multi-Class Laryngeal Disease Dete 7.5分前25% 8. UMV: A Mixture-Of-Experts Vision Transformer with Multi-Spec 7.5分前25% 9. AudioFuse: Unified Spectral-Temporal Learning Via A Hybrid V 7.5分前25% 10. Audio Classification Models are Vulnerable to Filter Perturb 7.5分前25% 11. PC-MCL: Patient-Consistent Multi-Cycle Learning with Multi-L 7.5分前10% 12. FOCA: Multimodal Malware Classification via Hyperbolic Cross 7.5分前25% 13. WaveSpikeNet: A Wavelet-Spiking Fusion Architecture for Audi 7.5分前25% 14. Adaptive Per-Channel Energy Normalization Front-End for Robu 7.5分前25% 15. Adaptive Embedding Fusion with Contrastive Learning for Robu 7.5分前25% 16. Incremental Learning for Audio Classification with Hebbian D 7.5分前25% 17. Attentive Masked Self-Distillation for Respiratory Sound Cla 7.5分前25% 18. One Model–Three Tasks: Discovering a Shared Winning Ticket f 7.5分前25% 19. Timbre-Aware Audio Difference Captioning for Anomalous Machi 7.5分前25% 20. Leveraging prediction entropy for Automatic prompt weighting 7.5分前25% 21. Directly Trained Spiking Neural Networks with Adaptive Phase 7.0分前25% 22. Noise-Robust Contrastive Learning with an MFCC-Conformer for 7.0分前50% 23. Spiking Temporal-Enhanced Network for Zero-Shot Audio-Visual 7.0分前50% 24. A Dynamic Gated Cross-Attention Framework for Audio-Text App 7.0分前25% 25. Transfer Learning for Paediatric Sleep Apnoea Detection usin 7.0分前25% 26. Empowering Multimodal Respiratory Sound Classification with 7.0分前25% 27. PADAM: Perceptual Audio Defect Assessment Model 7.0分前50% 28. Enhanced Generative Machine Listener 7.0分前25% 29. Acoustic Feedback Cancellation in Hearing Aids Exploiting an 7.0分前25% 30. AFT: An Exemplar-Free Class Incremental Learning Method for 7.0分前25% 31. Transferable Audio Lottery Tickets: Gradient Accumulation fo 7.0分前25% 32. A LLM-Driven Acoustic Semantic Enriched Framework for Underw 7.0分前25% 33. S-SONDO: Self-Supervised Knowledge Distillation for General 7.0分前25% 34. Acoustic Non-Stationarity Objective Assessment with Hard Lab 7.0分前25% 35. Reading Between the Waves: Robust Topic Segmentation Using I 7.0分前25% 36. Learnable Mel-Frontend for Robust Underwater Acoustic Target 6.5分前50% 37. Estimating Respiratory Effort from Nocturnal Breathing Sound 6.5分前25% 38. Thinking While Listening: Simple Test Time Scaling for Audio 6.5分前50% 39. Snore Sound Classification Based on Physiological Features a 6.5分前25% 📋 论文详情 🥇 ECHO: Frequency-Aware Hierarchical Encoding for Variable-Length Signals 🔥 9.5/10 | 前10% | #音频分类 | #自监督学习 | #音频大模型 #工业应用 ...

Incremental Learning for Audio Classification with Hebbian Deep Neural Networks

📄 Incremental Learning for Audio Classification with Hebbian Deep Neural Networks #音频分类 #增量学习 #灾难性遗忘 #Hebbian学习 #稳定性-可塑性 ✅ 7.5/10 | 前25% | #音频分类 | #增量学习 | #灾难性遗忘 #Hebbian学习学术质量 7.0/7 | 选题价值 7.5/2 | 复现加成 8.0 | 置信度高 👥 作者与机构第一作者：Riccardo Casciotti (Tampere University, Signal Processing Research Centre) 通讯作者：未说明作者列表：Riccardo Casciotti (Tampere University, Signal Processing Research Centre), Francesco De Santis (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Alberto Antonietti (Politecnico di Milano, Department of Electronics, Information and Bioengineering), Annamaria Mesaros (Tampere University, Signal Processing Research Centre) 💡 毒舌点评亮点：巧妙借用神经科学中的“多巴胺调节”概念，设计了一个简单而有效的核可塑性调制规则，在Hebbian学习框架下稳定了记忆，这是一个优雅的生物启发式工程实现。短板：所有验证仅基于一个规模和难度都有限的环境声数据集ESC-50，这使得“显著提升”和“生物合理性”的说法缺乏更有力的普适性证据，让人怀疑该方法在更大、更复杂的音频任务（如语音、音乐）或开放集增量学习中的真实效用。 ...

Influence-Aware Curation and Active Selection for Industrial and Surveillance Sound Events

📄 Influence-Aware Curation and Active Selection for Industrial and Surveillance Sound Events #音频事件检测 #迁移学习 #主动学习 #音频分类 ✅ 7.0/10 | 前50% | #音频事件检测 | #迁移学习 | #主动学习 #音频分类学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Myeonghoon Ryu (Deeply Inc.) 通讯作者：未说明作者列表：Myeonghoon Ryu (Deeply Inc.)、Seongkyu Mun (Korea University)、Daewoong Kim (Deeply Inc.)、Han Park (Deeply Inc.)、Suji Lee (Deeply Inc.) 💡 毒舌点评亮点：这篇论文精准地切中了工业声音事件检测的痛点——数据脏、标注贵、模型固定，并给出了一个“手术刀式”的、即插即用的轻量化解决方案，方法逻辑清晰，工程实用性拉满。短板：其核心贡献更像是一套精心包装的“应用技巧”组合（将TracIn用在冻结的浅层头上），而非底层算法的突破；并且，最关键的验证指标停留在了“窗口分类”代理任务上，没有给出完整的事件检测（如PSDS）性能，这使得其最终宣称的“实用性”打了折扣。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及公开的模型权重。数据集：使用了公开的URBAN-SED（可自行用Scaper生成窗口），但内部工业工厂声音数据库未公开。 Demo：未提供在线演示。复现材料：论文在“Implementation details and hyperparameters”等章节中提供了极其详细的超参数设置、模型结构、训练配置和实验协议，可作为复现指南。论文中引用的开源项目：模型/特征：PaSST [21] (AudioSet预训练)，PANNs [1] 数据合成：Scaper [30] 近似最近邻搜索：FAISS [25], HNSW [26] 理论支撑：Johnson-Lindenstrauss随机投影 [27] 📌 核心摘要要解决什么问题：在工业和监控场景的声音事件检测（SED）中，数据质量差（标签噪声、边界模糊）和标注预算有限是主要瓶颈。如何在模型（预训练编码器）冻结的条件下，低成本地筛选有害训练数据，并高效选择最值得标注的新数据，是论文要解决的两个核心问题。方法核心是什么：方法核心是“冻结编码器 + 浅层头 + 头梯度TracIn影响分数”。具体包括：(a) 数据筛选（Curation）：计算训练样本对开发集影响的“有害分数”（总负影响），并剪枝最坏的2-4%样本。(b) 主动选择（Selection）：对未标注数据，计算其与训练数据的“矛盾分数”（负影响），并与熵值融合，优先选择分数高的样本进行标注。与已有方法相比新在哪里：新在三个层面：(1) 应用场景新：将影响函数特化到“冻结音频编码器+浅层头”这一工业常见部署范式，大幅降低了计算成本和信号噪声。(2) 聚合策略新：提出了类条件聚合（Class-conditioned aggregation）来稳定多分类下的影响信号。(3) 选择信号新：提出以“负影响”作为模型“盲点”的直接度量，并与不确定性（熵）做后期融合，构成新的主动学习选择标准。主要实验结果如何：在URBAN-SED和内部工业数据集上：数据筛选：剪枝4%的有害样本，可提升分类准确率（如URBAN-SED从0.795到0.812），并显著改善校准（ECE从0.177降至0.032）。主动选择：在标注预算为20%时，“负影响+熵”的组合选择策略（Combo）的Selection-Recall达到59.1%（URBAN-SED），远超纯熵方法的35.1%。关键实验结果表格见“详细分析”部分。实际意义是什么：为已部署冻结音频模型的工业系统，提供了一套开箱即用的数据运维工具包。它不改变模型本身，仅通过数据层面的“清洗”和“优先标注”，就能低成本提升性能、增强预测可靠性（校准性），并为标注人员提供决策支持证据（指出哪些训练数据与当前预测矛盾）。主要局限性是什么：主要局限在于评估层面：(1) 核心实验基于事件中心的窗口分类任务，而非完整的、端到端的事件检测任务（未报告PSDS等指标），这可能高估其在真实系统中的收益。(2) 主动选择评估未采用迭代重训练的闭环评估，而是固定模型下的排序质量评估。(3) 工业数据未公开，限制了独立验证。 🏗️ 模型架构论文并未提出一个新的端到端模型，而是提出了一套基于现有模型（冻结编码器+浅层头）的数据管理方法论。其技术流程可视为一个“数据处理流水线”：图1：整体方法流程图 (注：由于原论文PDF中的图片无法直接引用，此处仅为示意。论文中的架构图 Fig. 1 已在原文中详细描述。) ...

Input-Adaptive Differentiable Filterbanks via Hypernetworks for Robust Speech Processing

📄 Input-Adaptive Differentiable Filterbanks via Hypernetworks for Robust Speech Processing #语音识别 #音频分类 #语音情感识别 #自监督学习 #时频分析 #鲁棒性 ✅ 7.5/10 | 前25% | #语音识别 | #自监督学习 | #音频分类 #语音情感识别学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Zikun Quan（University College London）通讯作者：Gaoyuan Du（Amazon）、Weilin Zhou（Nanjing Tech University）作者列表：Zikun Quan（University College London）、Weilin Zhou（Nanjing Tech University）、Gaoyuan Du（Amazon） 💡 毒舌点评亮点：这篇论文的核心想法非常直观且有吸引力——让前端滤波器像人耳一样，根据听到的内容（比如是安静的语音还是嘈杂的街道）实时“拧动旋钮”调整自身参数，这比让上层网络费力适应固定前端要优雅得多。短板：虽然作者声称“实时”，但论文提供的延迟数据（48.5ms总延迟）和复杂的控制器架构暗示，在极低延迟的流式应用（如助听器）中，其计算开销和预测滞后可能成为瓶颈，且实验部分缺乏与更多前沿自适应方法（如神经音频编解码器或扩散模型中的适应性模块）的直接对比。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开数据集（CHiME-4, LibriSpeech, IEMOCAP, FSD50K），但论文本身未提供新数据集。 Demo：未提及。复现材料：提供了核心算法描述和损失函数公式，但缺少关键超参数（如滤波器组细节、控制器窗口大小）、训练设置（学习率、优化器、batch size）和硬件信息，不足以完全复现。论文中引用的开源项目：未明确说明。 📌 核心摘要问题：传统和现有的可学习音频前端（如MFCC, SincNet, LEAF）都使用静态滤波器组，无法适应真实世界中动态变化的声学环境（如突发噪声），导致下游任务性能下降。方法核心：提出HyperFB，一个受超网络控制的自适应可微分滤波器组框架。它包含两个核心模块：一个轻量级的因果超网络控制器（H）实时分析输入音频上下文，生成一组控制点；这些控制点通过可微分插值，生成平滑的滤波器参数轨迹（中心频率、带宽），用于配置时变滤波器组操作符（F）对原始波形进行滤波。创新点：首次将超网络用作“控制器”，直接在物理信号处理层（而非特征层或网络层）实时生成并调整滤波器的物理参数，实现了实例级（instance-wise）的自适应。并提出了基于“噪声到干净语音重建”的任务无关自监督预训练策略，以及高效的适配器微调范式。主要实验结果：在CHiME-4（鲁棒语音识别）任务上，HyperFB的平均词错误率（WER）为20.3%，显著优于最强基线HuBERT（22.2%）和静态版本的Oracle（24.1%）。在数据效率上，在LibriSpeech-100h上优势明显。在跨任务泛化上，在情感识别（IEMOCAP， WAA 71.8%）和音频分类（FSD50K， mAP 0.482）上也表现优异。实际意义：为构建真正鲁棒的音频处理系统提供了一条新路径，即让前端本身智能化、可调节，能有效应对非平稳噪声，适用于语音识别、情感分析、声学场景分类等多种任务，尤其在低资源场景下优势显著。局限性：主要局限性在于引入的额外计算开销（相比静态前端），以及因果设计带来的固定延迟（48.5ms），可能限制其在某些超低延迟实时应用中的部署。此外，其自适应能力高度依赖控制器对声学场景的准确分析，对于极端未见过的噪声类型可能失效。 💡 核心创新点物理层的实例级自适应滤波器：这是最核心的创新。以往的自适应方法（如注意力、动态卷积）作用于网络中间层特征，而HyperFB直接改变前端滤波器组的物理参数。这相当于让前端能够“物理上”重新配置自身的频谱分析方式，以匹配当前输入信号的特性。证据：图2和图3的可视化清晰展示了模型如何针对不同噪声（高频嘶声、低频隆隆声）重塑滤波器形状以抑制噪声、突出语音共振峰。因果超网络控制器架构：设计了一个轻量、多尺度的因果网络来“理解”声学场景并生成滤波器参数轨迹。其注意力机制能根据输入动态调整对不同时间尺度的关注（图5），信息瓶颈则促进了鲁棒表示的形成。这是实现上述物理层自适应的“大脑”。两阶段任务无关预训练与高效微调范式：提出了“噪声到干净语音重建”的自监督预训练任务（公式1），迫使控制器学习通用的声学场景分析能力，而非过拟合于特定下游任务。微调时，冻结大部分参数，仅在控制器的信息瓶颈处插入极轻量的适配器（更新<1%参数），实现了高效、鲁棒的跨任务迁移。 🔬 细节详述训练数据：预训练：使用LibriSpeech的无标签部分。方法：将干净音频 xc 与随机噪声 n 混合生成 xnoisy。微调/评估：鲁棒语音识别：CHiME-4（真实嘈杂环境，包含Bus, Cafe, Ped., Street四种场景）。数据效率：LibriSpeech-100h/360h。情感识别：IEMOCAP。音频分类：FSD50K。损失函数：预训练损失 (Lpretrain)：E[ || D(F(xnoisy, H(xnoisy))) - Sc ||^2_2 ]。其中 D 是一个轻量辅助CNN解码器，目标是从自适应特征中重建干净语音的幅度谱 Sc。下游微调损失 (Ltotal)：Ltask + λLreg。Ltask 是任务损失（如交叉熵）；Lreg 是结构正则化项，鼓励生成的滤波器轨迹在频域保持平滑分布，防止重叠或聚集。训练策略：两阶段。阶段一：自监督预训练。优化 Lpretrain，训练控制器H、操作符F和解码器D。阶段二：下游微调。丢弃解码器D，冻结H和F的大部分参数。仅训练新插入的任务适配器（一个单层线性层）和下游任务模型。优化 Ltotal。关键超参数：控制器H：多尺度窗口长度（如80ms, 400ms, 1600ms）。操作符F：滤波器数量 K，控制点数量 Nc。微调适配器：嵌入维度（瓶颈维度）。以上具体数值论文未说明。训练硬件：论文未说明。推理细节：采用分段时不变处理。每个音频帧（如25ms）使用该帧中心时刻查询到的瞬时滤波器参数进行独立滤波。这近似实现了参数连续变化的时变系统。正则化/稳定训练技巧：使用了信息瓶颈原理强制学习压缩表示；在下游损失中加入了轨迹平滑正则项 Lreg。 📊 实验结果表1. CHiME-4 Real Eval集上的词错误率(WER %↓) ...

Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time

📄 Keeping Models Listening: Segment- and time-aware attention rescaling at decoding time #音频问答 #音频分类 #音频大模型 #推理时调整 ✅ 7.5/10 | 前25% | #音频问答 | #推理时调整 | #音频分类 #音频大模型学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Hangyu Du（新加坡国立大学，设计与工程学院）通讯作者：Jingxing Zhong（福州大学，明智国际工程学院）作者列表：Hangyu Du（新加坡国立大学，设计与工程学院），Jingxing Zhong（福州大学，明智国际工程学院）（论文注明两位作者贡献相等）。 💡 毒舌点评亮点：精准地诊断出ALLMs解码时“听着听着就忘了音频”的顽疾，并用一个免训练、近乎零开销的“解码时注意力微调”插件（AttnAdapter）显著缓解了这个问题，效果立竿见影，实用性很强。短板：方法更像是对症下药的“经验性工程”，虽然能“work”，但对于注意力漂移的根本原因（为何系统令牌会成为sink？为何音频注意力会衰减？）缺乏更深层次的理论或神经机制层面的剖析，略显“知其然而不知其所以然”。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验使用公开的MMAU-mini和AIR-Bench数据集，但论文中未提及数据集获取方式或自有数据。 Demo：未提及。复现材料：提供了Algorithm 1伪代码和完整的超参数设置，足以复现核心方法。但缺乏具体代码实现和运行脚本。引用的开源项目：论文未提及直接依赖的开源项目代码。 📌 核心摘要要解决什么问题：本文发现并研究了音频大语言模型（ALLMs）在自回归解码过程中普遍存在的“注意力路由退化”现象。随着解码进行，模型对音频输入（Audio Tokens）的注意力会系统性衰减，转而过度依赖语言先验和早期生成的“汇聚”令牌，导致回答偏离输入音频，产生幻觉。方法核心是什么：提出AttnAdapter，一个训练无关、可插拔的模块。它在解码的每一步，对注意力计算中的原始对数几率（logits）进行分段、时间感知的乘性重缩放。具体包含三个组件：(1) 系统令牌汇聚抑制，(2) 音频关键点时序增强，(3) 局部输出窗口稳定。与已有方法相比新在哪里：与现有方法（如EAH、MemVR）相比，AttnAdapter的特点是：完全在解码时操作，无需训练或修改模型架构；设计上明确针对音频模态的序列性、密集性特点，提出时间感知的增强策略；并且组合了多种干预（抑制、增强、稳定）以协同工作。主要实验结果如何：在MMAU-mini和AIR-Bench两个基准上，AttnAdapter为LLaMa-Omni、Qwen-Omni和Audio Flamingo 3三个模型带来了稳定的性能提升。在LLaMa-Omni上，MMAU-mini平均准确率从0.71提升至0.85（+14%），AIR-Bench平均准确率从0.69提升至0.82（+13%）。在Qwen-Omni上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.71提升至0.84（+13%）。在Audio Flamingo 3上，MMAU-mini平均准确率从0.73提升至0.87（+14%），AIR-Bench平均准确率从0.70提升至0.83（+13%）。所有方法中，AttnAdapter均取得了最高的分数，尤其在“混合音频”子任务上改进明显。实际意义是什么：提供了一个即插即用、计算开销极低（延迟增加<2%）的解决方案，可以增强现有ALLMs的音频接地能力，使其在长序列对话和推理中能持续“听”音频，减少基于文本先验的幻觉，提升在音频问答、分析等实际应用中的可靠性和准确性。主要局限性是什么：(1) 方法的有效性依赖于经验调优的超参数（σ, η, g, w, β），对于新模型或任务可能需要重新搜索。(2) 论文主要关注准确率提升，对模型生成文本的流畅性、连贯性等质量指标的详细分析不足。(3) 机制解释偏经验性，缺乏对ALLMs内部信息流动的深层理论分析。 🏗️ 模型架构本文提出的AttnAdapter并非一个完整的端到端模型，而是一个推理时的插件模块，旨在修改现有基于解码器的音频大语言模型（ALLMs）在解码阶段的注意力计算过程。 ...

Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference

📄 Learnable Mel-Frontend for Robust Underwater Acoustic Target Detection under Non-Target Interference #水下声学目标检测 #可学习前端 #音频分类 #时频分析 #鲁棒性 ✅ 6.5/10 | 前50% | #音频分类 | #时频分析 | #水下声学目标检测 #可学习前端学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：未说明（论文中未明确标注“第一作者”，仅按署名顺序首位列出）。通讯作者：Xinwei Luo（东南大学水声信号处理教育部重点实验室）。作者列表：Lu Chen（东南大学水声信号处理教育部重点实验室、新加坡国立大学计算学院）、Xinwei Luo（东南大学水声信号处理教育部重点实验室）、Kenji Kawaguchi（新加坡国立大学计算学院）、Hanlu Zhou（东南大学水声信号处理教育部重点实验室）。 💡 毒舌点评这篇论文的亮点在于它非常务实地找到了一个“中间地带”——在保留STFT这个稳健先验的基础上，只让Mel滤波器组和动态压缩（PCEN）变得可学习，从而以极低的计算成本换取了在非目标干扰下的性能提升，这种工程上的权衡很聪明。然而，其短板也同样明显：论文只和几个非常基础的固定特征（如STFT、log-Mel）做对比，却没有与该领域（水声检测）近年来提出的更强大的深度学习模型直接竞争，这让人对其“优越性”的幅度和实际应用价值打上一个问号。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及是否公开模型权重。数据集：使用的是公开数据集ShipsEar和DeepShip，但论文未提供数据处理脚本或具体链接。 Demo：未提及。复现材料：提供了详细的模型架构（TResNet-M）、超参数（学习率、权重衰减、批大小等）、训练策略（OneCycleLR、warm-up比例）以及特征提取的具体参数（STFT窗长、Mel bins等），这些信息对复现至关重要。论文中引用的开源项目：主要引用了TResNet模��、PCEN算法以及相关数据集论文，未明确提及使用了哪些开源代码库。 📌 核心摘要问题：水下声学目标检测面临非目标船只信号干扰的挑战，传统的固定音频特征（如STFT、log-Mel谱）缺乏自适应能力，导致检测性能下降。方法：提出learnMel前端，它在STFT基础上，将Mel滤波器组参数化为可训练的权重，并用可学习的通道能量归一化（PCEN）替代固定对数压缩。learnMel与后端的TResNet检测模型联合优化。新颖性：不同于完全从头学习的前端（如LEAF），learnMel保留了STFT框架的稳定性，仅优化关键的频域投影和动态压缩环节，在灵活性和计算成本之间取得了平衡。主要结果：在ShipsEar数据集上，PCEN-learnMel方法的ROC-AUC（94.504±0.207%）和精确度（85.65±1.65%）均优于所有固定特征基线。其计算开销（0.25 MB特征内存）与log-Mel相近，远低于LEAF（156.25 MB）。在DeepShip数据集上，所有方法表现均近乎完美（AUC > 99.99%），但learnMel仍取得了最低的FAR（0.07%）。实际意义：为水下声学信号处理提供了一种轻量且鲁棒的前端解决方案，能有效抑制非目标干扰，提升检测可靠性。局限性：研究仅聚焦于“检测”这一二分类任务，未探讨目标识别等更复杂任务；对比基线有限，未与当前水声检测领域的SOTA深度学习模型对比；在ShipsEar上，PCEN-learnMel的检测概率（PD）略低于PCEN-Mel，显示可学习性在某些情况下可能引入轻微不稳定。 🏗️ 模型架构论文提出的整体检测框架（如图1所示）包含三个核心阶段：数据构建、特征提取和目标检测。 ...

Learning Domain-Robust Bioacoustic Representations for Mosquito Species Classification with Contrastive Learning and Distribution Alignment

📄 Learning Domain-Robust Bioacoustic Representations for Mosquito Species Classification with Contrastive Learning and Distribution Alignment #生物声学 #对比学习 #领域适应 #音频分类 ✅ 7.5/10 | 前25% | #生物声学 | #对比学习 | #领域适应 #音频分类学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Yuanbo Hou（University of Oxford, UK）通讯作者：Yuanbo Hou（Yuanbo.Hou@eng.ox.ac.uk， University of Oxford, UK）作者列表：Yuanbo Hou（University of Oxford, UK）、Zhaoyi Liu（KU Leuven, Belgium）、Xin Shen（University of Oxford, UK）、Stephen Roberts（University of Oxford, UK） 💡 毒舌点评亮点在于针对生物声学数据的特性（物种间声学特征相似、域间差异大）设计了包含对比学习和条件分布对齐的多损失函数框架，消融实验设计合理。短板是方法的理论分析部分较弱，更多是现象驱动；实验中的“非严格留一域外评估”设计是一个明显妥协，削弱了“跨域泛化”这一核心主张的证明力度。 ...

LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging

📄 LenslessMic: Audio Encryption and Authentication via Lensless Computational Imaging #音频安全 #无透镜成像 #神经音频编码 #音频分类 ✅ 7.5/10 | 前25% | #音频安全 | #无透镜成像 | #神经音频编码 #音频分类学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Petr Grinberg (Audiovisual Communications Laboratory, EPFL) 通讯作者：未说明（作者列表未标注，邮箱为共通格式 first.last@epfl.ch）作者列表：Petr Grinberg (EPFL), Eric Bezzam (EPFL), Paolo Prandoni (EPFL), Martin Vetterli (EPFL)。所有作者均隶属于 EPFL 的 Audiovisual Communications Laboratory。 💡 毒舌点评亮点：本文巧妙地将“无透镜相机的视觉隐私”这一特性，逆向思维用于“音频的隐私保护”，构建了一个从声到光再到密文的全新物理安全链路，构思颇具巧思。短板：系统实用性受制于笨重的硬件原型（需要显示器作为光源）和缓慢的采集速度，其宣称的“物理层安全”优势，在“已知明文攻击”下可能因音频帧尺寸过小而受到挑战，迫使采用更复杂（且效果更差）的帧分组策略来弥补。 🔗 开源详情代码：论文提供了项目主页链接 (https://blinorot.github.io/projects/LenslessMic)，并声明开源了代码。但论文文本中未直接给出代码仓库（如GitHub）的具体URL。模型权重：论文中未明确提及是否公开预训练好的Learned等模型的具体权重文件。数据集：论文明确开源了收集的多个数据集（见表1），包括Librispeech子集和SongDescriber音乐数据，以及对应的无透镜测量值。可通过项目主页获取。 Demo：论文提供了一个在线演示页面 (https://blinorot.github.io/projects/LenslessMic)，可以试听重构的音频样本。复现材料：论文提供了详细的训练数据收集方法、模型架构、损失函数、训练步数（50k）、学习率（1e-4）、batch大小（4个连续帧）等复现所需的关键信息。未提及检查点文件和详细的环境配置。论文中引用的开源项目：神经音频编码器：DAC (Descript Audio Codec) [14]。音频评估：NVIDIA NeMo 工具包 [27] 中的Parakeet-TDT-0.6B-v2（用于转录）和TitaNet-L（用于说话人嵌入）。无透镜成像原型：DigiCam [15]。重建算法基线：ADMM [24]。 📌 核心摘要要解决什么问题：数字音频的安全传输目前主要依赖软件加密算法（如AES），论文旨在探索一种新的、基于物理硬件的补充性安全方案，为音频数据提供额外的保护层，以应对潜在的深度伪造、窃听等威胁。方法核心是什么：提出LenslessMic，一个混合硬件-软件系统。其核心流程是：将音频信号通过神经音频编码器（NAC，具体使用DAC）压缩为潜在表示，将该表示重塑为图像帧；利用无透镜相机（一个基于可编程掩模的低成本原型DigiCam）对这些图像帧进行拍摄，得到多重散射的测量值（密文）。解密时，必须使用正确的点扩散函数（PSF，由掩模图案决定）对测量值进行逆向重建，恢复出潜在表示图像，再输入音频解码器恢复音频。与已有方法相比新在哪里：(1) 跨模态安全范式：首次将无透镜成像的视觉隐私特性应用于音频加密，开辟了光学物理层安全在音频领域的新应用。(2) 融合架构创新：结合了NAC的鲁棒性（尤其是残差向量量化RVQ的容错能力）与无透镜成像的安全性，提出了完整的端到端加密-解密流程。(3) 主动安全机制：通过可编程掩模动态改变PSF，并结合帧分组（g）技术，主动增强系统对各类攻击的抵抗力。主要实验结果如何：论文在多个数据集上进行了验证。关键结果如表2所示：使用在域数据（train-clean）训练的Learned模型，解密语音的ViSQOL为4.50，STOI达0.96，接近无加密的Ground-truth。安全性方面，图2显示当正确PSF像素比例W=7%时，WER已达100%，搜索空间等效于AES-256。认证实验（图3）显示，正确PSF与随机PSF的恢复结果在WER和UTMOS指标上可完美区分，认证准确率达100%。帧分组消融表明，g=2足以防御已知明文攻击（NoPSF模型WER=100%），但会轻微降低重建质量。实际意义是什么：该研究为音频数据安全提供了一种新的防御维度——物理层安全。它证明了光学加密可以与先进的音频编码技术结合，在保证解密质量的同时，提供强大的加密强度和用户认证能力。其开源贡献有助于推动该交叉领域的研究。主要局限性是什么：(1) 硬件实用性：当前原型依赖电脑显示器作为光源，体积大，不适合实际部署；采集速度慢，存储开销大于原始音频。(2) 质量与安全的权衡：增强安全性（如增大g）会导致解密质量下降。(3) 泛化能力：模型在跨音频类型（语音到音乐）和跨编码器（DAC到X-Codec）时性能有下降，表明系统对特定编码格式有依赖性。(4) 潜在攻击面：论文承认小尺寸音频帧可能使已知明文攻击在理论上可行，尽管通过增大g进行了缓解。 🏗️ 模型架构 LenslessMic是一个端到端的音频加密与认证系统，其架构包含编码、加密（物理拍摄）、解密（重建）和解码四个主要阶段。 ...

Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification

📄 Leveraging prediction entropy for Automatic prompt weighting in Zero-Shot Audio-Language Classification #音频分类 #零样本 #多模态模型 #基准测试 #模型评估 ✅ 7.5/10 | 前25% | #音频分类 | #零样本 | #多模态模型 #基准测试学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 0.3 | 置信度高 👥 作者与机构第一作者：Karim El Khoury† (ICTEAM, UCLouvain, Belgium)， Maxime Zanella† (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium)， Tiffanie Godelaine† (ICTEAM, UCLouvain, Belgium) （论文注明†表示贡献均等）通讯作者：未说明作者列表：Karim El Khoury (ICTEAM, UCLouvain, Belgium)， Maxime Zanella (ICTEAM, UCLouvain, Belgium; ILIA, UMons, Belgium)， Tiffanie Godelaine (ICTEAM, UCLouvain, Belgium)， Christophe De Vleeschouwer (ICTEAM, UCLouvain, Belgium)， Benoît Macq (ICTEAM, UCLouvain, Belgium) 💡 毒舌点评本文提出的“熵最小化”加权策略，是一个将视觉领域思路巧妙迁移到音频-语言模型提示集成的优雅解决方案，其轻量级（可忽略的计算开销）和无需标注数据的特性使其具备即插即用的实用价值。然而，整篇论文的创新和验证都高度绑定在一个较为陈旧的模型（CLAP-2022）上，缺乏在新近、更强大的音频-语言模型（如Audio-MAE， Pengi）上的验证，这极大地限制了其贡献的通用性和时效性。 ...