BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations

📄 BEST-RQ-2: Contextualize-Then-Predict, a Two-Step Approach for Self-Supervised Audio Representations #自监督学习 #语音识别 #语音增强 #音频分类 6.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1/1.5 | 开源 0.4/1.5 | 复现 0.5/0.5 | 工程 0.4/1.5 ✅ 6.9/10 | 前50% | #语音识别 | #自监督学习 | #语音增强 #音频分类 | arxiv 👥 作者与机构 论文作者为Ludovic K. Tuncay, Etienne Labbé, Thomas Pellegrini。论文原文未提及作者所属的具体机构。 💡 毒舌点评 这篇工作是BEST-RQ的直接迭代,想法简单直接(两步走),效果有提升但谈不上惊艳。优点在于方法简洁,保持了BEST-RQ无需复杂目标建模的优点,并在推理效率上没有妥协。然而,论文的写作和实验报告存在明显短板:核心贡献(两步解耦)的机制分析非常薄弱,缺乏说服力;消融实验几乎为零,无法判断性能提升究竟源于“两步解耦”还是仅仅换了ViT;开源声明流于形式(只说可用,不给链接),这在顶会审稿中是重大减分项。整体来看,这是一篇合格的、incremental的工作,但距离一篇让人印象深刻的论文还有距离。 📌 核心摘要 本文提出了BEST-RQ-2,这是对BEST-RQ自监督音频表示学习方法的改进。核心思想是将预训练过程解耦为两步:首先,一个ViT编码器(上下文化器)仅处理输入频谱图中未被遮蔽的区域,生成上下文表征;然后,一个轻量级预测器利用这些上下文表征,去预测原始输入中被遮蔽区域对应的随机投影离散目标。预训练完成后,预测器被丢弃,仅保留编码器用于下游任务。这种“上下文化-然后-预测”的范式在X-ARES和XARES-LLM两个跨领域音频评估基准上,持续优于使用相同离散目标的单阶段预测基线。与原始BEST-RQ(使用Conformer编码器)相比,新方法在语音性能上略有损失,但在音乐和环境声性能上有所提升,整体平均性能持平。代码和模型检查点已公开(但未提供链接)。 🔗 开源详情 代码:论文声明“Code … are publicly available”,但未提供具体的GitHub或其他代码仓库URL链接。 模型权重:论文声明“model checkpoints are publicly available”,但未提供具体的模型权重下载地址(如HuggingFace Hub、ModelScope、Google Drive链接等)。 数据集:论文未提及是否开源了预训练所用的数据集,也未提供相关获取信息。评估基准X-ARES和XARES-LLM是公开的,但论文未说明是否提供了使用这些基准的评估脚本或数据划分。 Demo:论文未提及。 复现材料:论文未提及是否提供训练脚本、配置文件、超参数列表或环境依赖说明(如requirements.txt)等辅助复现的材料。 论文中引用的开源项目:论文正文未明确列出使用或引用的任何第三方开源工具、框架或代码库。 🏗️ 方法概述和架构 论文提出了一种两阶段预训练框架 BEST-RQ-2,其核心架构和流程如下(参考论文架构图): ...

2026-07-01 · 更新于 2026-07-02 · 2 min · 258 words

ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models

📄 ZEBRA: Zero-Shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization in Audio-Language Models #音频分类 #提示学习 #参数高效微调 7.1/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.7/1.5 | 复现 0.5/0.5 | 工程 0.6/1.5 ✅ 7.1/10 | 前50% | #音频分类 | #提示学习 | #参数高效微调 | arxiv 👥 作者与机构 作者:Asif Hanif, Mohammad Yaqub 机构:Mohamed Bin Zayed University of Artificial Intelligence, Abu Dhabi, UAE 💡 毒舌点评 这篇论文解决的是一个实际且重要的问题:提示学习在提升基类性能的同时,损害了音频语言模型对新类的零样本泛化能力。作者观察到的现象(如图1和表1所示)具有说服力,提出的ZEBRA方法作为一种“即插即用”的框架,思路直观且有效。其核心在于“锚定”预训练表示空间并抑制过拟合,这是合理的。 ...

2026-07-01 · 更新于 2026-07-02 · 3 min · 470 words

WQ-Fusion: Dynamic Gated Attention for Cross-Domain Audio Representation

📄 WQ-Fusion: Dynamic Gated Attention for Cross-Domain Audio Representation #音频分类 6.7/10 | 创新 1.1/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.4/0.5 | 工程 1/1.5 ✅ 6.7/10 | 前50% | #音频分类 | #音频分类 | arxiv 👥 作者与机构 作者:Mingda Lin, Xinyue Zhou, Tiantian Xiong, Hanchen Pei, Gongping Huang, Hao Zhang, Jingdong Chen, Jacob Benesty 机构:1 武汉大学电子信息学院,中国湖北武汉;2 腾讯AI Lab Seattle,美国西雅图;3 西北工业大学CIAIC,中国陕西西安;4 INRS-EMT,加拿大魁北克大学蒙特利尔分校 💡 毒舌点评 这篇论文的工作很“扎实”——扎实地复现了一个已被广泛验证的思路:用一个轻量模块融合两个强大的预训练模型。所谓的“创新”在于将特征调制(FiLM)与门控注意力(Gated Attention)进行组合,并在冻结主干的设定下验证有效性。这更像是一个工程驱动的、面向特定比赛(Interspeech 2026 Challenge)的优化方案,而非提出一个具有普适性的新范式。其性能提升(从0.820到0.836)虽在竞赛语境下有意义,但作为一篇独立的NeurIPS/ICML论文,贡献显得单薄。最大的问题在于,论文既未开源代码,也未提供任何复现材料,极大地限制了其学术价值与可复现性。方法的理论分析几乎空白,为何选择这两种编码器组合、门控行为具体学到了什么,都未做深入探讨。 ...

2026-06-26 · 更新于 2026-07-02 · 2 min · 383 words

FoleySet: A Multi-Level Human-Annotated Foley Sound Dataset

📄 FoleySet: A Multi-Level Human-Annotated Foley Sound Dataset #音频分类 #数据集 #迁移学习 7/10 | 创新 1/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 ✅ 7/10 | 前50% | #音频分类 | #迁移学习 | #数据集 | arxiv 👥 作者与机构 未明确列出 💡 毒舌点评 这篇论文像一份工整的“产品说明书”,而不是一篇充满惊喜的科研报告。它清晰地定义并打包了一个“Foley声音零件箱”,分类详尽,标签规范,甚至附上了质检报告(基线实验)。然而,对于NeurIPS/ICLR这类顶会而言,这更像是在展示一个精心准备好的“材料”,而不是用这些材料做出了“惊人的菜肴”。它的核心贡献是“构建了什么”,而非“发现了什么新知识或新方法”。分类法的构建过程描述详尽,但缺乏对分类法本身有效性的实证评估(如人机一致性验证)。实验部分只展示了最基础的“线性探针”性能,如同只测试了零件的尺寸是否合规,却没组装成原型机看看跑起来怎么样,更别提和现有的“竞品”(其他Foley数据集)在核心任务上真刀真枪地比一场了。作者诚实地指出了单一标注员、长尾分布等局限,这很好,但“诚实”不能完全弥补“深度”的不足。它是一份扎实的基础工作,但距离一篇能激发领域广泛讨论、带来方法论或洞察突破的顶会论文,还有距离。 📌 核心摘要 本文提出了FoleySet,一个公开的、专注于Foley(拟音)声音的数据集。该数据集包含10,000个经过人类标注的音频片段,来源于Freesound平台,并采用了一个为Foley任务设计的双层分类体系(9个主类别,73个子类别)。论文详细阐述了该分类体系的构建过程,并描述了从数据收集、筛选、标注到归一化的完整数据集构建流程。作为基准,论文使用预训练的PaSST模型对主要类别和子类别分类任务进行了评估,分别为82%和64%的准确率,为后续研究提供了可比较的起点。 🔗 开源详情 代码:论文中未提及代码仓库或代码链接。 模型权重:论文中未提及在FoleySet上训练好的模型权重。基准实验中使用的预训练模型为PaSST(来自hear21passt包),其链接为:https://github.com/kwatcharasakorn/hear21passt。 数据集:FoleySet 数据集(10,000个音频片段,CC0许可证)。 主要链接:https://zenodo.org/records/20735877 开源协议:Creative Commons Zero (CC0) 许可。 Demo:论文中未提及在线演示链接。 复现材料:论文提供了详细的分类基准实验设置,可用于复现实验部分: 特征提取器:PaSST (Patchout Spectrogram Transformer),使用hear21passt包。 分类器:线性探针(Linear Probe)分类器。 训练配置:使用AdamW优化器;采用类别加权交叉熵损失(权重为 \(N / (K \cdot n_k)\));监控验证集准确率进行早停(patience=10个epoch)。 评估数据:测试集包含1000个样本。 附录材料:包含完整的关键词到类别映射表(表6)和73类子类别分类的完整结果表(表7)。 论文中引用的开源项目: PaSST / hear21passt:作为预训练特征提取器使用。 链接:https://github.com/kwatcharasakorn/hear21passt HEAR 2021 NeurIPS Challenge API:hear21passt遵循此API。 链接:https://hearing.ai/ DCASE 2023 Task 7:引用了其挑战赛和提供的Foley声音合成数据集。 链接:https://dcase.community/challenge2023/task-foley-sound-synthesis FoleyBench:作为相关数据集被引用。 链接:论文中未提供具体仓库链接。 MINT:作为相关数据集被引用。 链接:论文中未提供具体仓库链接。 6KSFx:作为相关数据集被引用。 链接:论文中未提供具体仓库链接。 AudioSet:作为通用音频数据集被详细对比和引用。 链接:https://research.google.com/audioset/ FSD50K:作为开源声音事件数据集被详细对比和引用。 链接:https://zenodo.org/record/4060432 ESC-50:作为环境声数据集被引用。 链接:https://github.com/karolpiczak/ESC-50 UrbanSound8K:作为城市声数据集被引用。 链接:http://urbansounddataset.weebly.com/urbansound8k.html Universal Category System (UCS):作为音效分类体系被引用。 链接:论文中未提供具体项目链接。 🏗️ 方法概述和架构 本论文的核心方法分为两部分:Foley专用分类法的构建与FoleySet数据集的构建。 ...

2026-06-25 · 更新于 2026-07-02 · 2 min · 341 words

A Multi-Stage Separation-and-Classification Framework Guided by Complementary Acoustic-to-Semantic Clues

📄 A Multi-Stage Separation-and-Classification Framework Guided by Complementary Acoustic-to-Semantic Clues #音频分类 #数据增强 7.5/10 | 创新 1/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ✅ 7.5/10 | 前50% | #音频分类 | #数据增强 | arxiv 👥 作者与机构 作者: Younghoo Kwon, Junwoo Park, Han Yin, Jung-Woo Choi 单位: 未在论文中明确提供。 领域: eess.AS (音频和语音处理) 会议/期刊: DCASE 2026 Challenge Task 4 参赛系统报告 代码: 未提供。 💡 毒舌点评 这篇论文本质上是一个精心打磨的竞赛系统报告,而非一篇旨在推进科学边界的学术论文。其核心价值在于工程整合与针对性优化,而非方法论创新。作者坦率地承认站在DeepASA和DCASE 2025 Task 4系统([6])的肩膀上,但增量贡献(AF-Whisper条件化、持续时间增强、阈值优化)的理论深度有限。最令人不安的是“类别特定阈值优化”——这无异于在测试集上进行“作弊式”调参以最大化排行榜指标,其泛化性和科学严谨性严重存疑。此外,核心组件DeFT-Mamba的细节完全黑箱,使得论文几乎不可复现,这在顶会标准下是重大缺陷。总结:一份优秀的工程实践报告,但一篇不合格的学术论文。 ...

2026-06-24 · 更新于 2026-07-02 · 2 min · 339 words

Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD)

📄 Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD) #音频分类 #数据增强 5.9/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0/1.5 | 清晰 1/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 📝 5.9/10 | 前50% | #音频分类 | #数据增强 | arxiv 👥 作者与机构 作者:Sinclair Gurny, Ryan Quinn 机构:Certus Innovations 💡 毒舌点评 这篇论文本质上是一个“我们做了个数据集”的宣言。它像一份详尽的仓库盘点清单,但仓库里没放任何新工具或新配方。作者正确地指出了现有枪声音频数据的乱象(网上扒的、标签乱标的),并自豪地推出了一套自家“田间地头”录制的、标签相对干净的录音。优点是数据量和元数据确实比前人好,缺点是这些录音棚外的“田野录音”离真实城市枪战噪音环境还差十万八千里,论文自己也承认了,然后就没然后了,连个最简单的baseline都没跑一下来证明这数据集训练出的模型哪怕比随机猜好一点。审稿人最想看到的是“我用这个数据集训练了一个模型,在XX任务上达到了SOTA”,而不是“我整理了一个数据集,你们用用看”。对于一篇本该是工具性的论文,开源细节(具体链接、协议)的缺失是硬伤,让“公开可访问”的承诺打了折扣。创新性主要体现在数据收集的严谨性和元数据的详细程度,而非技术方法。 📌 核心摘要 本文介绍了Certus Caliber Classification Gunshot Dataset (C3GD),一个用于分析枪口爆震声的公开音频数据集。数据集在可控的户外环境中(俄亥俄州农场、纽约采石场、新泽西州农场)实地采集,包含来自28种枪械、16种口径的超过8000个音频剪辑。作者旨在解决现有网络爬取数据集质量低、标签噪声大、元数据缺失的问题。C3GD提供了详细的元数据,包括枪械型号、口径、弹药类型、麦克风型号及位置等,并经过了多阶段质控。论文详细阐述了数据收集协议、处理流程(同步、剪切、特征提取建议)以及数据集结构。尽管承认数据集在声学环境多样性上的局限性,并推荐使用数据增强来弥合差距,但论文并未提供任何使用该数据集进行模型训练或评估的实验结果。其核心贡献是提供了一个高质量、结构化的音频数据资源,以支持口径分类及其他相关音频任务的研究。 🔗 开源详情 代码:论文提及内部数据处理工具托管在Certus Innovations的GitHub上,但未提供具体仓库URL。提供了两个示例Python脚本(clip.py 用于剪切,features.py 用于特征提取)的描述,但未提供脚本的具体下载链接。 模型权重:论文中未提及任何模型权重。 数据集:论文介绍了C3GD数据集,并描述了其结构(data, metadata, scripts文件夹),但未提供具体的下载URL、DOI或开源协议信息。数据集的公开可访问性在论文中未得到实质性支撑。 Demo:未提及在线演示链接。 复现材料:论文中提及在scripts文件夹中提供了示例脚本,并使用了Audacity 3.7.7版本。但如上所述,脚本的具体获取方式未说明。 论文中引用的开源项目:推荐使用 audiomentations 工具库进行数据增强,并给出了其GitHub仓库链接:https://github.com/asteroid-team/audiomentations。 🏗️ 方法概述和架构 本文的核心是数据集构建流程,而非机器学习模型。其方法架构可分为数据收集、数据处理、质量控制与数据集发布四个核心阶段,整体流程如图1-3所示(虽然论文未提供流程图,但文本描述了清晰的流水线)。 ...

2026-06-17 · 更新于 2026-07-02 · 2 min · 217 words

Transductive Zero-Shot Audio Classification with Audio-Language Models

📄 Transductive Zero-Shot Audio Classification with Audio-Language Models #音频分类 #测试时自适应 6.4/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 1/1 | 影响 0.4/1.5 | 开源 0.1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 ✅ 6.4/10 | 前50% | #音频分类 | #测试时自适应 | arxiv 👥 作者与机构 作者:Jingwen Zhou, Mingzhe Wang 机构:论文中未明确说明作者机构。 💡 毒舌点评 这篇论文的工作是扎实的,但“首次系统研究”的声明需要谨慎对待。将TransCLIP直接应用于CLAP,技术上的新颖性有限,更像是一次成功的应用迁移。最大的亮点在于对操作边界(N/C ≳ 2.5)的清晰量化,这为实践者提供了有价值的部署指南。然而,论文的弱点同样明显:所有结论都建立在单一的、已有的laion/clap-htsat-unfused模型上,这严重限制了结论的普适性。此外,与熵引导方法的“组合”实验设计略显取巧,两者操作在不同侧(音频vs文本),其互补性并不令人意外。在音频领域,当零样本基线本身很差时(如TUT场景),该方法完全失效,这暴露了其“放大器”而非“创造器”的本质局限。总体而言,这是一篇合格的、有实用价值的系统性研究,但距离突破性工作尚有差距。 📌 核心摘要 本文针对CLAP音频-语言模型的零样本推理中,每个测试片段被独立分类而忽略测试集整体结构的问题,提出了一种简洁的传递推断方法。该方法将TransCLIP框架适配到CLAP:首先利用冻结的CLAP编码器获取音频片段和文本提示的嵌入,并计算初始的零样本后验概率。随后,在一个无标签的测试批次上,采用文本锚定的球形高斯混合模型-期望最大化(GMM-EM)进行迭代优化。在EM算法中,M步将每个类别的均值向量更新为当前后验加权的音频嵌入和(并归一化到单位球面),E步则利用更新后的类均值重新计算后验,该步骤融合了从音频数据估计的似然和固定的文本先验(通过参数β平衡)。该过程无需任何标签或梯度更新,计算成本极低。实验表明,在ESC-50、UrbanSound8K和VocalSound数据集上,该方法能一致性地提升零样本准确率。论文还系统研究了方法生效的条件,发现其性能增益取决于每批次每类别的样本数(N/C),并揭示了方法与基于熵的提示加权在音频侧和文本侧的互补性。此外,论文诚实地报告了长尾分布和零样本对齐缺失场景下的性能衰减。 🔗 开源详情 代码:论文中未提供代码链接(论文中提及“Code, scripts, and precomputed embeddings will be released upon publication”,但未给出具体URL)。 模型权重:laion/clap-htsat-unfused (HuggingFace: https://huggingface.co/laims/clap-htsat-unfused) 数据集: ESC-50: HuggingFace Mirror: https://huggingface.co/datasets/ashraq/esc50 UrbanSound8K: HuggingFace Mirror: https://huggingface.co/datasets/danavery/urbansound8K VocalSound: HuggingFace Mirror: https://huggingface.co/datasets/lmms-lab/vocalsound TUT Urban Acoustic Scenes 2018: HuggingFace Mirror: https://huggingface.co/datasets/mteb/tut-acoustic-scenes-mini Demo:论文中未提及。 复现材料:论文中提及将发布预计算嵌入,但未提供具体下载链接。 论文中引用的开源项目: CLAP (Contrastive Language-Audio Pretraining): https://github.com/LAION-AI/CLAP TransCLIP: https://github.com/seokhyun0201/TransCLIP Entropy-guided prompt weighting: 论文中引用了相关工作[22] (https://arxiv.org/abs/2305.18975),但未提供本方法的具体代码库链接。 CLIP: 论文中引用了原作[4] (https://github.com/openai/CLIP)。 🏗️ 方法概述和架构 本文方法的核心是将在视觉-语言模型CLIP上验证的传递推断框架TransCLIP,适配并简化后应用于音频-语言模型CLAP。整体流程分为两个阶段:零样本CLAP推理与文本锚定的传递GMM-EM优化。 ...

2026-06-17 · 更新于 2026-07-02 · 2 min · 355 words

Turning music identification into a neural forward pass

📄 Turning music identification into a neural forward pass #音频分类 #音频指纹 #数据增强 #Transformer 7.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 0.6/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #Transformer | #音频指纹 #数据增强 | arxiv 👥 作者与机构 Muhammad Taimoor Haseeb, Ahmad Hammoudeh, Gus Xia。机构:穆罕默德·本·扎耶德人工智能大学 (MBZUAI),Music X Lab,阿联酋。其中Haseeb和Hammoudeh贡献均等。 💡 毒舌点评 这篇论文的立意相当迷人,试图用一个“系统1”式的神经直觉来替代“系统2”式的繁琐检索,概念上很性感。作者在音乐识别这个相对清晰的测试场上,展示了这种范式的可行性,实验设计也比较严谨,甚至考虑了持续学习和开放集这些实际问题。但是,实验的规模限制在25,000条轨道,对于“搜索”这个概念而言,这个数字更像一个玩具演示,而非工业级证明。论文对数据内部化的讨论颇具启发性,但将其与传统检索系统的计算权衡对比时,有些理想化。此外,现场录音性能的断崖式下跌,恰恰暴露了神经网络“记忆”与人类“识别”在泛化能力上的巨大鸿沟。总体而言,这是一篇想法不错、实验扎实但应用前景受限的概念验证论文。作者诚实地列出了局限性,这比那些假装解决了所有问题的论文要值得尊敬。 📌 核心摘要 本文将经典的音乐搜索问题重新定义为一个直接的识别问题。作者提出了一种名为“生成增强检索”的范式,使用一个decoder-only的Transformer模型,通过单次神经网络前向传播,直接从短音频片段(查询)中预测对应的轨道标识符。这种方法将传统声学指纹系统中需要的外部数据库和检索步骤,转化为模型参数对数据集的“内化”。实验表明,在短查询长度(如1秒)下,该方法的识别准确率显著超越了现有的检索基线(Dejavu和GraFPrint),同时大幅降低了外部存储需求并提升了推理延迟。此外,模型还支持通过多片段投票机制进行开放集操作,能够拒绝未知轨道。 🔗 开源详情 代码:论文在结论部分承诺发布代码、数据集清单和可复现脚本(We will release code, dataset manifests, and scripts to reproduce preprocessing, training, evaluation, and fingerprint database construction...),但未提供具体的代码仓库链接(如GitHub)。 模型权重:论文中未提及是否发布预训练模型权重。 数据集:论文使用的主要数据集是公开的Free Music Archive (FMA),其获取链接为:https://doi.org/10.24432/C5HW28。论文中用于版本偏移鲁棒性测试的策划数据集(包含原版、广播编辑、现场版本配对)需向通讯作者合理请求。 Demo:论文中未提及。 复现材料:论文的“Method”部分提供了极其详细的训练与评估参数,包括模型架构规格、数据增强配置、训练超参数(学习率、批量大小等)、评估协议以及硬件环境。论文未提及提供预训练模型检查点文件。 论文中引用的开源项目: Dejavu:作为基线对比的音频指纹识别系统,其GitHub仓库为:https://github.com/worldveil/dejavu。 FMA (Free Music Archive):论文使用的数据集,公开链接为:https://doi.org/10.24432/C5HW28。 torchaudio:论文提及用于特征提取的音频处理库(标准链接:https://pytorch.org/audio/stable/index.html)。 🏗️ 方法概述和架构 本文的核心方法是“生成增强检索”,其架构为一个decoder-only的Transformer模型。该模型的任务是直接从音频查询中自回归地生成一个唯一的轨道标识符。 ...

2026-06-17 · 更新于 2026-07-02 · 4 min · 643 words

Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models

📄 Acoustic Prompting via Stage-wise Modulation for Few-Shot Learning in Audio Language Models #音频分类 #提示学习 #多模态模型 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前50% | #音频分类 | #参数高效微调 | #提示学习 #多模态模型 | arxiv 👥 作者与机构 Hyebin Cho, Jaehyuk Jang, Changick Kim, Joon Son Chung Korea Advanced Institute of Science and Technology, South Korea ...

2026-06-16 · 更新于 2026-07-02 · 2 min · 252 words

MambAdapter: Lightweight Mamba-Based Adapters for Parameter-Efficient Transfer Learning in Speech and Audio

📄 MambAdapter: Lightweight Mamba-Based Adapters for Parameter-Efficient Transfer Learning in Speech and Audio #语音识别 #音频分类 #参数高效微调 8.9/10 | 创新 1.6/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.3/1.5 | 开源 0.8/1.5 | 复现 0.5/0.5 | 工程 1.2/1.5 🔥 8.9/10 | 前25% | #语音识别 | #参数高效微调 | #音频分类 | arxiv 👥 作者与机构 Hussain Ali Cappellazzo, Salman Sami Hussain Ali, Umberto Cappellazzo, Mirco Ravanelli. 机构:1Université de Montréal, Canada; 2Imperial College London, UK; 3Concordia University, Canada; 4Mila – Quebec AI Institute, Canada. ...

2026-06-16 · 更新于 2026-07-02 · 3 min · 435 words