语音/音乐/音频论文速递 2026-05-28

语音/音乐/音频论文速递 2026-05-28 共分析 30 篇论文 ⚡ 今日概览 📥 抓取 30 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 8篇 ████████ #语音合成 4篇 ████ #音频问答 2篇 ██ #语音情感识别 2篇 ██ #语音翻译 2篇 ██ #多模态模型 2篇 ██ #语音生成 1篇 █ #音频检索 1篇 █ 📊 论文评分排行榜(30 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Ada 10.0分 前50% #语音识别 🥈 TARQ: Tail-Aware Reconstruction Quantization for Rare-W 10.0分 前10% #语音识别 🥉 Comprehensive Benchmarking of Long-Form Speech Generati 9.9分 前25% #语音合成 4. MTAVG-Bench 2.0: Diagnosing Failure Modes of Cinematic 9.9分 前25% #语音生成 5. OmniRetriever: Any-to-Any Audio-Video-Text Retrieval vi 9.2分 前25% #音频检索 6. Audio-Mind: An Auditable Agentic Framework for Audio Un 8.7分 前50% #音频问答 7. From Talking to Singing: A New Challenge for Audio-Visu 8.7分 前50% #语音伪造检测 8. SMILE-Next: Teaching Large Language Models to Detect, C 8.7分 前25% #语音情感识别 9. Dasheng AudioGen: A Unified Model for Generating Cohere 8.6分 前25% #音频生成 10. Why We Need Speech to Evaluate Speech Translation 8.3分 前50% #语音翻译 11. Bandwidth-Efficient and Privacy-Preserving Edge-Cloud M 8.1分 前25% #语音翻译 12. EigeNet: Geometry-Informed Multi-Modal Learning for Few 8.0分 前50% #多模态模型 13. Unified Synthesis of Compositional Speech and Sound fro 8.0分 前25% #语音合成 14. Gemini Embedding 2: A Native Multimodal Embedding Model 7.9分 前25% #语音识别 15. HOME-KGQA: A Benchmark Dataset for Multimodal Knowledge 7.5分 后50% - 16. Building Community-Centred NLP Resources for Puno Quech 7.2分 前50% #语音识别 17. Utilizing Missed Detections in Directional Sensitivity- 7.1分 前50% #语音识别 18. Diffusion Large Language Models for Visual Speech Recog 7.0分 前25% #语音识别 19. LoSATok: Low-dimensional Semantic-Acoustic Tokenizer fo 7.0分 前50% #语音合成 20. Affective Music Recommendation: A Rollout-Based World M 7.0分 前50% #音乐推荐 21. VoiceGiraffe: A Benchmark for Extreme Long-Context Audi 7.0分 前25% #音频问答 22. AgenticVBench: Can AI Agents Complete Real-World Post-P 7.0分 前50% #基准测试 23. Do Audio LLMs Listen or Read? Analyzing and Mitigating 6.8分 前50% #语音情感识别 24. A Conflict-Aware Penalty and Statistical Loss Framework 6.8分 前50% #多模态模型 25. I Hear, Therefore I Trust: A Socio-Technical Investigat 6.5分 前50% #语音合成 26. DEMON: Diffusion Engine for Musical Orchestrated Noise 6.0分 前50% #音乐生成 27. Breaking the Script Barrier: Enabling Automatic Alignme 6.0分 前50% #语音识别 28. Robust Quantum-MUSIC for DoA Estimation Using Rydberg A 5.7分 前50% - 29. Benchmarking AI for low-resource contexts: Thinking bey 5.1分 后50% #语音识别 30. Cross-modal characterization of infant cry: validation 5.0分 前50% #信号处理基础 📋 论文列表 🥇 When Helpful Context Leaks: Privacy Risks in Domain-Adapted ASR 🔥 10.0/10 | 前50% | #语音识别 | #迁移学习 | #隐私安全 #领域自适应 | arxiv ...

2026-05-28 · 更新于 2026-06-12 · 15 min · 3187 words

Learning When to Think While Listening in Large Audio-Language Models

📄 Learning When to Think While Listening in Large Audio-Language Models #强化学习 #多模态模型 #参数高效微调 #流式处理 🔥 8.9/10 | 前25% | #语音识别 | #强化学习 | #多模态模型 #参数高效微调 | arxiv 学术质量 5.7/7 | 影响力 1.6/2 | 可复现性 1.6/2 | 置信度 高 👥 作者与机构 宾夕法尼亚大学 (University of Pennsylvania) 作者:Zhiyuan Song, Weici Zhao, Yang Xiao, Suhao Yu, Cheng Zhu, Jiatao Gu 💡 毒舌点评 这篇论文试图解决一个实际而重要的问题:让大型音频语言模型在听的过程中决定何时开始思考,而非傻等用户说完。核心想法——将流式音频推理建模为一个可学习的“等待-思考-回答”控制问题——是新颖且有价值的,尤其是在人机实时交互的背景下。奖励函数设计(六项奖励)体现了作者对问题复杂性的深刻理解,试图从多个维度塑造理想的推理行为。 然而,审稿人的不满在于: 真实音频基准的致命伤:那个只有186条、来自5位说话者的“Real Audio Bench”,在顶会评审中只能算作一个“玩具级”的概念验证。论文用其“功能性”和“转移检查”来回避其无法支撑任何细粒度结论的事实,这在审稿人看来是重大的实验缺陷。置信区间的大幅重叠进一步削弱了其价值。 “全前缀重放”是权宜之计,非解决方案:作者自己也承认,当前的实现是效率低下的近似方案。虽然附录提到了一个概念验证的缓存原型,但主体实验均基于此低效实现,这使得报告的延迟指标(Final)和运行时效率(RTF)的现实意义大打折扣。这本质上是在用一个次优的实现来评估一个声称优化延迟的方法。 奖励函数的复杂性与透明度:六项奖励、多个权重、复杂的门控逻辑……这固然全面,但也引入了大量需要仔细调优的旋钮。论文虽然列出了权重,但对于各项奖励的实际训练动态(例如,思考质量\(R_t\)和一致性\(R_c\)的评分如何从本地LLM的输出转化为稳定的梯度信号)的讨论不足。这让人怀疑其方法的鲁棒性和可迁移性。 声明需谨慎:摘要中“首个”提出的说法需要严格审视。虽然形式独特,但“边听边想”这一理念在先前工作(如文中引用的Shih等人)中已有体现。本文的贡献在于训练范式,而非从无到有的概念。 总体而言,这是一篇扎实的系统论文,提出了一个有趣的问题和一套复杂的训练流程。但因评估基准的软肋和实现上的妥协,其说服力被削弱,距离“显著推动领域进步”的顶会标杆尚有距离。 📌 核心摘要 本文针对大型音频语言模型在流式音频推理中面临的“何时思考”控制问题,提出了一种可学习的“等待-思考-回答”(wait-think-answer)控制器范式。该控制器在接收到部分音频输入时,需决策是等待更多输入(<wait/>)、输出中间思考状态(...</think>),还是在语音结束后给出最终答案(<answer>...</answer>)。研究以Qwen2.5-Omni-7B为基础模型,首先利用GPT-4o从语音推理示例中生成语义化的控制器轨迹,并经由TTS渲染和强制对齐构建训练数据。然后,通过监督微调(SFT)教授控制器动作格式,进而使用多目标奖励函数进行DAPO策略优化。奖励函数综合考虑答案正确性、动作格式、响应延迟、更新时机、思考质量和链一致性。在合成语音推理问答基准(SRQA)上,六奖励DAPO控制器将行加权平均准确率从67.6%提升至70.3%,同时将后端点最终思考长度从10.44 token减少至8.99 token(约14%降幅)。在186条人类录制的真实音频基准(Real Audio Bench)上,控制器家族保持了功能性,证明了其在非合成语音上的转移能力。 ...

2026-05-27 · 更新于 2026-06-12 · 1 min · 143 words

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #自监督学习 #语音识别 #语音增强 #音频事件检测 #声纹识别 #多模态模型 #参数高效微调 #正则化微调 #数据增强 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #持续学习 #语音增强 | arxiv 学术质量 4.8/7 | 影响力 1.5/2 | 可复现性 1.2/2 | 置信度 中 👥 作者与机构 论文作者为:Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang。 未在论文中明确提及作者所属的具体机构。 💡 毒舌点评 这篇文章就像一篇精心整理的“会议纪要”,而不是一篇能发在顶会的“研究提案”。它准确地指出了“房间里的大象”——现代语音基础模型下CL问题的表征纠缠本质,并为此绘制了一张详尽的“地图”(分类法)。然而,地图画得再好,也只是静态的。审稿人最想看到的是你如何沿着地图勘探、挖掘宝藏(验证你的分类和观点),但作者只是把工具(现有方法)摆出来,说“这些工具在这些地方用起来会遇到困难”。全文充满了“应该”和“未来方向”,却缺少了“我做了什么”和“我证明了什么”。将LALM的训练流程强行塞入CL框架进行解读,立意巧妙,但更像是一个有趣的观察而非深刻的贡献,且论述缺乏形式化的支撑。总而言之,这是一篇合格的、有用的“问题导向型”综述,但其理论贡献的深度(分类法的形式化定义与验证)和实验上的空洞,使其离顶会标准尚有距离。 📌 核心摘要 本文针对语音基础模型时代持续学习(CL)面临的挑战,提出了一种以表征演化为中心的新视角和分类法。作者指出,现代语音基础模型学习的是高度纠缠的连续共享表征,因此CL的核心挑战在于保持和演化这种表征的几何结构,而非传统的任务知识保留。文章据此将语音CL场景划分为几何保持、几何扩展、几何对齐和几何特化四类,并进一步分析了现有缓解策略(回放、正则化、架构隔离)在应对纠缠表征时的局限性。同时,文章将大型语言音频模型(LALMs)的多阶段后训练流程解读为一种隐式的多模态持续学习管线,并映射到上述分类中。最后,文章提出了隐私敏感的持续预训练和缺失模态适应等开放问题。本文为语音CL研究提供了新的问题框架和方向,但作为一篇综述和理论探讨文章,缺乏实验验证,其提出的分类法的深度和实用性有待进一步检验。 🔗 开源详情 代码:论文中明确提到一个GitHub列表用于获取所有参考文献(https://github.com/yangxiao1202/RethinkingCL-speech)。该列表很可能包含了文中引用的相关项目(如wav2vec 2.0, HuBERT, Whisper等)的代码链接。 模型权重:论文未提及作者开发的新模型权重。引用的第三方基础模型的官方权重链接,推测包含在上述GitHub列表中。 数据集:论文未提及本研究使用或提供的具体数据集。文中提及“大规模、异构的音频语料库”和“静态数据集”作为训练基础,但未指明具体名称。 Demo:未提及。 复现材料:作为一篇理论综述文章,未提供具体的训练配置、模型检查点或详细的附录材料。 论文中引用的开源项目: wav2vec 2.0:官方链接通常为 https://github.com/facebookresearch/wav2vec2。 HuBERT:官方链接通常为 https://github.com/facebookresearch/hubert。 Whisper:官方链接通常为 https://github.com/openai/whisper。 LALMs:这是一个泛指类别,非单一项目。 LoRA:论文引用自 https://arxiv.org/abs/2106.09685,通常伴随代码实现。 EWC 和 LwF:为经典方法,有多种开源实现,论文中未指定特定版本。 总结说明:本篇论文的核心开源信息集中于作者维护的GitHub列表。论文本身未提供用于复现新方法的代码、模型或数据。 🏗️ 方法概述和架构 本文的核心方法是提出一个理论分析框架和新的分类体系,而非具体的算法或模型。其方法论架构可分为两个相互关联的部分: ...

2026-05-27 · 更新于 2026-06-12 · 1 min · 197 words

语音/音乐/音频论文速递 2026-05-27

语音/音乐/音频论文速递 2026-05-27 共分析 39 篇论文 ⚡ 今日概览 📥 抓取 39 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 12篇 ████████████ #语音识别 6篇 ██████ #音乐转录 2篇 ██ #多模态模型 2篇 ██ #语音编码 2篇 ██ #基准测试 1篇 █ #音频检索 1篇 █ #自监督学习 1篇 █ 📊 论文评分排行榜(39 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 10.0分 前25% #语音合成 🥈 Rubato: Transcribing Piano Music with Timestamps 10.0分 前10% #音乐转录 🥉 PitchBench: Measuring Pitch Hearing in Audio-Language M 9.7分 前25% #基准测试 4. AVBench: Human-Aligned and Automated Evaluation Benchma 9.7分 前25% #多模态模型 5. PilotTTS: A Disciplined Modular Recipe for Competitive 9.2分 前25% #语音合成 6. MERIT: Learning Disentangled Music Representations for 9.0分 前25% #音频检索 7. Learning When to Think While Listening in Large Audio-L 8.9分 前25% #语音识别 8. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 8.5分 前25% #语音合成 9. CFMDCTCodec: A Low-Bitrate Neural Speech Codec with Noi 8.4分 前25% #语音编码 10. Continual Speaker Identity Unlearning with Minimal Inte 8.3分 前25% #语音合成 11. Eroding Trust in Real Speech: A Large-Scale Study of Hu 8.2分 前50% - 12. Beyond Binary: Speech Representations Across the Cognit 8.1分 前50% #自监督学习 13. Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 8.1分 前10% #语音编码 14. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.0分 前25% - 15. Time Segmented Beamforming via Dynamic Programming: The 8.0分 前25% #自适应滤波 16. Can We Hear from Events? Generating Speech from Event C 7.8分 前25% #语音合成 17. A Multimodal Framework for Dementia Detection via Lingu 7.7分 前50% #多模态模型 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.7分 前50% #语音合成 19. Rethinking Continual Learning for Speech and Audio: A R 7.5分 前50% #语音识别 20. DuoGesture: Neuro-Inspired and Biomechanically Informed 7.5分 前25% #语音合成 21. Music Transcription with (Almost) No Supervision 7.5分 前50% #音乐转录 22. LongCat-Video-Avatar 1.5 Technical Report 7.5分 前25% #语音合成 23. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 7.2分 前25% #语音编辑 24. Why Can’t They Remember? Uncovering Representation and 7.0分 前50% #语音识别 25. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.0分 前50% #语音分离 26. G-iMUSIC: Greedy Iterative MUSIC Algorithms for Multi-T 6.9分 前50% - 27. From Scores to Gibbs Correctors: Accelerating Uniform-R 6.9分 前50% #语音合成 28. Proactive for Uncertainty: Cause-Aware Error Diagnosis 6.8分 前50% #语音识别 29. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 6.5分 前50% #语音合成 30. PashtoTTS-Bench: automated screening for low-resource n 6.5分 前50% #语音合成 31. Score-Agnostic Structure Analysis in Large-Scale Perfor 6.5分 前50% #音乐信息检索 32. Subspace Track-before-Detect for Passive Multi-Target T 6.4分 前50% #信号处理基础 33. Toward Natural Emotional Text-To-Speech System with Fin 6.3分 前50% #语音合成 34. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 6.0分 前50% #语音识别 35. LongAV-Compass: Towards Unified Evaluation of Minute-Sc 6.0分 前50% #音频生成 36. FalAR: A Large-scale Speaker-Annotated European Portugu 5.5分 后50% #语音识别 37. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.2分 后50% #大语言模型 38. Exploration of Perceptual Speech Features for Clinical 5.0分 前50% #语音情感识别 39. An investigation of AI integration in sound designer wo 4.6分 后50% - 📋 论文列表 🥇 Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio 🔥 10.0/10 | 前25% | #语音合成 | #概率与图模型 | #语音转换 #生成对抗网络 | arxiv ...

2026-05-27 · 更新于 2026-06-12 · 19 min · 3918 words

Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation

📄 Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation #关键词检测 #语音处理 #双阶段匹配 #多模态学习 #持续学习 #参数高效微调 ✅ 7.4/10 | 前50% | #关键词检测 | #迁移学习 | #语音处理 #双阶段匹配 | arxiv 学术质量 4.8/7 | 影响力 1.0/2 | 可复现性 1.6/2 | 置信度 0.9 👥 作者与机构 Zhiqi Ai (上海大学) Han Cheng (上海大学) Shiyi Mu (上海大学) Xinnuo Li (纽约大学) Yongjin Zhou (上海大学, 通讯作者) Shugong Xu (西安交通大学-利物浦大学, 通讯作者) 💡 毒舌点评 这篇论文工作扎实,工程味浓,属于典型的“系统性优化”而非“范式革新”。作者明显深谙从学术到落地的全链路痛点:双阶段匹配的流水线设计巧妙地在通用性(CTC)和精确性(QbyT)间取得平衡;多模态注册(MAM)与参数高效微调(LoRA)的结合,直击了个性化部署中数据稀缺与效率的矛盾。实验设计覆盖面极广,从标准基准到波斯语口音等边缘场景,展现了极强的“打补丁”能力。然而,这恰恰是其主要问题:论文的创新更像是一组现有技术的精巧组合与调优,缺乏一个高屋建瓴的理论框架或令人眼前一亮的洞察。所谓“state-of-the-art”的宣称,在部分数据集上(如Qcomm)的优势微弱,且与SOTA系统的比较多停留在数值层面,缺乏对其成功或失败模式的深层分析。此外,论文篇幅冗长,方法描述虽详尽但略显啰嗦,结论部分也较为平淡,未能充分升华其贡献。它是一篇出色的系统论文,但距离一篇令人印象深刻的顶级会议论文,尚差一些思想的火花和叙事的锋芒。 📌 核心摘要 本文提出了DMA-KWS,一个高效且鲁棒的用户定义关键词检测(UDKWS)框架。该框架整合了双阶段匹配、多模态注册和持续适应机制。首先,双阶段匹配管道包括一个基于CTC解码的流式音素搜索,用于定位候选音频段;随后,一个基于查询文本(QbyT)的音素匹配器对候选段进行细粒度验证,以更好地区分易混淆关键词。其次,多模态注册模块融合了关键词的文本嵌入与用户注册音频的特征,实现了说话人相关的关键词检测,利用注册音频中的口音信息提升识别准确率。最后,基于LoRA的参数高效持续适应机制,利用合成数据与真实反馈数据对模型进行轻量级微调,以快速适应新注册的关键词。大量实验表明,DMA-KWS在多个数据集上取得了具有竞争力的性能,展现了强大的零样本能力,并能以极少的参数更新实现快速定制化。 ...

2026-05-22 · 更新于 2026-06-12 · 3 min · 473 words

Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks

📄 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks #大语言模型 #参数高效微调 #问答 #数学推理 #开源 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv 学术质量 5.8/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:未说明(论文中未明确标注第一作者) 通讯作者:未说明(论文中未明确标注通讯作者) 作者列表:Zongqian Li(未说明所属机构),Yixuan Su(未说明所属机构),Han Zhou(未说明所属机构),Zihao Fu(未说明所属机构),Nigel Collier(未说明所属机构) 💡 毒舌点评 亮点:论文的核心贡献——在训练和推理阶段均保持输入自适应的动态秩分配——被设计得非常巧妙,且通过与DyLoRA+的对照实验,清晰地论证了“训练-推理动态一致性”对复杂推理任务的重要性,这一观察颇具启发性。实验覆盖了文本理解和语音任务,展现了方法的通用潜力。 短板:创新性主要在于将“动态秩”与“输入感知路由器”相结合,属于对LoRA家族的优化而非范式变革。此外,路由器的引入无疑增加了模型复杂度和训练开销,但论文对其自身的计算成本和可能引入的偏差讨论较少,理论分析稍显单薄。 🔗 开源详情 代码:https://github.com/ZongqianLi/Flexi-LoRA 模型权重:论文中未提及 数据集:论文中未提及 Demo:论文中未提及 复现材料:论文中未提及 论文中引用的开源项目:未提及 补充信息 [作者与机构] 补充:论文在结尾的致谢部分明确列出了全部作者的邮箱地址。第一作者为Zongqian Li (zl452@cam.ac.uk),通讯作者为Nigel Collier (nc293@cam.ac.uk)。所有作者均隶属于剑桥大学。 [核心摘要] 补充:论文在摘要和结论中均强调,Flexi-LoRA的输入自适应分配使其能够“成功解决一些静态LoRA即使使用等效秩也无法解决的复杂问题”(如图1所示)。此外,论文指出成功适应不仅体现在正确性上,还体现在推理质量和指令遵循上,这一点在数学推理任务中尤为明显。 ...

2026-05-05 · 更新于 2026-06-12 · 2 min · 413 words

语音/音乐/音频论文速递 2026-05-05

语音/音乐/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜(33 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分 前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分 前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分 前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分 前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分 前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分 前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分 前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分 前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分 前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分 前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分 前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分 前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分 前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分 前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分 前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分 前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分 前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分 前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分 前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分 前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分 前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分 前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分 前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分 前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分 前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分 前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分 前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分 前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分 前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分 前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分 前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分 前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分 前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

2026-05-05 · 更新于 2026-06-12 · 19 min · 3988 words

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #自监督学习 #参数高效微调 🔥 9.0/10 | 前10% | #音频分类 | #持续学习 | #预训练 #自监督学习 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Chang Li (清华大学心理与认知科学系) 通讯作者:Liyuan Wang (liyuanwang@tsinghua.edu.cn, 清华大学心理与认知科学系) 作者列表:Chang Li(清华大学心理与认知科学系)、Kanglei Zhou(清华大学心理与认知科学系)、Liyuan Wang†(清华大学心理与认知科学系) (注:*表示共同第一作者,†表示通讯作者) 💡 毒舌点评 亮点:这是一篇问题定义清晰、实验极其扎实的“工程科学”论文。它首次将音频持续学习(ACL)问题系统化,并通过精巧的分析(如图1、图3)揭示了音频域与视觉域CL的根本差异,提出的PACE方法在6个差异巨大的基准上均显著刷新SOTA,特别是将性能逼近了联合训练上界。 短板:方法设计虽然有效,但各模块(改进FSA、子空间正交PEFT、边界感知扰动)组合起来略显复杂,调参空间可能不小。此外,对于计算资源敏感的场景,其多会话自适应(MSA)阶段的额外开销是否总能接受,论文讨论略显不足。 🔗 开源详情 代码:论文中提及“we will release all constructed benchmarks and reproduced baselines along with our codebase upon acceptance”,但未在当前文本提供具体代码仓库链接。 模型权重:未提及公开预训练EAT模型的权重获取方式(可能默认为已有公开模型)。 数据集:论文构建的CL基准分割将随代码发布。原始数据集(ESC-50, US8K等)均为公开可用。 Demo:未提及在线演示。 复现材料:提供了详细的超参数设置(表5)、训练硬件(NVIDIA A800 GPU)、关键算法伪代码(Algorithm 1)以及大量的消融实验结果和敏感性分析,复现细节充分。 引用的开源项目:论文依赖或对比的开源项目包括:EAT模型、SSLAM模型、RanPAC、ACL、L2P、DualPrompt等持续学习基线方法。 📌 核心摘要 本文针对预训练音频模型在数据分布动态变化的现实场景中面临灾难性遗忘的问题,首次系统研究了音频持续学习(Audio Continual Learning, ACL)。论文的核心工作包括: ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 376 words

SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis

📄 SumRA: Parameter Efficient Fine-tuning with Singular Value Decomposition and Summed Orthogonal Basis #语音识别 #迁移学习 #参数高效微调 #多语言 #低资源 ✅ 7.5/10 | 前25% | #语音识别 | #迁移学习 | #参数高效微调 #多语言 学术质量 5.8/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 高 👥 作者与机构 第一作者:Chin Yuen Kwok(南洋理工大学 数字信任中心 & 计算与数据科学学院) 通讯作者:Yongsen Zheng(南洋理工大学 数字信任中心 & 计算与数据科学学院) 作者列表: Chin Yuen Kwok(南洋理工大学 数字信任中心 & 计算与数据科学学院) Yongsen Zheng(南洋理工大学 数字信任中心 & 计算与数据科学学院) Jia Qi Yip(南洋理工大学 计算与数据科学学院) Kwok-Yan Lam(南洋理工大学 数字信任中心 & 计算与数据科学学院) Eng Siong Chng(南洋理工大学 数字信任中心 & 计算与数据科学学院) 💡 毒舌点评 亮点:论文巧妙地将“模型平均”的思想压缩到了单一LoRA适配器的初始化阶段,通过将多个奇异向量求和来构建更“博学”的冻结矩阵A,这个想法精巧且实现简单。短板:实验验证仅限于多语言ASR,作者自己也承认对需要“局部”知识适应的任务(如NLU)无效,这让人怀疑该方法是普适的参数高效技巧,还是一个仅对特定任务类型(全局风格/口音迁移)有效的“特解”。 ...

2026-05-04 · 更新于 2026-06-12 · 2 min · 420 words

PACE: Pretrained Audio Continual Learning

📄 PACE: Pretrained Audio Continual Learning #音频分类 #持续学习 #预训练 #参数高效微调 🔥 8.5/10 | 前25% | #音频分类 | #持续学习 | #预训练 #参数高效微调 学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Chang Li*(清华大学心理与认知科学系) 通讯作者:Liyuan Wang†(清华大学心理与认知科学系) 作者列表:Chang Li(清华大学心理与认知科学系)、Kanglei Zhou(清华大学心理与认知科学系)、Liyuan Wang†(清华大学心理与认知科学系) 💡 毒舌点评 亮点在于其开创性地为预训练音频模型的持续学习建立了首个系统性基准,并深刻剖析了音频域区别于视觉域的独特挑战(如严重的表示偏移),问题定位准、分析透彻。短板则是所提出的PACE方法涉及多个阶段和组件(如FSA、MSA、边界正则化),整体框架略显复杂,其在更极端的跨域(如从音乐到语音)或超大规模任务序列下的泛化能力和计算开销有待进一步验证。 🔗 开源详情 代码:论文在“Reproducibility statement”中承诺“upon acceptance”发布代码库,但未提供具体链接。论文中未提及当前可用的代码链接。 模型权重:未提及公开的预训练或适配后的模型权重。 数据集:论文中使用的6个CL基准均为公开数据集(ESC-50, UrbanSound8K, SC2, TIMIT, VocalSet),但论文中未说明是否提供了额外的划分或处理脚本。 Demo:未提及在线演示。 复现材料:提供了极其详细的训练细节(附录D)、超参数敏感性分析(附录E.6)、算法伪代码(附录B)和数据集统计(表5),为复现提供了充分信息。 论文中引用的开源项目:引用了多个开源工具和模型,包括预训练音频模型EAT(Chen et al., 2024)、SSLAM(Alex et al., 2025),以及持续学习方法RanPAC(McDonnell et al., 2023)、ACL(Zhuang et al., 2022)、LoRASub(Liu & Chang, 2025)等。 总结:论文中提及了明确的开源计划,并提供了详实的复现指南,但具体的代码和权重发布需等待论文接收。 📌 核心摘要 问题:预训练音频模型(PTMs)在现实世界中数据分布持续变化的场景下,直接应用现有的视觉域持续学习(CL)方法(如PEFT)性能会严重下降。根本原因在于音频骨干网络更强调低层频谱细节而非结构化语义,导致严重的“上游-下游表示不对齐”,引发跨会话的剧烈表示偏移和灾难性遗忘。 方法核心:提出PACE框架,分三阶段解决上述问题。阶段1:改进的首次适应(FSA),通过限制头部学习率、后期层LoRA适配和替换解析分类器,稳定地适配第一个任务,避免表示饱和。阶段2:自适应多会话子空间正交PEFT,允许骨干网络在后续会话中进行受控适应,同时通过梯度投影到先前表示的零空间来约束表示漂移。阶段3:骨干网络固定,进入稳定期。 新在何处:首次系统构建了音频CL基准;首次深入分析了音频CL特有的挑战(表示饱和与偏移);提出了首个专门针对音频PTMs特性的、兼顾可塑性与稳定性的统一CL框架PACE,融合了音频特定的PEFT策略、子空间投影和基于时频掩码的边界感知正则化。 实验结果:在3个粗粒度(ESC-50, US8K, SC2)和3个细粒度(TIMIT-2, TIMIT-3, VocalSet)共6个音频CL基准上,PACE大幅超越所有基线方法。在细粒度任务上优势尤为明显,如在TIMIT-2上比次优基线RanPAC高5.32%,在VocalSet上高6.26%。PACE将性能与联合训练上界的差距显著缩小(例如,在ESC-50上差距仅0.75%,在VocalSet上差距从13.8%降至7.57%)。关键消融实验验证了FSA、MSA、梯度投影和边界正则化的必要性。 实际意义:为构建能够持续适应新环境、新说话人、新声音的健壮、可扩展的音频智能系统(如语音助手、智能环境监测)提供了理论基础和有效方法。 主要局限性:框架的多阶段设计和多个超参数(如Nstop, ρlayer)增加了部署和调优的复杂性。方法对计算资源(特别是早期阶段的骨干网络适应)有一定要求。对于领域差距极大(如从环境声到音乐)的超复杂CL序列的有效性有待验证。 🏗️ 模型架构 PACE是一个分阶段的统一框架,旨在重新对齐预训练音频骨干网络的表示以适应持续学习目标。 ...

2026-05-02 · 更新于 2026-06-12 · 2 min · 384 words