持续学习 | 语音/音乐/音频论文速递

Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR

📄 Learning to Hear Hesitation: Continual Learning for Disfluency-Aware ASR #持续学习 #语音识别 8.3/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.1/1.5 | 清晰 1/1 | 影响 1.2/1.5 | 开源 0.5/1.5 | 复现 0.5/0.5 | 工程 1.3/1.5 🔥 8.3/10 | 前25% | #语音识别 | #持续学习 | arxiv 👥 作者与机构作者: Henri-Leon Kordt, Theresa Pekarek Rosin, Jae Hee Lee, Stefan Wermter 机构: Knowledge Technology, Department of Informatics, University of Hamburg, Germany 💡 毒舌点评这篇工作选题很有意思，直击ASR领域的痛点——不流畅语音处理，并试图用持续学习这个“时髦”工具来解决。作者实验做得挺认真，对比了四种主流CL方法，还挖到了注意力头特化这个有趣的“彩蛋”，分析部分比许多只会刷点的论文强不少。但是，话说回来，顶会审稿人的眼睛是雪亮的：你只用了一个whisper-small.en，而且任务顺序固定，这就好比只用一道菜的食谱去证明一种烹饪方法的普适性，说服力打了折扣。另外，你的方法最终是落在ASR性能上的，但和那些专攻不流畅识别或超大模型的SOTA比起来，数字上好像没特别亮眼啊？你的“可解释性”发现很酷，但能稳定复现吗？别只是恰好在whisper上观察到的现象。总的来说，是一篇不错的“探索性”工作，但离“里程碑”还有距离。 ...

MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition

📄 MoDiCoL: A Modular Diagnostic Continual Learning Dataset for Robust Speech Recognition #语音识别 #持续学习 #鲁棒性 #数据增强 6.5/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 0.8/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 0.8/1.5 ✅ 6.5/10 | 前50% | #语音识别 | #持续学习 | #鲁棒性 #数据增强 | arxiv 👥 作者与机构作者：Theresa Pekarek Rosin, Matthias Kerzel, Stefan Wermter 机构：德国汉堡大学信息学系知识技术实验室 💡 毒舌点评这篇论文想法不错，想解决ASR鲁棒性评估脱离实际的痛点，用持续学习（CL）这个“时髦”工具来诊断。但“诊断”这词用得有点大。用Whisper-small.en这个本身就不太强的模型在一堆精心构造的任务上做实验，结论的普适性存疑。方法创新有限，主要是把因子设计和CL结合到语音领域。实验部分，虽然对比了三种CL方法，但都比较经典，缺少和近期更先进的CL方法对比。最大的亮点是数据集设计和开源，这点要给赞。但要说对领域有多大推动，可能更多是提供了一个不错的基准和工具，离深刻洞察还差一步。CL在ASR上的实际应用价值？目前看更像是个学术玩具。 📌 核心摘要本文针对现有自动语音识别（ASR）鲁棒性评估基准孤立看待噪声、口音、疾病等分布偏移因素的问题，提出将鲁棒性视为一个动态发展的持续学习（CL）能力。为此，作者构建了MoDiCoL数据集，这是一个基于正交阵列和折叠设计的模块化、可诊断CL数据集，系统地覆盖了语言内容、说话人特征和声学环境三大类因素。数据集包含8100个样本（18.79小时，其中14.08小时为合成语音），通过可配置的增强管道精确控制因素水平。论文设计了一个模拟真实世界增量更新的CL课程，包含四个顺序任务（控制设置、声学漂移、说话人漂移、语言漂移、复合漂移），并通过排列任务顺序评估鲁棒性迁移。在实验上，使用Whisper-small.en作为骨干模型，对比了经验重放缓冲区（ER-5%， ER-10%）、表示级正则化（RLR）和正交梯度下降（OGD）三种CL策略。结果表明，ER-10%在平均词错误率（A-WER）和遗忘度量（FM）上表现最优，甚至超过了联合训练上界；OGD在平均增量词错误率（AI-WER）上最佳。研究发现，顺序引入偏移可以提高模型的学习可塑性，但任务顺序对记忆稳定性影响显著。作者总结认为，CL不仅能保持模型鲁棒性，也可作为诊断预训练模型遗忘机制的工具。MoDiCoL数据集、增强流程及CL课程设置已开源。 ...

Parameter-Efficient Continual Learning for Automatic Speech Recognition

📄 Parameter-Efficient Continual Learning for Automatic Speech Recognition #语音识别 #持续学习 #低资源 8.1/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 1/1.5 | 复现 0.5/0.5 | 工程 0.9/1.5 🔥 8.1/10 | 前25% | #语音识别 | #参数高效微调 | #持续学习 #低资源 | arxiv 👥 作者与机构作者：Steven Vander Eeckt, Hugo Van Hamme 机构：Department Electrical Engineering ESAT-PSI, KU Leuven, Leuven, Belgium 💡 毒舌点评论文提出了一个在ASR领域探索PECL的扎实工作，但“最全面实证研究”的宣称需要更审慎的评估。方法核心是对SSVD的逆向应用（改头部为尾部）并结合持续学习中经典技巧（权重平均），其新颖性更多体现在特定领域的适配和验证，而非原理上的突破。实验设计虽合理，但仅两个任务的序列长度，对于宣称“减少遗忘”这一CL核心挑战的验证略显不足。部分基线（MiLoRA， OPLoRA）在实验2中缺失结果却未作讨论，是一个明显的疏漏。论文写作清晰，但公式(2)的笔误和“Separate Model”描述的潜在矛盾需在终稿中修正。整体而言，这是一篇合格的、有实用价值的领域工作，但距离顶尖会议的理论深度或实验规模仍有差距。 📌 核心摘要本文针对语音基础模型在多任务顺序适配中面临的灾难性遗忘和参数效率问题，提出了CSSVD方法。该方法基于奇异值分解（SVD），将预训练权重矩阵划分为高能量的“头部”和低能量的“尾部”。与SSVD在头部进行适应不同，CSSVD将新任务的适应限制在尾部子空间内，仅学习一个近似旋转矩阵，从而保护对旧任务至关重要的主干知识。在学习后续任务时，通过简单的凸组合（权重平均）来合并模型，进一步平滑更新以减轻遗忘。在两个多语言/方言ASR基准上的实验表明，CSSVD相比多种源自NLP/视觉领域的先进PECL基线（如LoRA+FTA， BiLoRA），能显著降低平均词错误率（WER）并极大缓解遗忘（BWT更接近零）。消融研究证实了尾部适应、近似旋转和权重平均这三个组件的协同有效性。 ...

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #语音合成 #自监督学习 #持续学习 🔥 8.3/10 | 前25% | #语音合成 | #自监督学习 | #持续学习 | arxiv 学术质量 6.1/7 | 影响力 1.7/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Jinju Kim (成均馆大学), Yunsung Kang (成均馆大学), Gyeong-Moon Park (高丽大学), Jong Hwan Ko (成均馆大学)。机构为 Sungkyunkwan University 和 Korea University。 💡 毒舌点评这篇论文针对“被遗忘权”在零样本语音克隆模型中的实际部署痛点——遗忘请求是顺序到达且数据必须删除——提出了一个精巧的解决方案。优点是问题定义精准且真实，直击先前工作的“一刀切”假设的软肋，并首次定义了“灾难性再学习”这一关键失败模式。方法设计上，CORTIS（对比Fisher信息掩码+累积正交子空间投影）逻辑清晰，两个组件分工明确（定位参数+约束方向），并通过消融实验验证了必要性。实验基线比较合理，展示了方法在3-5次连续请求下的有效性。但必须指出，论文的“新颖性”在一定程度上是“问题新颖性”和“应用新颖性”的结合，而非一个全新的方法论突破。将正则化微调和梯度投影这两个在持续学习中已有的技术进行特定场景的组合应用，工程价值高于理论价值。此外，所有实验都在单一模型（VoiceBox）上进行，声称的“架构无关性”缺乏实证支撑，这在NeurIPS/ICML级别的会议上会被视为一个显著的弱点。 📌 核心摘要论文正式定义了在现实部署约束（遗忘请求顺序到达且遗忘后数据立即删除）下的零样本文本转语音模型“连续说话人身份遗忘”问题。作者指出，直接顺序应用现有遗忘方法会导致“灾难性再学习”，即新的遗忘操作会使先前已遗忘的说话人身份复活。为解决此问题，提出了CORTIS框架，它包含两个互补组件：1）基于对比Fisher信息的参数掩码，将每个遗忘步骤的更新精确定位到与当前目标说话人最相关的参数子集，同时排除对保留集和先前遗忘说话人重要的参数；2）累积正交子空间投影，将更新梯度投影到先前所有遗忘步骤所用梯度的正交补空间，从方向上阻止参数沿先前遗忘路径漂移。在VoiceBox模型上的实验表明，CORTIS是唯一能在3次（及扩展到5次）连续遗忘请求后，使所有先前遗忘的说话人相似度保持在低位（平均降低75%），同时保持保留集性能具有竞争力的方法。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及使用了LibriHeavy（预训练）、LibriSpeech test-clean（评估）和特定的遗忘说话人子集，但未提供这些数据集的下载链接。 Demo：提供了演示网站 https://cumulativeortis.github.io/。复现材料：论文在附录中提供了详细的CORTIS实现细节（附录B）、VoiceBox骨干网络实现（附录C）、所有基线的实现细节（附录D）以及评估用的说话人相似度分布（附录E），为复现提供了理论上的细节支持。论文中引用的关键开源项目：VoiceBox、WavLM-TDCNN、Diffwave vocoder、HuBERT-Large ASR模型，但论文中均未提供这些项目的具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决连续遗忘场景下的“灾难性再学习”问题，其核心思想是在参数定位和方向约束两个层面同时施加保护。整体流程如论文图2所示，主要分为两步： ...

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #自监督学习 #语音识别 #语音增强 #音频事件检测 #声纹识别 #多模态模型 #参数高效微调 #正则化微调 #数据增强 ✅ 7.5/10 | 前50% | #语音识别 | #自监督学习 | #持续学习 #语音增强 | arxiv 学术质量 4.8/7 | 影响力 1.5/2 | 可复现性 1.2/2 | 置信度中 👥 作者与机构论文作者为：Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang。未在论文中明确提及作者所属的具体机构。 💡 毒舌点评这篇文章就像一篇精心整理的“会议纪要”，而不是一篇能发在顶会的“研究提案”。它准确地指出了“房间里的大象”——现代语音基础模型下CL问题的表征纠缠本质，并为此绘制了一张详尽的“地图”（分类法）。然而，地图画得再好，也只是静态的。审稿人最想看到的是你如何沿着地图勘探、挖掘宝藏（验证你的分类和观点），但作者只是把工具（现有方法）摆出来，说“这些工具在这些地方用起来会遇到困难”。全文充满了“应该”和“未来方向”，却缺少了“我做了什么”和“我证明了什么”。将LALM的训练流程强行塞入CL框架进行解读，立意巧妙，但更像是一个有趣的观察而非深刻的贡献，且论述缺乏形式化的支撑。总而言之，这是一篇合格的、有用的“问题导向型”综述，但其理论贡献的深度（分类法的形式化定义与验证）和实验上的空洞，使其离顶会标准尚有距离。 📌 核心摘要本文针对语音基础模型时代持续学习（CL）面临的挑战，提出了一种以表征演化为中心的新视角和分类法。作者指出，现代语音基础模型学习的是高度纠缠的连续共享表征，因此CL的核心挑战在于保持和演化这种表征的几何结构，而非传统的任务知识保留。文章据此将语音CL场景划分为几何保持、几何扩展、几何对齐和几何特化四类，并进一步分析了现有缓解策略（回放、正则化、架构隔离）在应对纠缠表征时的局限性。同时，文章将大型语言音频模型（LALMs）的多阶段后训练流程解读为一种隐式的多模态持续学习管线，并映射到上述分类中。最后，文章提出了隐私敏感的持续预训练和缺失模态适应等开放问题。本文为语音CL研究提供了新的问题框架和方向，但作为一篇综述和理论探讨文章，缺乏实验验证，其提出的分类法的深度和实用性有待进一步检验。 🔗 开源详情代码：论文中明确提到一个GitHub列表用于获取所有参考文献（https://github.com/yangxiao1202/RethinkingCL-speech）。该列表很可能包含了文中引用的相关项目（如wav2vec 2.0, HuBERT, Whisper等）的代码链接。模型权重：论文未提及作者开发的新模型权重。引用的第三方基础模型的官方权重链接，推测包含在上述GitHub列表中。数据集：论文未提及本研究使用或提供的具体数据集。文中提及“大规模、异构的音频语料库”和“静态数据集”作为训练基础，但未指明具体名称。 Demo：未提及。复现材料：作为一篇理论综述文章，未提供具体的训练配置、模型检查点或详细的附录材料。论文中引用的开源项目： wav2vec 2.0：官方链接通常为 https://github.com/facebookresearch/wav2vec2。 HuBERT：官方链接通常为 https://github.com/facebookresearch/hubert。 Whisper：官方链接通常为 https://github.com/openai/whisper。 LALMs：这是一个泛指类别，非单一项目。 LoRA：论文引用自 https://arxiv.org/abs/2106.09685，通常伴随代码实现。 EWC 和 LwF：为经典方法，有多种开源实现，论文中未指定特定版本。总结说明：本篇论文的核心开源信息集中于作者维护的GitHub列表。论文本身未提供用于复现新方法的代码、模型或数据。 🏗️ 方法概述和架构本文的核心方法是提出一个理论分析框架和新的分类体系，而非具体的算法或模型。其方法论架构可分为两个相互关联的部分： ...

Continual Speaker Identity Unlearning with Minimal Interference

📄 Continual Speaker Identity Unlearning with Minimal Interference #持续学习 #语音合成 🔥 8.6/10 | 前25% | #语音合成 | #持续学习 | arxiv 学术质量 6.5/7 | 影响力 1.6/2 | 可复现性 0.5/2 | 置信度高 👥 作者与机构 Jinju Kim, Yunsung Kang: Sungkyunkwan University Gyeong-Moon Park: Korea University Jong Hwan Ko: Sungkyunkwan University 📌 核心摘要本文针对零样本文本转语音（ZS-TTS）系统中，在现实部署约束下（遗忘请求顺序到达、数据需删除）的说话人身份持续遗忘问题，提出了“灾难性重新学习”这一关键失败模式。现有方法在顺序应用时，为保留模型效用而施加的正则化会无意中恢复先前已遗忘的说话人身份。为解决此问题，作者提出了CORTIS框架，该框架通过对比Fisher信息进行参数定位（控制更新范围）和累积正交子空间投影（控制更新方向），实现无需访问历史遗忘数据即可进行持续遗忘。在VoiceBox模型上的实验证明，CORTIS能在5轮顺序请求后，将所有已遗忘说话人的相似度维持在较低水平，同时保持有竞争力的保留集合成质量，显著优于顺序应用的现有方法。 🔗 开源详情代码：论文正文和附录中未提供代码仓库链接。模型权重：论文中未提及发布预训练或遗忘后的模型权重。数据集：论文使用了公开数据集LibriHeavy（预训练）和LibriSpeech test-clean（评估），但未提供下载链接或特定预处理脚本。遗忘集为从LibriHeavy中筛选的5个特定说话人音频。 Demo：提供了演示链接 https://cumulativeortis.github.io/。复现材料：论文附录B、C、D提供了非常详细的实现步骤、超参数、模型架构（VoiceBox）描述和基线配置，理论上足以支持复现。论文中引用的开源项目： VoiceBox：提供了论文链接（https://arxiv.org/abs/2306.15687）和Demo页面，但未提及代码仓库。 LibriHeavy、LibriSpeech：标准数据集，未提供特定链接。 Diffwave、HuBERT-Large、WavLM-TDCNN：作为工具被引用，未提供具体链接。 🏗️ 方法概述和架构 CORTIS框架旨在解决ZS-TTS模型中持续说话人身份遗忘的“灾难性重新学习”问题，其核心设计是在不访问历史遗忘数据的前提下，最小化每次遗忘更新对先前遗忘结果的干扰。该框架包含两个互补且顺序执行的阶段，图2对其进行了可视化概述。对比参数定位 (Contrastive Parameter Localization) 功能：确定每次遗忘序列中，模型参数的“可训练区域”。其目标是局部化更新，使其集中在与当前遗忘说话人最相关的参数子集上，同时软排除对保留集质量或任何先前遗忘说话人重要的参数。实现：对于第 i 次遗忘序列（针对说话人集 f_i），首先计算当前遗忘集 f_i 数据的遗忘损失的对角Fisher信息矩阵 F_{f_i}。同时，维护保留集 R_i 的Fisher信息矩阵 F_{R_i}，以及所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息矩阵 F_{f_1}, ..., F_{f_{i-1}}。F_{R_i} 不需要在每次请求时从整个保留集重新计算，可以使用一个固定的子集并跨序列重用。构造一个显著性图，其计算公式为：saliency_i = (F_{f_i} + ϵ) / (max(F_{R_i}, F_{f_1}, ..., F_{f_{i-1}}) + ϵ)。公式中的分母是逐元素最大值操作，起到软保护作用：任何对保留集质量或任何先前遗忘说话人重要的参数，其显著性得分都会被压低。选择显著性图中全局排名前 k% 的参数，形成二值训练掩码 M_i。在后续第 i 次序列的更新中，只有被 M_i 标记的参数是可训练的，其余参数被冻结。输入：当前遗忘集 f_i 的数据；保留集 R_i 的Fisher信息（可复用）；所有先前遗忘集 f_1, ..., f_{i-1} 的Fisher信息（历史积累）。输出：二值掩码 M_i，定义了本次更新的可训练参数子集。累积正交子空间投影 (Cumulative Orthogonal Subspace Projection) 功能：在参数定位的基础上，进一步约束可训练参数的更新方向。它将新的更新梯度投影到由所有先前遗忘序列更新所张成子空间的正交补上，从而阻止更新沿先前遗忘所使用过的关键方向进行，从方向层面防止对先前遗忘结果的干扰。实现：在第 i 次遗忘序列的训练过程中，以固定间隔（例如每 n 步）收集优化器步进的梯度快照。训练完成后，将收集到的梯度快照堆叠，并通过截断奇异值分解（SVD）计算一个秩为 R 的标准正交基 U_i。为保证 U_i 仅捕获未被先前子空间覆盖的方向，在进行SVD之前，会从每个梯度快照中减去先前累积子空间 U_{<i} 的投影分量，从而在构造上使 U_i 与 U_1, ..., U_{i-1} 正交。为避免累积子空间 U_{<i} 的维度随请求序列线性增长（导致投影成本无限增加），采用了一种固定的秩合并策略。在序列 i+1 开始时，构造一个能量加权的列堆叠矩阵 Φ_i = [U_1 Σ_1 | ... | U_i Σ_i]，其中每列按其对应的奇异值 Σ_k 缩放，以编码该方向在相应说话人遗忘过程中的重要性。然后，对该矩阵进行秩为 R_merge 的截断SVD，得到最终用于投影的累积子空间基底 U_{<i}。这确保了无论序列多长，投影计算成本保持恒定。在每次优化器步进后，位于掩码 M_i 内的权重更新量 δ 被投影到 U_{<i} 的正交补空间：δ ← δ - U_{<i} U_{<i}^⊤ δ。输入：当前序列 i 训练过程中的梯度快照；历史累积的子空间基底 U_{<i}。输出：投影后的权重更新量 δ。组件间交互：两个阶段形成级联约束。首先，参数定位（掩码 M_i）将优化搜索空间限制在一个局部化的、与当前遗忘任务相关的参数子集中。然后，在这个受约束的子空间内，正交投影进一步限制了更新向量的方向，使其避开由历史遗忘操作定义的“禁区”。这种“空间+方向”的双重约束共同作用，旨在实现对先前遗忘结果的最小干扰。 ...

Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems

📄 Rethinking Continual Learning for Speech and Audio: A Representation-Centric Taxonomy and Open Problems #持续学习 #语音识别 #多模态模型 ✅ 6.0/10 | 前50% | #语音识别 | #持续学习 | #多模态模型 | arxiv 👥 作者与机构作者：Yang Xiao, Siyi Wang, Eun-Jung Holden, Ting Dang 机构：未在论文摘要中明确说明具体机构 💡 毒舌点评观点不错，但论证力度像是在“空中楼阁”。整篇论文在概念上兜圈子，把一个很实际的工程问题（如何让大模型持续学习）包装得过于哲学化，却又拿不出任何实锤（实验）来证明这个新框架比旧框架好用。对“LALMs”的定义含糊不清，参考文献列表还有窟窿，这在严谨的顶会审稿中是重大扣分项。把现有的LALM多阶段训练直接等同于“隐式持续学习”是一个有趣的观察，但需要更严谨的分析来支撑这个类比，而不是简单映射。如果作者能补充哪怕一个简单的、基于公开模型的案例研究，用数据说话，这篇论文的说服力能上一个大台阶。 📌 核心摘要本文针对基础模型时代语音与音频领域的持续学习（CL）问题，提出了一种以“表示几何演化”为中心的新分类法。作者指出，现代语音基础模型（如wav2vec 2.0, HuBERT, Whisper）和大型音频语言模型（LALMs）学习到的高度纠缠的共享表示，使得传统CL方法（回放、正则化、架构隔离）的核心假设失效。论文据此提出了四种表示演化形式：几何保持、几何扩展、几何对齐和几何特化，并辅以“自适应位置”维度。文章进一步揭示，当前LALM的多阶段后训练流程（从文本LLM到语音对齐，再到多任务指令微调和RLHF）实质上是一种隐式的跨模态持续学习实践，其工程上的混合策略（冻结、回放、蒸馏）恰恰反映了单一方法的不足。最后，论文指出了隐私约束下的可扩展持续预训练、模态缺失下的持续学习等关键开放问题。 🔗 开源详情代码：论文中未提及提供作者团队的代码仓库。模型权重：论文中未提及提供作者团队的模型权重。论文引用了多个第三方开源基础模型，如 wav2vec 2.0、HuBERT、Whisper 等，但未提供这些模型的直接下载链接。数据集：论文中未提及作者团队发布或使用的具体数据集。论文讨论了用于预训练的大型音频语料库，但未指明具体名称。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及训练配置、检查点、附录等具体的复现材料。论文中引用的开源项目： Wav2vec 2.0：自监督语音表示模型。 HuBERT：自监督语音表示模型。 Whisper：通用语音识别模型。 LALMs：大型音频语言模型，这是一个研究方向，未指向特定单一开源项目。 LoRA：参数高效微调方法。 Adapters：参数高效微调方法。 EWC：正则化方法。 LwF：正则化方法。补充链接（自动提取）：代码仓库：https://github.com/swagshaw/Awesome-Speech-and-Audio-Continual-Learning 🏗️ 方法概述和架构本文的核心“方法”并非一个具体的算法模型，而是一个用于分析和组织语音持续学习问题的概念框架。其架构可以从两个相互正交的维度来理解： ...

语音/音乐/音频论文速递 2026-05-26

语音/音乐/音频论文速递 2026-05-26 共分析 27 篇论文 ⚡ 今日概览 📥 抓取 27 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 5篇 █████ #语音识别 3篇 ███ #音乐转录 2篇 ██ #语音情感识别 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #交叉验证 1篇 █ #语音编辑 1篇 █ 📊 论文评分排行榜（27 篇，按分数降序）排名论文评分分档主任务 🥇 Music Transcription with (Almost) No Supervision 10.0分前50% #音乐转录 🥈 Toward Native Multimodal Modeling: A Roadmap 10.0分前25% #多模态模型 🥉 Ultra-Low-Bitrate Mel-Spectrogram-based Neural Speech C 9.9分前25% #语音编码 4. Proactive for Uncertainty: Cause-Aware Error Diagnosis 9.6分前25% #语音识别 5. WaveNeXt 2: ConvNeXt-Based Fast Neural Vocoders With Re 9.4分前25% #语音合成 6. Decoding Stimulus Reconstruction-Based Auditory Attenti 8.9分前50% #交叉验证 7. Exploration of Perceptual Speech Features for Clinical 8.9分前50% #语音情感识别 8. Continual Speaker Identity Unlearning with Minimal Inte 8.6分前25% #语音合成 9. SpongeBob: Sync-Aware Harmonious Audio-Visual Generativ 8.6分前25% #语音编辑 10. FC-TTS: Style and Timbre Control in Zero-Shot Text-to-S 8.4分前50% #语音合成 11. CosyEdit2: Speech-Editing-Oriented Reinforcement Learni 8.0分前50% #语音合成 12. cSTMM: A Unified Complex Spherical Student’s \(t\) Mixtur 7.9分前50% #语音分离 13. Time Segmented Beamforming via Dynamic Programming: The 7.7分前25% #实时处理 14. Multilingual Phonological Feature Recognition with Self 7.7分前25% #语音识别 15. Rubato: Transcribing Piano Music with Timestamps 7.5分前25% #音乐转录 16. A Multimodal Framework for Dementia Detection via Lingu 7.0分前50% #语音情感识别 17. AVBench: Human-Aligned and Automated Evaluation Benchma 7.0分前50% #音频生成 18. Test-Time Self-Adaptive Conditioning for Stable Audio-D 7.0分前50% - 19. The Symmetric Location Problem: a Song of Efficiency an 6.5分前25% - 20. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 6.2分前25% #音频水印 21. Rethinking Continual Learning for Speech and Audio: A R 6.0分前50% #语音识别 22. Thaka at KSAA-2026 Task 2: Regularized Fine-Tuning for 5.5分前50% #语音增强 23. Subspace Track-before-Detect for Passive Multi-Target T 5.5分后50% #声源定位 24. Toward Natural Emotional Text-To-Speech System with Fin 5.0分前50% #语音合成 25. Zero-Shot Parkinson’s Disease Detection from Speech: Co 5.0分前50% #大语言模型 26. Score-Agnostic Structure Analysis in Large-Scale Perfor 4.1分前50% #音乐信息检索 27. StrTransformer: Source-Wise Structured Transformers for 3.3分后50% - 📋 论文列表 🥇 Music Transcription with (Almost) No Supervision 🔥 10.0/10 | 前50% | #音乐转录 | #循环一致性 | #半监督学习 #领域自适应 | arxiv ...

Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation

📄 Effective User-defined Keyword Spotting with Dual-stage Matching, Multi-modal Enrollment, and Continual Adaptation #关键词检测 #语音处理 #双阶段匹配 #多模态学习 #持续学习 #参数高效微调 ✅ 7.4/10 | 前50% | #关键词检测 | #迁移学习 | #语音处理 #双阶段匹配 | arxiv 学术质量 4.8/7 | 影响力 1.0/2 | 可复现性 1.6/2 | 置信度 0.9 👥 作者与机构 Zhiqi Ai (上海大学) Han Cheng (上海大学) Shiyi Mu (上海大学) Xinnuo Li (纽约大学) Yongjin Zhou (上海大学, 通讯作者) Shugong Xu (西安交通大学-利物浦大学, 通讯作者) 💡 毒舌点评这篇论文工作扎实，工程味浓，属于典型的“系统性优化”而非“范式革新”。作者明显深谙从学术到落地的全链路痛点：双阶段匹配的流水线设计巧妙地在通用性（CTC）和精确性（QbyT）间取得平衡；多模态注册（MAM）与参数高效微调（LoRA）的结合，直击了个性化部署中数据稀缺与效率的矛盾。实验设计覆盖面极广，从标准基准到波斯语口音等边缘场景，展现了极强的“打补丁”能力。然而，这恰恰是其主要问题：论文的创新更像是一组现有技术的精巧组合与调优，缺乏一个高屋建瓴的理论框架或令人眼前一亮的洞察。所谓“state-of-the-art”的宣称，在部分数据集上（如Qcomm）的优势微弱，且与SOTA系统的比较多停留在数值层面，缺乏对其成功或失败模式的深层分析。此外，论文篇幅冗长，方法描述虽详尽但略显啰嗦，结论部分也较为平淡，未能充分升华其贡献。它是一篇出色的系统论文，但距离一篇令人印象深刻的顶级会议论文，尚差一些思想的火花和叙事的锋芒。 📌 核心摘要本文提出了DMA-KWS，一个高效且鲁棒的用户定义关键词检测（UDKWS）框架。该框架整合了双阶段匹配、多模态注册和持续适应机制。首先，双阶段匹配管道包括一个基于CTC解码的流式音素搜索，用于定位候选音频段；随后，一个基于查询文本（QbyT）的音素匹配器对候选段进行细粒度验证，以更好地区分易混淆关键词。其次，多模态注册模块融合了关键词的文本嵌入与用户注册音频的特征，实现了说话人相关的关键词检测，利用注册音频中的口音信息提升识别准确率。最后，基于LoRA的参数高效持续适应机制，利用合成数据与真实反馈数据对模型进行轻量级微调，以快速适应新注册的关键词。大量实验表明，DMA-KWS在多个数据集上取得了具有竞争力的性能，展现了强大的零样本能力，并能以极少的参数更新实现快速定制化。 ...

Scaling few-shot spoken word classification with generative meta-continual learning

📄 Scaling few-shot spoken word classification with generative meta-continual learning #音频分类 #元学习 #持续学习 #少样本 ✅ 7.0/10 | 前50% | #音频分类 | #元学习 | #持续学习 #少样本 | arxiv 学术质量 5.5/8 | 影响力 0.6/2 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Louise Beyers 通讯作者：未说明作者列表：Louise Beyers, Batsirayi Mupamhi Ziki, Ruan van der Merwe 💡 毒舌点评本文的核心价值在于验证了生成式元持续学习（GeMCL）在语音领域处理大规模（1000类）少样本口语词分类的可行性，其展现出的极高稳定性（波动性比基线低一个数量级）和极低的适应成本（相比基线快约2000倍）是其最大亮点，为需要动态更新关键词的边缘设备场景提供了极具吸引力的方案。然而，其绝对性能在类别数较多时（>750）始终略逊于基于冻结HuBERT的基线，这使得其实用性略打折扣。更重要的是，研究仅基于单一英语数据集，且核心算法GeMCL并非本文提出，其创新更偏向于工程应用验证与实验视角，而非方法学的原创性突破。 📌 核心摘要问题：传统的少样本口语词分类（关键词检测）研究局限于少量类别，将其扩展到上千类别同时保持高效持续学习能力的潜力尚未被充分探索。方法核心：采用生成式元持续学习（GeMCL）算法。该算法结合了元学习的快速适应能力和持续学习的抗遗忘特性。其核心是一个生成式分类器，为每个词类维护一个高斯分布（由Normal-Gamma先验建模），新样本到达时通过闭式贝叶斯更新类统计量，无需重新训练整个模型。新意：首次将GeMCL应用于语音数据，并首次报告了多达1000类的少样本口语词分类结果。研究不是单纯比较算法，而是对比了“从零训练GeMCL”与“微调预训练大模型（HuBERT）”这两种策略在特定资源约束场景下的表现。主要结果：在MSWC英语数据集上，5-shot设置下：性能：当类别扩展到1000时，GeMCL的平均准确率约为75%，略低于冻结HuBERT加分类头（CH）基线的约77%（图3）。稳定性：GeMCL的逐词准确率波动（挥发性）平均仅为0.48%，远低于CH模型的7.13%和全微调模型的24.55%（表1）。效率：GeMCL的元训练和超参搜索总时间约42.84小时（单GPU），而CH和全微调基线的预训练和超参搜索时间均远超其（约2000+小时）。在面对新类时，GeMCL仅需计算统计量（约0.06小时），而基线需要完全重新微调（124-186小时）（表2）。实际意义：证明了基于元持续学习的方法在语音关键词分类任务上，能够以极低的增量成本支持大规模类别扩展，且性能稳定可预测，适合部署在需要动态更新关键词的边缘设备上。主要局限性：研究仅在英语MSWC数据集上进行；与HuBERT基线的比较存在数据源、训练方式和模型规模的差异；未对GeMCL内部组件进行消融研究。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的具体下载链接。数据集：Multilingual Spoken Words Corpus (MSWC)。获取链接：https://github.com/mozilla/CommonVoice/tree/main/multilingual#multilingual-spoken-words-corpus。论文中声明仅使用英语子集。 Demo：论文中未提及。复现材料：论文中详细描述了实验设置（如模型架构、训练步数、超参数），但未提供训练检查点、配置文件或代码仓库等可直接复现的材料。论文中引用的开源项目： Multilingual Spoken Words Corpus (MSWC)：https://github.com/mozilla/CommonVoice/tree/main/multilingual#multilingual-spoken-words-corpus HuBERT：论文引用了原始论文，但未提供其预训练权重的具体开源链接（通常可在 Hugging Face Hub 获取，但论文本身未提及）。 GeMCL：论文引用了原始论文及实现，但未提供其特定开源代码仓库链接。其他如 Prototypical Networks、AdamW 优化器等均为通用算法或工具，论文未提供特定实现链接。 🏗️ 方法概述和架构本文的核心方法是将生成式元持续学习（GeMCL）框架应用于大规模少样本口语词分类。这是一个两阶段的框架，包含元训练阶段和持续学习（适应）阶段。 ...