持续学习 | 语音/音乐/音频论文速递

Scalable Keyword Spotting via Modular Network Expansion

📄 Scalable Keyword Spotting via Modular Network Expansion 标签：#语音唤醒 #参数高效微调 #持续学习 #模型压缩 #音频理解 7.1/10 | 创新 1.4/2 | 严谨 1.3/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 7.1/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音唤醒 | #LoRA | #参数高效微调 #持续学习 | arxiv 👥 作者与机构第一作者：Viktor Khaymonenko（Yandex, Embedded Voice Input Team, Russia）通讯作者：Viktor Khaymonenko (khaymonenko@yandex-team.ru) 作者列表：Viktor Khaymonenko（Yandex, Embedded Voice Input Team, Russia）、Dzmitry Saladukha（Yandex, Embedded Voice Input Team, Belarus）、Aliaksei Rak（Yandex, Embedded Voice Input Team, Russia）、Alexander Rostov（Yandex, Embedded Voice Input Team, Russia） 💡 毒舌点评论文精准地抓住了嵌入式KWS产品迭代中的“添加新词不能翻车”这一刚性需求，提出的冻结-扩展方案在工程上干净利落，通过数学保证了核心路径的绝对安全，这点比很多持续学习工作更务实。然而，其最大的软肋在于实验仅限于一个相对简单的GSC基准，且完全不开源，使得这个本可以成为工业界宝贵参考的工作，说服力和影响力大打折扣。尽管实验设计有多个任务对，但单一数据集和模型架构的局限性依然显著。 ...

AlphaWiSE: Adaptive Weight Interpolation for Continual Multimodal Representation Learning

📄 AlphaWiSE: Adaptive Weight Interpolation for Continual Multimodal Representation Learning 标签：#音频检索 #模型融合 #多模态模型 #持续学习 #音频理解 6.4/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音频检索 | #模型融合 | #多模态模型 #持续学习 | arxiv 👥 作者与机构第一作者：Sarthak Jain（University of Illinois Urbana-Champaign）通讯作者：未说明（论文中未明确标注通讯作者）作者列表：Sarthak Jain（University of Illinois Urbana-Champaign）、Qiran Hu（University of Illinois Urbana-Champaign）、Zhen Zhu（University of Illinois Urbana-Champaign; Google DeepMind）†、Yaoyao Liu（University of Illinois Urbana-Champaign） †注：根据论文脚注，Zhen Zhu的此项工作是在其作为伊利诺伊大学厄巴纳-香槟分校博士生期间完成的，之后加入了Google DeepMind。 💡 毒舌点评论文提出了一个将不同持续学习检查点视为“乐高积木”进行后处理组合的简洁视角，方法本身简单且有启发性。然而，其实验验证严重受限于单一的小规模数据集（AudioSet的79类子集）和单一的骨干网络（AudioCLIP ViT-B/32），这极大地削弱了其结论的普适性和实际影响力。对于一篇声称改进“持续多模态表示学习”的方法论文，缺乏在更主流、更大规模的视觉-语言（而非音频-图像-文本）持续学习场景下的验证，是一个显著的硬伤。 ...

Hybrid Continual Learning for Low-Resource Australian Aboriginal Language Identification

📄 Hybrid Continual Learning for Low-Resource Australian Aboriginal Language Identification 标签：#语音识别 #持续学习 #迁移学习 #低资源 #音频理解 6.3/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.3/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音识别 | #持续学习 | #迁移学习 #低资源 | arxiv 👥 作者与机构第一作者：Pravina Mylvaganam（新南威尔士大学）通讯作者：未说明作者列表：Pravina Mylvaganam（新南威尔士大学）、Ting Dang（墨尔本大学）、Eliathamby Ambikairajah（新南威尔士大学）、Vidhyasaharan Sethu（新南威尔士大学）、Jingyao Wu（麻省理工学院） 💡 毒舌点评论文聚焦于一个具有文化保存意义的低资源任务，并尝试用混合持续学习解决微调中的遗忘问题，动机明确。然而，其核心实验建立在总时长仅约3.8小时、极度不平衡的数据上，缺乏统计显著性检验和关键消融实验，使得“100% F1”等亮眼结果的可靠性存疑，更像一次对特定数据划分的过拟合验证，而非经得起推敲的工程贡献。与当前低资源适应主流方案（如参数高效微调）的完全脱节，进一步削弱了其方法学的影响力与说服力。 ...

Traceback Translators Against Forgetting in Continual Fake Speech Detection

📄 Traceback Translators Against Forgetting in Continual Fake Speech Detection 标签：#语音伪造检测 #持续学习 #领域适应 #语音克隆 #音频理解 6.0/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.9/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.0/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音伪造检测 | #持续学习 | #领域适应 #语音克隆 | arxiv 👥 作者与机构第一作者：Enrico Gottardis 通讯作者：未说明作者列表：Enrico Gottardis、Mattia Tamiazzo、Simone Milani 机构：未明确说明，但根据致谢部分（感谢米兰理工大学的研究人员），作者可能与意大利的大学有关。 💡 毒舌点评本文提出的“域翻译器”思路清晰，在冻结主干模型的前提下，用极小的参数代价实现了抗遗忘与适应新域的有效平衡，工程实用性突出。然而，该方法本质上可视为一种特定设计的适配器（Adapter），其创新性更多体现在特定场景的应用而非架构本身。实验设计有明显缺陷：评估停留在单次任务适应，未测试经典的“任务流”持续学习场景；对比基线薄弱，缺乏与主流持续学习方法（如EWC、SI）的对比；完全未开源，严重阻碍了后续研究的验证与推进。 📌 核心摘要要解决的问题：音频伪造检测模型在持续学习新生成技术时，会对旧知识产生灾难性遗忘，而传统全模型微调和部分层微调（如BN层）均无法有效解决此问题。方法核心：提出一种“回溯域翻译器”框架。首先在源数据集（如ASVspoof 2019）上训练并冻结一个预训练检测器（定制ResNet18）。在适应新数据集时，仅在该检测器的嵌入层后插入并训练一个轻量级的翻译器网络，该网络将新域的特征向量映射回旧域的特征空间，从而复用冻结的分类头进行决策。与已有方法的新区别：与微调整个模型或仅微调BN层不同，本文只训练一个参数量极少（21K）的带瓶颈和残差连接的全连接翻译器。通过组合分类损失、CORAL损失（对齐新旧域特征的整体分布）和原型一致性损失（缩小同类样本原型距离）来引导映射。主要实验结果：方法目标数据集平均性能 (AUC) 源数据集(ASV19)保留性能 (AUC/EER) 训练参数量全模型重训 ~99.9% 61.2%/43.2% (严重遗忘) 11095K 域适应 (BN重训) ~97.7% 63.1%/40.7% (显著遗忘) 10K 域翻译 (本文) ~96.5% 95.0%/9.74% (无遗忘) 21K CL ALL [23] ~99.4% 94.0%/13.6% (轻微遗忘) 5556K 本文方法在保持源数据集性能几乎不变的前提下，在新数据集上取得了有竞争力的检测性能，且在跨语言（中文）场景下同样有效。实际意义：为音频伪造检测系统的实际部署提供了一种高效的、低成本的模型持续更新方案，无需存储旧数据，便于模型随攻击技术演进持续更新。主要局限性：评估局限于单次任务适应，未测试连续多个新任务序列；与更先进的持续学习方法对比不足；未开源任何代码、模型或数据。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中未提及数据集获取链接。实验中使用的数据集（ASVspoof 2019, FakeOrReal, In-The-Wild, ADD 2022）为公开基准数据集，但论文未提供具体下载地址或开源协议信息。 Demo：论文中未提及在线演示链接。复现材料：论文中未提及可下载的训练检查点、配置文件或补充材料链接。论文中引用的开源项目：论文中未直接引用带有明确代码仓库链接的开源项目。但提及使用了以下技术或架构的参考文献：扩散模型实现 [10], 2D U-Net 架构 [22], ResNet18 [7], AST [6], ConvNeXT-Tiny [13], EfficientNet [25], MobileNet [9]。 🏗️ 方法概述和架构本文提出的持续学习框架旨在系统性地解决音频伪造检测模型在适应新伪造技术时遇到的灾难性遗忘问题。其核心创新在于引入一个轻量级的“回溯域翻译器”模块，在冻结预训练检测器主体参数的前提下，实现新旧数据特征空间的对齐，从而在保留旧知识的同时有效学习新知识。该框架是一个清晰的两阶段模块化流程，其详细架构与数据流如下所述。 ...

Unified Gradient Projection: Language-Balanced Continual Learning for Multilingual Low-Resource ASR

📄 Unified Gradient Projection: Language-Balanced Continual Learning for Multilingual Low-Resource ASR 标签：#语音识别 #持续学习 #多语言 #低资源 #音频理解 7.2/10 | 创新 1.3/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.1/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 ✅ 7.2/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #持续学习 | #多语言 #低资源 | arxiv 👥 作者与机构第一作者：Ziang Ren（清华大学电子工程系）通讯作者：Wei-Qiang Zhang（清华大学电子工程系）作者列表：Ziang Ren（清华大学电子工程系）、Guodong Lin（清华大学电子工程系）、Yuchen Ai（清华大学电子工程系）、Kaize Tan（清华大学电子工程系）、Wei-Qiang Zhang（清华大学电子工程系） 💡 毒舌点评本文提出了一套面向多语言低资源ASR的持续学习框架UGP，其核心是“语言平衡梯度投影”与“经验回放”的协同。该框架在Whisper-large-v3上实现了FWER仅为0.04%的出色结果，实验设计全面，具有明确的工程参考价值。然而，其创新本质是对已有梯度投影技术（A-GEM）的关键改进（引入语言平衡采样）与经验回放的有效整合，而非提出全新范式，算法层面的突破有限。更关键的是，论文完全未承诺开源任何代码或模型，这严重阻碍了其可复现性和社区影响力的发挥，使其贡献更像是一份出色的实验报告，而非可被社区广泛采用和推进的基础方法。 ...

Few-Shot Class-Incremental Audio Classification Using Pseudo-Incrementally Trained Embedding Learner and Continually Updated Stochastic Classifier

📄 Few-Shot Class-Incremental Audio Classification Using Pseudo-Incrementally Trained Embedding Learner and Continually Updated Stochastic Classifier #持续学习 #音频分类 6.3/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.5/1.5 ✅ 6.3/10 | 前50% | #音频分类 | #持续学习 | arxiv 👥 作者与机构第一作者：Yanxiong Li（华南理工大学电子与信息工程学院）通讯作者：Yanxiong Li（华南理工大学电子与信息工程学院）作者列表：Yanxiong Li（华南理工大学电子与信息工程学院）、Wenchang Cao（华南理工大学电子与信息工程学院）、Jiaxin Tan（华南理工大学电子与信息工程学院）、Qianqian Li（华南理工大学电子与信息工程学院）、Guoqing Chen（华南理工大学电子与信息工程学院） 💡 毒舌点评本文在音频少样本类增量学习（FCAC）领域交出了一份工整的答卷。通过“冻结的嵌入网络+动态更新的随机分类器”这一解耦范式，将稳定性-可塑性困境拆解为两个独立模块，逻辑清晰、实验详尽。然而，方法新颖性严重依赖计算机视觉领域的成熟技术（MixUp模拟增量类 + 高斯分布建模分类器权重），本质上是已有思想到音频任务的稳健工程迁移，而非方法论层面的突破。声称的“伪增量训练”严格依赖基类数据的线性混合，在增量类与基类差异显著的开放场景下泛化性存疑。整体而言，这是一篇定位精准、执行扎实的会议扩展期刊稿，技术增量有限，但在其细分领域提供了有价值的工程基线。 ...

Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning

📄 Cross Domain Few-Shot Class-Incremental Audio Classification Via Adversarial Contrastive Learning #音频分类 #对抗训练 #对比学习 #持续学习 7.4/10 | 创新 1.3/2 | 严谨 1/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1.3/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 7.4/10 | 前50% | #音频分类 | #对抗训练 | #对比学习 #持续学习 | arxiv 👥 作者与机构第一作者：Yongjie Si（华南理工大学电子与信息工程学院，广州）通讯作者：Yanxiong Li（华南理工大学电子与信息工程学院，广州）作者列表：Yongjie Si、Yanxiong Li、Sen Huang、Beibei Liu（均隶属于华南理工大学电子与信息工程学院） 💡 毒舌点评本文首次在音频分类中形式化跨域少样本类增量学习（CD-FCAC）问题，并用对抗训练和对比学习给出直接解法，立意实用。然而，方法核心是将CV领域的域泛化策略（网络随机化+Wasserstein-style对抗训练）和监督对比学习套用至音频，技术深度有限；且仅靠谱图扰动模拟域偏移，在物理声学上缺乏依据。实验仅在三个公开数据集的六组域对上验证，回避了真实场景中的录音设备、声学环境等复杂域偏移，结论迁移性存疑。平均准确率作为主指标过于粗糙，掩盖了模型在增量后期的灾难性遗忘问题。 📌 核心摘要问题：解决跨域少样本类增量音频分类（CD-FCAC）。基类样本来自源域，增量类样本来自存在域偏移的目标域，且每类仅有少量样本（如K-shot）。方法核心：提出对抗对比训练策略。在基类训练阶段，使用谱扰动器对源域log-Mel谱图施加随机卷积扰动，并通过梯度上升最大化基于Wasserstein距离松弛的对抗损失，生成语义一致的伪目标域样本；随后联合源域和生成的对抗样本，最小化标准交叉熵与监督对比损失的组合目标，迫使编码器学习域不变且类内紧凑、类间可分的高区分度嵌入。增量阶段，冻结编码器以保留知识，仅用旧类嵌入均值和新类样本更新分类器。与已有方法的新颖之处：首次在FCAC框架内显式处理源域与目标域分布差异，将单源域泛化的对抗训练与监督对比学习结合，为少样本增量学习提供域鲁棒的特征表示。主要实验结果：在由LS-100、NSynth-100、FSC-89构造的六组跨域对上进行5-way 5-shot实验，方法在平均准确率（AA）上均超过对比基线（如NS→LS上79.09%，对比最佳基线AMFO+AFA的78.50%）。实际意义：为智能家居、机器人等场景中，需要从不同域持续识别少量新音频类别的应用提供了一种轻量级方案。主要局限性：域偏移仅通过谱图对抗扰动近似，未验证其对真实声学物理因素（录音设备、混响、噪声等）的模拟能力；冻结编码器策略完全放弃从目标域学习，限制性能上限；未探讨多源域或域标签未知的更复杂情形。 🔗 开源详情代码：https://github.com/YongjieSi/ACL （论文公开）模型权重：未提及数据集：LS-100, NSynth-100, FSC-89，均在ModelScope公开： https://www.modelscope.cn/datasets/pp199124903/LS-100/summary https://www.modelscope.cn/datasets/pp199124903/FSC-89/summary https://www.modelscope.cn/datasets/pp199124903/NSynth-100/summary Demo：未提及复现材料：未提及 🏗️ 方法概述和架构该方法将CD-FCAC问题分解为基类训练（m=0）与增量训练（1≤m≤M-1）两个阶段。模型由编码器（如ResNet-18）、分类器（权重向量为 \(\{c_{y_j}\}\)）和一个专用于数据增强的谱扰动器（Spectral Disruptor）构成。输入音频被转换为128维log-Mel谱图。 ...

Domain-incremental audio classification using domain-specific experts and prototype classifier

📄 Domain-incremental audio classification using domain-specific experts and prototype classifier #持续学习 9/10 | 创新 1.5/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 0/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 9/10 | 前50% | #音频分类 | #持续学习 | arxiv 👥 作者与机构未提及 💡 毒舌点评这篇技术报告为DCASE 2026 Task 7提供了一个针对竞赛规则的有效工程解决方案，但其作为一项独立研究的价值非常有限。论文的核心创新点（冻结特征重放、回归插补）是巧妙的工程技巧，但缺乏对领域增量学习根本问题的深入理论探讨或新颖的方法论突破。实验部分几乎完全服务于验证其竞赛系统的有效性，缺少必要的消融研究来理解每个组件的真实贡献。论文在报告方法时清晰，但在讨论相关工作、分析失败案例以及阐述更广泛意义上局限性方面极为不足。这更像一份合格的“竞赛提交说明书”，而非一篇旨在推动社区认知的科研论文。 📌 核心摘要本文针对DCASE 2026 Task 7（领域增量音频分类）问题，提出了一种基于冻结特征重放的解决方案。该任务要求在三个领域（D1音频未提供，D2和D3音频提供）顺序到达的限制下，完成对10类声音事件的分类。作者将领域增量学习问题转化为冻结特征重放问题：在每个领域顺序训练并冻结多个基于不同架构和训练策略（如微调、DeepInversion生成重放、从头训练）的领域专家网络；为了解决因领域顺序到达导致的特征维度缺失问题（例如D2样本无法通过D3专家），训练一个回归插补模型，仅基于所有专家特征都可观察的样本（即D3样本）来预测缺失的专家特征；最后，将所有冻结专家的倒数第二层特征拼接，在缓存的特征上训练一个轻量级的、基于余弦相似度和可学习温度缩放的原型分类器。该方法在DCASE 2026 Task 7开发集上取得了显著高于官方基线的结果，验证了其在特定竞赛约束下的有效性。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：使用的是 DCASE 2026 Task 7 的数据集。论文中未提及具体获取链接，也未提及开源协议。 Demo：论文中未提及。复现材料：论文提供了详细的系统架构、超参数配置和实验设置（例如：音频处理参数（32kHz单声道，4秒，64-bin对数梅尔频谱图）、网络结构（CNN14、CRNN-light、FDY-CNN14）、训练设置（使用Adam优化器，学习率 \(10^{-3}\)，批大小64，训练200轮，余弦调度）以及原型分类器和回归插补器的实现细节）。但未提供具体的模型检查点或可直接运行的脚本。论文中引用的开源项目： CNN14 (基于CNN14架构)：论文引用了文献[6]，但未提供该架构的代码仓库链接。 DeepInversion (生成式回放)：论文引用了文献[14]，但未提供其实现代码的仓库链接。 FDY-CNN14 (基于CNN14架构的变体)：论文引用了文献[8]，但未提供其实现代码的仓库链接。 CRNN-light：论文未提供其具体实现链接。（注：以上均为论文引用的学术方法或模型名称，其具体的开源代码仓库链接在论文中均未提及。） 🏗️ 方法概述和架构本文提出的系统架构旨在严格遵守领域增量学习的数据访问限制，其核心是“冻结多专家+缓存特征+原型分类器”的框架。整个系统由五个领域专家网络、一个回归插补器和一个原型分类器头组成。 ...

FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS

📄 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS #语音合成 #语音增强 #参数高效微调 #持续学习 #低资源 #数据增强 #多语言 10/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 10/10 | 前25% | #语音合成 | #参数高效微调 | #语音增强 #持续学习 | arxiv 👥 作者与机构作者：Harshit Singh (1), Ayush Pratap Singh (2), Nityanand Mathur (3) 机构：1 University Of Maryland, 2 TU Darmstadt, 3 Smallest AI 联系邮箱：nityanandmathur@gmail.com ...

语音/音乐/音频论文速递 2026-06-19

语音/音乐/音频论文速递 2026-06-19 共分析 40 篇论文 ⚡ 今日概览 📥 抓取 40 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 10篇 ██████████ #语音识别 8篇 ████████ #语音转换 2篇 ██ #语音增强 2篇 ██ #自监督学习 2篇 ██ #说话人验证 1篇 █ #模型压缩 1篇 █ #多模态模型 1篇 █ 📊 论文评分排行榜（40 篇，按分数降序）排名论文总分分档主任务 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation 10.0分前25% #语音合成 🥈 Low-Burden Data Augmentation for Dysarthric ASR via Zer 8.7分前25% #语音识别 🥉 S-JEPA : Soft Clustering Anchors for Self-Supervised Sp 8.7分前25% #语音识别 4. Personalized Keyword Spotting for User-Defined Keywords 8.6分前25% #说话人验证 5. FlowFake: Liquid Networks for Audio Deepfake Detection 8.5分前25% #模型压缩 6. Systematic Study of Dysarthric Speech Recognition: Spec 8.3分前50% #语音识别 7. PerceptionDLM: Parallel Region Perception with Multimod 8.1分前25% #多模态模型 8. RIVET: Robust Idempotent Voice Attribute Editing 8.0分前50% #语音转换 9. Repurposing a Speech Classifier for Guided Diffusion-Ba 7.9分前50% #语音合成 10. Exploring Feature Extraction Technique Parameters for A 7.9分前50% #音频事件检测 11. Transcript-Free Flow-Matching Text-to-Speech via Speech 7.7分前25% #语音合成 12. How Do Instructions Shape Speech? Cross-Attention Attri 7.7分前50% #语音合成 13. Hybrid Diffusion Transformer for Instruction-Guided Aud 7.6分前50% #Transformer 14. Improving Code-Switching ASR with Code-Mixing Guided Sy 7.6分前25% #语音识别 15. PolSeT: Polish Semantics of Timbre Dataset 7.5分后50% - 16. IHBench: Evaluating Post-Interruption Recovery in Voice 7.5分前25% #语音对话系统 17. A Survey of Full-Duplex Spoken Dialogue Systems: Archit 7.4分前50% #语音合成 18. PhysDrift: Bridging the Embodiment Gap in Humanoid Co-S 7.4分前50% #语音合成 19. PrefSQA: Pairwise Preference Prediction for Speech Qual 7.3分前50% #语音质量评估 20. Latency-Configurable Streaming Speech Enhancement via A 7.2分前50% #语音增强 21. A Comparative Study of Pretrained Transformer Models fo 7.2分前50% #语音识别 22. Pitch Spelling Jazz Lead Sheets, Solo Transcriptions, C 7.2分前50% - 23. Stuttering Classification and Segmentation with Attenti 7.0分前50% - 24. Time-Unconditional Generative Speech Enhancement via Au 7.0分前25% #语音增强 25. Investigating Human-Model Discrepancies in Speech Quali 6.9分前25% #语音合成 26. Prismriver: Formalization of Music Theory and Algorithm 6.9分前50% - 27. NEST: Narrative Event Structures in Time for Long Video 6.8分前50% - 28. Cross-Dataset, Age, and Gender Generalization: A Compre 6.7分前50% #语音识别 29. Exploring Pre-training Benefits on Phoneme Addition thr 6.7分前50% - 30. Analyzing Language and Geographical Variation in Speech 6.5分前50% #语音识别 31. Improving End-to-End Speech Recognition for Dysarthric 6.5分前50% #语音识别 32. Segment-Level Mandarin Chinese Speech-Based Cognitive I 6.5分前50% #对比学习 33. Light-weight Pronunciation Assessment via Discrete Spee 6.4分前50% #自监督学习 34. ReNikud: Audio-Supervised Hebrew Grapheme-to-Phoneme Co 6.2分前50% #语音合成 35. Zero-VC: Zero-Lookahead Streaming Voice Conversion via 6.1分前50% #语音转换 36. MixProLAP: Mixture-Induced Uncertainty Modeling for Pro 5.7分前50% #音频检索 37. MaineCoon: Pursuing A Real-Time Audio-Visual Social Wor 5.7分前50% #语音合成 38. Leveraging systems' non-linearity to tackle the sca 5.5分后50% #数据增强 39. Interpreting Content and Speaker Characteristics in Fac 5.0分后50% #语音合成 40. Beyond Speaker Independence: Evaluating Cross-Lingual A 4.9分后50% #自监督学习 📋 论文列表 🥇 FlowEdit: Associative Memory for Lifelong Pronunciation Adaptation in Flow-Matching TTS 10.0/10 | 创新 2/2 | 严谨 1.5/1.5 | 实验 1.5/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...