低秩适配 | 语音/音乐/音频论文速递

Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification

📄 Dual-LoRA: Parameter-Efficient Adversarial Disentanglement for Cross-Lingual Speaker Verification #说话人验证 #跨语言 #领域适应 #低秩适配 #参数高效微调 ✅ 7.0/10 | 前25% | #说话人验证 | #领域适应 | #跨语言 #低秩适配 | arxiv 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Qituan Shangguan（南京大学智能科学与技术学院，苏州）通讯作者：Shuai Wang（南京大学智能科学与技术学院）作者列表： Qituan Shangguan（南京大学智能科学与技术学院，苏州） Junhao Du（未说明） Kunyang Peng（上海交通大学X-LANCE实验室，计算机科学学院，上海；教育部人工智能重点实验室） Feng Xue（中国语言计算江苏重点实验室；AISpeech Co., Ltd.，苏州） Hui Zhang（中国语言计算江苏重点实验室） Xinsheng Wang（Soul AI Lab） Kai Yu（上海交通大学X-LANCE实验室，计算机科学学院；教育部人工智能重点实验室） Shuai Wang（南京大学智能科学与技术学院，苏州） 💡 毒舌点评亮点：针对跨语言说话人验证中“语言锚定对抗者”的设计思路非常清晰巧妙，通过共享判别器确保对抗梯度真正作用于语言特征，而非“误伤”说话人特征，这解决了传统对抗训练的一个核心痛点。短板：方法的通用性虽然在多个骨干网络上得到验证，但最终提交系统使用了未公开的大规模内部多语言语料进行预训练，这削弱了结论的完全可复现性，也让读者难以判断性能提升究竟多大程度上来自方法本身，多大程度上来自更优越的初始化数据。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重的具体下载链接。数据集：论文中使用了以下数据集，但未提供具体下载链接： TidyVoice Challenge dataset (TidyVoiceX)：用于官方挑战赛评测。 VoxBlink (VB) 和 VoxCeleb (VC)：用于部分实验的初始化和消融研究。 Demo：论文中未提及。复现材料：论文中提供了详细的复现配置信息，包括：训练框架：PyTorch。损失函数：Sub-center ArcMargin loss。数据增强：MUSAN 和 RIR。优化器：SGD（用于ResNet）和 AdamW（用于w2v-BERT2）。训练策略：三阶段课程训练（Curriculum Training），具体参数设置（λ₁， λ₂）在论文第2.4节有详细说明。 LoRA配置：对于不同骨干网络（如ResNet， w2v-BERT2），给出了具体的LoRA秩（r_spk， r_lang）设置。但是，论文中未提及具体的检查点、训练脚本或附录等文件的下载链接。论文中引用的开源项目： WavLM [chen2022wavlm]：自监督预训练语音模型。论文中未提供具体链接。 w2v-BERT / w2v-BERT 2.0 [chung2021w2v, barrault2023seamlessm4t]：自监督预训练语音模型。论文中未提供具体链接。 VoxCeleb [nagrani2017voxceleb]：大规模说话人识别数据集。论文中未提供具体链接。 MUSAN [snyder2015musan]：噪声数据集，用于数据增强。论文中未提供具体链接。 RIR [ko2017study]：房间脉冲响应数据集，用于数据增强。论文中未提供具体链接。 Sub-center ArcMargin loss [deng2020sub]：一种改进的度量学习损失函数。论文中未提供具体链接。 BOSARIS [brummer2013bosaris]：用于评分归一化的工具。论文中未提供具体链接。 LoRA [hu2022lora]：低秩适应方法。论文中未提供具体链接。 📌 核心摘要问题：跨语言说话人验证面临严重的“语言-说话人纠缠”问题，模型容易将语言特征误判为说话人特征，导致在最具挑战的场景（同一说话人说不同语言 vs. 不同说话人说相同语言）性能急剧下降。方法核心：提出Dual-LoRA框架。在冻结的预训练骨干网络（如w2v-BERT， ResNet）中注入两个并行的、参数独立的低秩适配器（LoRA）分支：语言分支和说话人分支。关键创新是“语言锚定对抗机制”，共享一个判别器同时用于语言分类（锚定）和对抗训练（对抗），使对抗梯度能精准针对语言特征。新意：相比传统盲式对抗解纠缠（DANN），该方法为对抗训练提供了一个“语言锚”，防止对说话人特征的无意抑制；相比全参数微调或单一LoRA，采用双分支结构实现了更解耦的适应。主要结果：在TidyVoice挑战开发集上，最佳系统达到0.91% EER；在最困难的SS-DL vs. DS-SL场景，EER从基线的5.19%大幅降低至1.62%。探针实验证明其能更彻底地移除语言信息（LID准确率降至49.02%），同时保持更优的说话人验证性能。在官方测试集上，融合系统取得第3名。配置/方法骨干网络预训练数据开发集 EER (%) 官方基线 SamResNet34 VB+VC 3.07 Sub-center ArcMargin SamResNet34 VB+VC 2.05 LoRA (No Adv) SamResNet34 VB+VC 1.66 LoRA (No Adv) SamResNet34 VB 1.57 LoRA (No Adv) SamResNet100 VB 1.25 Dual-LoRA (Ours) SamResNet100 VB 0.98 Dual-LoRA (Ours) w2v-BERT2 VB+VC 0.91 图1展示了Dual-LoRA的双通路架构：冻结的主干网络被注入了全局的、非对称的两套LoRA模块。语言分支（通路1）提取e_lang用于训练共享判别器D，建立语言边界；说话人分支（通路2）提取e_spk，其经过GRL（梯度反转层）后输入D进行对抗训练，从而迫使e_spk去除语言信息。 ...

语音/音乐/音频论文速递 2026-05-01

语音/音乐/音频论文速递 2026-05-01 共分析 21 篇论文 ⚡ 今日概览 📥 抓取 21 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 7篇 ███████ #模型评估 2篇 ██ #语音对话系统 1篇 █ #条件生成 1篇 █ #语音转换 1篇 █ #音频事件检测 1篇 █ #语音合成 1篇 █ #个性化联邦学习 1篇 █ 📊 论文评分排行榜（21 篇，按分数降序）排名论文评分分档主任务 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual spe 9.0分前25% #语音识别 🥈 MiniCPM-o 4.5: Towards Real-Time Full-Duplex Omni-Modal 8.5分前25% #语音对话系统 🥉 ABC: Any-Subset Autoregression via Non-Markovian Diffus 8.0分前25% #条件生成 4. Accent Conversion: A Problem-Driven Survey of Socioling 7.5分前50% #语音转换 5. Few-Shot Accent Synthesis for ASR with LLM-Guided Phone 7.5分前25% #语音识别 6. EdgeSpike: Spiking Neural Networks for Low-Power Autono 7.5分前25% #音频事件检测 7. JaiTTS: A Thai Voice Cloning Model 7.5分前25% #语音合成 8. Taming Noise-Induced Prototype Degradation for Privacy- 7.5分前25% #个性化联邦学习 9. MCPHunt: An Evaluation Framework for Cross-Boundary Dat 7.5分前25% #模型评估 10. Beyond the Baseband: Adaptive Multi-Band Encoding for F 7.0分前25% #生物声学 11. A Knowledge-Driven Approach to Target Speech Extraction 7.0分前50% #语音分离 12. Predicting Upcoming Stuttering Events from Three-Second 7.0分前25% #语音生物标志物 13. Dual-LoRA: Parameter-Efficient Adversarial Disentanglem 7.0分前25% #说话人验证 14. HATS: An Open data set Integrating Human Perception App 7.0分前50% #语音识别 15. Do Sparse Autoencoders Capture Concept Manifolds? 7.0分前25% #可解释性 16. BUT System Description for CHiME-9 MCoRec Challenge 6.5分前25% #语音识别 17. AppTek Call-Center Dialogues: A Multi-Accent Long-Form 6.5分前25% #语音识别 18. Qualitative Evaluation of Language Model Rescoring in A 6.5分前25% #语音识别 19. Mapping the Methodological Space of Classroom Interacti 6.0分前50% #模型评估 20. Selective Augmentation: Improving Universal Automatic P 6.0分前50% #语音识别 21. Normativity and Productivism: Ableist Intelligence? A D 3.5分后50% #语音翻译 📋 论文列表 🥇 LRS-VoxMM: A benchmark for in-the-wild audio-visual speech recognition 🔥 9.0/10 | 前25% | #语音识别 | #数据集 | #基准测试 #鲁棒性 | arxiv ...

FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation

📄 FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation #联邦学习 #语音克隆 #语音合成 #低秩适配 #个性化学习 🔥 8.0/10 | 前25% | #语音克隆 | #联邦学习 | #语音合成 #低秩适配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qi Wang（鹏城实验室；中国科学院计算技术研究所；中国科学院大学）通讯作者：未说明作者列表：Qi Wang（鹏城实验室，中国科学院计算技术研究所，中国科学院大学）、Shituo Ma（中国科学院信息工程研究所，中国科学院大学）、Guoxin Yu（鹏城实验室）、Hanyang Peng（鹏城实验室）、Yue Yu（鹏城实验室） 💡 毒舌点评亮点：论文框架设计巧妙，通过解耦“身份（ID-LoRA）”和“风格（Style-LoRA）”，并借鉴协同过滤思想进行个性化聚合，优雅地解决了联邦学习中“隐私保护-通信效率-个性化”三者间的矛盾，是一个完整且实用的系统方案。短板：实验部分缺少对最新、最强的端到端语音大模型（如GPT-SoVITS的最新版本或CosyVoice 2的直接微调基线）的深入对比，使得其“显著优于零样本方法”的结论在当前技术背景下略显单薄，也未能充分展示其在更复杂（如跨语言）场景下的泛化能力。 🔗 开源详情代码：提供了一个Hugging Face Spaces Demo链接 (https://huggingface.co/spaces/sDuoluoluos/FedPISA-Demo)，但论文未提供完整的训练或评估代码仓库链接。模型权重：论文未提及是否公开FED-PISA或其组件（如训练好的ID-LoRA、Style-LoRA）的权重。数据集：使用了四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D），并说明了数据获取与预处理方式，但未提供统一的预处理后数据包。 Demo：提供了在线演示链接。复现材料：论文非常详细地给出了模型配置（骨干版本、LoRA秩/缩放）、训练超参数（学习率、batch size、轮数、步数分配）、优化器、评估指标（包括使用的模型，如Whisper, emotion2vec, ECAPA-TDNN）和硬件环境，复现细节充分。引用的开源项目： GPT-SOVITS-V4（作为骨干）、emotion2vec（用于风格标签映射和评估）、Whisper-large-v3 Turbo（用于文本标注和WER/CER计算）、SpeechBrain（提供ECAPA-TDNN用于说话人相似度评估）。论文中未提及代码仓库链接和模型权重下载地址，但提供了Demo链接。 📌 核心摘要问题：现有联邦语音克隆（TTS）方法面临两大挑战：高昂的通信开销和对说话人风格异质性的抑制，导致个性化不足。方法核心：提出FED-PISA框架。其核心是解耦的LoRA机制：为每个客户端维护一个私有的、冻结的ID-LoRA（捕捉音色），以及一个可全局通信的、轻量的Style-LoRA（捕捉风格）。服务器端采用受协同过滤启发的个性化聚合策略，为每个客户端从风格相似的对等方学习，生成定制化的风格模型。创新点：与传统联邦TTS相比，新在：1）首次在联邦语音克隆中实现身份与风格的解耦设计，通过LoRA分离；2）引入个性化聚合算法（基于风格相似度的注意力加权），主动利用而非抑制风格异质性；3）在强大的预训练骨干（GPT-SOVITS-V4）上应用PEFT，显著提升框架的性能上限。主要实验结果：在四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D）上进行50轮联邦训练。关键结果见下表。FED-PISA在风格表达性（SE: 0.704）、说话人相似度（SS: 0.645）、自然度（nMOS: 4.08）和正确率（WER: 2.70%）上均优于所有基线，同时通信开销（45.8 GiB）远低于其他联邦方法。方法骨干 SE ↑ WER (%) ↓ SS ↑ nMOS ↑ 通信开销 (GiB) ↓ 零样本 (COSYVOICE2) - 0.659 7.20 0.619 3.84 - 本地微调 (LoRA) GPT-SOVITS-V4 0.626 3.35 0.529 3.36 - FedSpeech FASTSPEECH2 0.416 6.82 0.556 3.77 145.28 Fed Dy. Trans. TRANSFORMER-TTS 0.463 8.75 0.602 3.72 456.35 FED-PISA (Ours) GPT-SOVITS-V4 0.704 2.70 0.645 4.08 45.8 实际意义：为在隐私保护前提下，实现高效、高保真的个性化语音合成提供了一个可行的联邦学习解决方案，有助于推动语音合成技术在边缘设备和隐私敏感场景（如个人设备）中的应用。主要局限性： 1）框架假设客户端拥有可用于初始化ID-LoRA的中性语料，在纯语音交互或冷启动场景下可能受限；2）个性化聚合的计算开销随客户端数量增长，论文未讨论其可扩展性；3）未在真实的、资源异构的边缘设备集群上评估部署性能。 🏗️ 模型架构 FED-PISA是一个基于联邦学习的语音克隆框架，其整体架构分为客户端和服务器两部分，核心思想是身份-风格解耦。 ...