联邦学习 | 语音/音频论文速递

Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity

📄 Trustworthy Federated Label Distribution Learning under Annotation Quality Disparity #标签分布学习 #联邦学习 #质量自适应 #基准测试 #鲁棒性 🔥 8.0/10 | 前25% | #标签分布学习 | #联邦学习 | #质量自适应 #基准测试 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Junxiang Wu 通讯作者：未说明（论文中未明确标注）作者列表：Junxiang Wu、Zhiqiang Kou、Hongwei Zeng、Wenke Huang、Biao Liu、Hanlin Gu、Yuheng Jia、Di Jiang、Yang Liu、Xin Geng、Qiang Yang（所有作者所属机构在提供的论文文本中均未明确说明） 💡 毒舌点评亮点在于将联邦学习的信任问题与标签分布学习的模糊性巧妙结合，并用一个优雅的理论（定理3.1）证明了“因材施教”（自适应校准）的必要性，避免了粗糙的一刀切方法。短板是质量指标\(q_m\)的定义（基于标注者数量）在现实中可能过于简化且难以准确获取，论文中对其局限性的讨论（附录F.1）虽坦诚，但也暴露了该框架落地时的一个潜在阿喀琉斯之踵。 📌 核心摘要这篇论文研究了联邦标签分布学习（Fed-LDL）中因客户端标注质量异质性导致的信任困境：低质量客户端的不可靠本地更新会污染全局模型，而传统的按样本量聚合策略会放大此问题。为解决此问题，论文提出了FedQual框架，其核心包含两个耦合机制：（1）客户端侧，引入全局语义锚点（GSA）作为参考，并设计一个质量自适应校准权重，对低质量客户端施加更强校准，同时保留高质量客户端的自主性；（2）服务器侧，提出一种渐进式、可靠性感知的聚合策略，根据有效可靠信息（样本量×质量）而非原始样本量来加权客户端贡献。理论分析证明，在质量异质性下，客户端特定校准严格优于任何统一校准。为进行严格评估，论文构建了四个新的Fed-LDL基准数据集（FER-LDL, FI-LDL, PIPAL-LDL, KADID-LDL）。在四个基准上的广泛实验表明，FedQual在多种指标下均优于包括FedAvg、FedProx、MOON在内的多种基线方法，并且对噪声比例、标签分布偏斜、联邦规模变化等具有强鲁棒性。该工作的实际意义在于为医疗、情感分析等隐私敏感领域中的联邦协作学习提供了更可靠的方法。主要局限性在于当前质量指标\(q_m\)依赖于外部标注者数量信息，可能无法完全反映标注的真实保真度。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：论文中创建并承诺发布四个新的Fed-LDL基准数据集：FER-LDL、FI-LDL、PIPAL-LDL 和 KADID-LDL。论文正文（摘要、结论）和附录F.2节均明确指出将发布这些数据集，但未提供具体的下载链接或托管平台地址。这些基准数据集基于公开的原始数据集构建，原始数据集信息如下： FER2013 (情感识别)：原始数据集链接见论文引用 (Goodfellow et al., 2015)。 FI (情感识别)：原始数据集链接见论文引用 (You et al., 2016)。 KADID-10k (图像质量评估)：原始数据集链接见论文引用 (Lin et al., 2019)。 PIPAL (图像质量评估)：原始数据集链接见论文引用 (Gu et al., 2020)。新基准构建细节：论文在附录D中提供了完整的标注协议、指南和从原始数据生成标签分布的方法，但未提供新基准数据集的直接下载地址。 Demo：论文中未提及。复现材料：论文在附录B中提供了完整的实验设置和实现细节，包括：软件/硬件：PyTorch，8块NVIDIA RTX 4090 GPU。模型架构：ResNet-18 backbone。训练配置：每轮本地训练5个epoch，使用SGD优化器（学习率0.01，动量0.9，权重衰减10^{-4}），本地批次大小16，总通信轮次100。损失函数：KL散度（公式B.1）。 FedQual超参数：β=5, λ0=0.5, γ_temp=1 (附录B.4)。评估指标：六种标准LDL指标（Chebyshev, Clark, Canberra, KL, Cosine, Intersection）。作者承诺：在附录F.2中明确表示“将发布我们的源代码、训练脚本和四个新构建的Fed-LDL基准”，但未给出具体的代码仓库或检查点链接。论文中引用的开源项目：未提及具体开源项目链接。论文中作为基线方法引用了以下框架，但未提供其代码链接：FedAvg, FedProx, MOON, FedRDN, FedGloSS。论文中使用的原始公开数据集（FER2013, FI, KADID-10k, PIPAL）在参考文献中提供了来源，但未在正文中列出具体URL。 🏗️ 模型架构 FedQual是一个用于联邦标签分布学习（Fed-LDL）的框架，旨在解决客户端间标注质量差异带来的挑战。其整体架构围绕客户端-服务器范式展开，并集成了质量感知的双端优化机制。 ...

Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data

📄 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data #联邦学习 #强化学习 #音频分类 #对抗样本 #鲁棒性 ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Rene Glitza（波鸿鲁尔大学通信声学研究所）通讯作者：论文中未明确指出，未说明作者列表：Rene Glitza（波鸿鲁尔大学通信声学研究所）、Luca Becker（波鸿鲁尔大学通信声学研究所）、Rainer Martin（波鸿鲁尔大学通信声学研究所） 💡 毒舌点评本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策，构建了一个能同时“抵御坏人”和“发展个性”的自适应系统，实验设计考虑了三种非独立同分布场景和对抗设置，相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务，就宣称“适用于真实世界部署”略显仓促，且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比，说服力打了折扣。 🔗 开源详情代码：论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。模型权重：未提及公开模型权重。数据集：实验使用DCASE Task 2数据集，但论文未说明是否公开处理后的数据集或如何获取，仅提及了原始数据集来源。 Demo：未提供在线演示。复现材料：论文提供了部分训练细节（网络结构、超参数、数据集描述），但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。论文中引用的开源项目：论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等，表明实现可能依赖这些概念或现有库。 📌 核心摘要本文旨在解决联邦学习在非独立同分布数据下全局模型性能下降及模型偏差问题，以及对抗性客户端威胁模型鲁棒性的挑战。核心方法是提出pFedMARL，一个多智能体强化学习框架，使用Twin Delayed DDPG（TD3）算法。该框架包含一个服务器端代理，动态调整客户端聚合权重以优化全局模型鲁棒性；以及客户端代理，平衡全局与局部更新以实现个性化模型，且无需预训练代理。与传统方法（如FedAvg）相比，其新在将联邦学习过程建模为多智能体协同决策问题，实现了聚合策略的动态自适应。与Ditto相比，其新在通过强化学习自动学习个性化平衡参数，并额外增强了对抗鲁棒性。主要实验结��（见下表）表明，在三种非独立同分布数据场景下，pFedMARL在本地数据和全局数据上的MSE和F1-score指标上均优于或媲美FedAvg和Ditto，并能有效抑制对抗性客户端的影响。其实际意义在于为隐私敏感、数据异构的真实世界（如IoT设备协同训练）提供了一个灵活、可扩展的联邦学习解决方案。主要局限性在于验证局限于单一的半监督音频预训练任务，且缺乏对更多标准联邦学习基准（如计算机视觉数据集）的验证。 ...

FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation

📄 FED-PISA: Federated Voice Cloning Via Personalized Identity-Style Adaptation #联邦学习 #语音克隆 #语音合成 #低秩适配 #个性化学习 🔥 8.0/10 | 前25% | #语音克隆 | #联邦学习 | #语音合成 #低秩适配学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度高 👥 作者与机构第一作者：Qi Wang（鹏城实验室；中国科学院计算技术研究所；中国科学院大学）通讯作者：未说明作者列表：Qi Wang（鹏城实验室，中国科学院计算技术研究所，中国科学院大学）、Shituo Ma（中国科学院信息工程研究所，中国科学院大学）、Guoxin Yu（鹏城实验室）、Hanyang Peng（鹏城实验室）、Yue Yu（鹏城实验室） 💡 毒舌点评亮点：论文框架设计巧妙，通过解耦“身份（ID-LoRA）”和“风格（Style-LoRA）”，并借鉴协同过滤思想进行个性化聚合，优雅地解决了联邦学习中“隐私保护-通信效率-个性化”三者间的矛盾，是一个完整且实用的系统方案。短板：实验部分缺少对最新、最强的端到端语音大模型（如GPT-SoVITS的最新版本或CosyVoice 2的直接微调基线）的深入对比，使得其“显著优于零样本方法”的结论在当前技术背景下略显单薄，也未能充分展示其在更复杂（如跨语言）场景下的泛化能力。 🔗 开源详情代码：提供了一个Hugging Face Spaces Demo链接 (https://huggingface.co/spaces/sDuoluoluos/FedPISA-Demo)，但论文未提供完整的训练或评估代码仓库链接。模型权重：论文未提及是否公开FED-PISA或其组件（如训练好的ID-LoRA、Style-LoRA）的权重。数据集：使用了四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D），并说明了数据获取与预处理方式，但未提供统一的预处理后数据包。 Demo：提供了在线演示链接。复现材料：论文非常详细地给出了模型配置（骨干版本、LoRA秩/缩放）、训练超参数（学习率、batch size、轮数、步数分配）、优化器、评估指标（包括使用的模型，如Whisper, emotion2vec, ECAPA-TDNN）和硬件环境，复现细节充分。引用的开源项目： GPT-SOVITS-V4（作为骨干）、emotion2vec（用于风格标签映射和评估）、Whisper-large-v3 Turbo（用于文本标注和WER/CER计算）、SpeechBrain（提供ECAPA-TDNN用于说话人相似度评估）。论文中未提及代码仓库链接和模型权重下载地址，但提供了Demo链接。 📌 核心摘要问题：现有联邦语音克隆（TTS）方法面临两大挑战：高昂的通信开销和对说话人风格异质性的抑制，导致个性化不足。方法核心：提出FED-PISA框架。其核心是解耦的LoRA机制：为每个客户端维护一个私有的、冻结的ID-LoRA（捕捉音色），以及一个可全局通信的、轻量的Style-LoRA（捕捉风格）。服务器端采用受协同过滤启发的个性化聚合策略，为每个客户端从风格相似的对等方学习，生成定制化的风格模型。创新点：与传统联邦TTS相比，新在：1）首次在联邦语音克隆中实现身份与风格的解耦设计，通过LoRA分离；2）引入个性化聚合算法（基于风格相似度的注意力加权），主动利用而非抑制风格异质性；3）在强大的预训练骨干（GPT-SOVITS-V4）上应用PEFT，显著提升框架的性能上限。主要实验结果：在四个公开数据集（ESD, EmoV-DB, RAVDESS, CREMA-D）上进行50轮联邦训练。关键结果见下表。FED-PISA在风格表达性（SE: 0.704）、说话人相似度（SS: 0.645）、自然度（nMOS: 4.08）和正确率（WER: 2.70%）上均优于所有基线，同时通信开销（45.8 GiB）远低于其他联邦方法。方法骨干 SE ↑ WER (%) ↓ SS ↑ nMOS ↑ 通信开销 (GiB) ↓ 零样本 (COSYVOICE2) - 0.659 7.20 0.619 3.84 - 本地微调 (LoRA) GPT-SOVITS-V4 0.626 3.35 0.529 3.36 - FedSpeech FASTSPEECH2 0.416 6.82 0.556 3.77 145.28 Fed Dy. Trans. TRANSFORMER-TTS 0.463 8.75 0.602 3.72 456.35 FED-PISA (Ours) GPT-SOVITS-V4 0.704 2.70 0.645 4.08 45.8 实际意义：为在隐私保护前提下，实现高效、高保真的个性化语音合成提供了一个可行的联邦学习解决方案，有助于推动语音合成技术在边缘设备和隐私敏感场景（如个人设备）中的应用。主要局限性： 1）框架假设客户端拥有可用于初始化ID-LoRA的中性语料，在纯语音交互或冷启动场景下可能受限；2）个性化聚合的计算开销随客户端数量增长，论文未讨论其可扩展性；3）未在真实的、资源异构的边缘设备集群上评估部署性能。 🏗️ 模型架构 FED-PISA是一个基于联邦学习的语音克隆框架，其整体架构分为客户端和服务器两部分，核心思想是身份-风格解耦。 ...

ICASSP 2026 - 联邦学习论文列表

ICASSP 2026 - 联邦学习共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive 7.0分前50% 📋 论文详情 🥇 Cooperative Multi-Agent Reinforcement Learning for Adaptive Aggregation in Semi-Supervised Federated Learning with non-IID Data ✅ 7.0/10 | 前50% | #联邦学习 | #强化学习 | #音频分类 #对抗样本 👥 作者与机构第一作者：Rene Glitza（波鸿鲁尔大学通信声学研究所）通讯作者：论文中未明确指出，未说明作者列表：Rene Glitza（波鸿鲁尔大学通信声学研究所）、Luca Becker（波鸿鲁尔大学通信声学研究所）、Rainer Martin（波鸿鲁尔大学通信声学研究所） 💡 毒舌点评本文巧妙地将TD3算法应用于联邦学习的服务器与客户端双层决策，构建了一个能同时“抵御坏人”和“发展个性”的自适应系统，实验设计考虑了三种非独立同分布场景和对抗设置，相当全面。但实验仅局限于一个450k参数的小型音频Transformer预训练任务，就宣称“适用于真实世界部署”略显仓促，且未与同样使用强化学习的FedAA、FedDRL进行充分直接的性能对比，说服力打了折扣。 🔗 开源详情代码：论文中提及代码仓库链接为 github.com/NexuFed/pFedMARL。模型权重：未提及公开模型权重。数据集：实验使用DCASE Task 2数据集，但论文未说明是否公开处理后的数据集或如何获取，仅提及了原始数据集来源。 Demo：未提供在线演示。复现材料：论文提供了部分训练细节（网络结构、超参数、数据集描述），但缺少完整的配置文件、训练脚本、环境依赖列表和检查点。论文中引用的开源项目：论文引用了Twin Delayed DDPG (TD3)算法[12]、优先级经验回放[19]、Audio Spectrogram Transformer (AST)[17, 18]等，表明实现可能依赖这些概念或现有库。 📌 核心摘要 ...