Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation
📄 Bandwidth-Efficient and Privacy-Preserving Edge-Cloud Many-to-Many Speech Translation #语音翻译 #多语言 #大语言模型 #课程学习 #参数高效微调 🔥 8.1/10 | 前25% | #语音翻译 | #课程学习 | #多语言 #大语言模型 | arxiv 学术质量 5.1/7 | 影响力 1.5/2 | 可复现性 1.5/2 | 置信度 高 👥 作者与机构 作者:Yexing Du, Kaiyuan Liu, Youcheng Pan, Bo Yang, Ming Liu, Bing Qin, Yang Xiang 机构:哈尔滨工业大学(深圳),鹏城实验室 💡 毒舌点评 这篇论文试图在一个“不可能三角”——隐私、带宽、性能——上找到一个实用的平衡点,其工程野心和目标是值得肯定的。ESRT框架通过将推理拆分,将重量级的LLM留在云端,仅在边缘传输压缩的特征,这是一个直观且有效的工程解决方案。论文在FLEURS数据集上展示了强大的实验结果,尤其是ESRT-4B模型以较小的参数量超越了之前许多更大的模型,证明了其训练策略的有效性。开源代码和模型也值得鼓励。 然而,其核心创新点——边缘-云分割和特征压缩——在概念上并非开创性的,更偏向于系统优化和工程实现。论文声称的“隐私保护”主要基于信息压缩导致的重建困难(见图10),这是一种弱化的安全假设,而非经过严格密码学或对抗攻击验证的保障。对于顶会论文而言,这种论证略显单薄。实验虽然全面,但缺少在真实、动态的网络环境和多样化的边缘硬件上进行端到端延迟和功耗测试,这使得“边缘计算”的宣称有些理想化。整体而言,这是一篇扎实的系统论文,但理论深度和安全验证的严谨性有待加强。 📌 核心摘要 本文提出了ESRT(Edge-cloud Speech Recognition and Translation),一个隐私保护且带宽高效的边缘-云协同多方语音转文本翻译(S2TT)框架。该框架采用分割推理架构:在边缘设备部署轻量级的Whisper语音编码器和基于Q-Former的语音适配器,仅将高度压缩的声学特征(40或80个token)传输至云端,由云端大型语言模型(LLM,基于MiLMMT/Gemma-3)完成翻译解码。为支持45种语言的多方翻译并克服英语中心偏见,论文引入了改进的多任务加权课程学习策略(分三阶段,动态整合ASR、SMT、SRT任务)。在FLEURS数据集上的实验表明,ESRT-4B和ESRT-12B在45×44个翻译方向上达到了当时的最先进(SOTA)性能,显著优于多种基线模型,并证明了框架在隐私(防止声纹泄露)和带宽(高达15.6倍压缩)方面的有效性。 🔗 开源详情 代码:https://github.com/yxduir/esrt 模型权重:论文中承诺开源模型,并指向同一GitHub仓库(https://github.com/yxduir/esrt),但未单独列出HuggingFace或ModelScope等托管平台的权重下载链接。 数据集: FLEURS: https://huggingface.co/datasets/google/fleurs CommonVoice 24: https://datacollective.mozillafoundation.org/datasets?q=common+voice CoVoST-2: https://github.com/facebookresearch/covost Demo:论文中未提及。 复现材料:论文中提供了详细的训练配置(表I, II, III, V),并声称开源训练和推理框架。完整的训练脚本、依赖环境及详细文档可能包含在代码仓库中,但未提供独立的复现指南链接。 论文中引用的开源项目: Whisper: 来自OpenAI,论文中未提供GitHub链接。 NLLB-200: 作为对比基线,论文中未提供项目链接。 LLaMAX3: 作为对比基线,论文中未提供项目链接。 SeamlessM4T-V2: 作为对比基线,论文中未提供项目链接。 MiLMMT: 作为基础LLM,源自Gemma-3,论文中未提供MiLMMT的具体代码链接。 Gemma-3: 作为基础模型,论文中未提供其具体链接。 LoRA: 作为微调方法,论文中未提供具体实现仓库链接。 Q-Former: 作为语音适配器的核心组件,论文中未提供其原始实现仓库链接。 🏗️ 方法概述和架构 ESRT的核心是边缘-云协同的分割推理架构(如图3所示),旨在平衡性能、隐私和带宽。 ...