论文速递 | 语音/音乐/音频论文速递

Listen, Think, Transcribe: Continuous Latent Test-Time Scaling for ASR

📄 Listen, Think, Transcribe: Continuous Latent Test-Time Scaling for ASR #语音识别 #参数高效微调 #低资源 #自监督学习 7.5/10 | 创新 1.5/2 | 严谨 1.4/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 7.5/10 | 前25% | #语音识别 | #Adapter | #参数高效微调 #低资源 | arxiv 👥 作者与机构第一作者：Ho Lam Chung（台湾大学，华硕）通讯作者：Hung-yi Lee（台湾大学）作者列表：Ho Lam Chung（台湾大学，华硕）、Yiming Chen（新加坡国立大学）、Dau-Cheng Lyu（华硕）、Hsiao-Tsung Hung（华硕）、Hung-yi Lee（台湾大学） 💡 毒舌点评这篇论文将连续潜在测试时缩放巧妙地引入冻结ASR骨干网，稳定注入机制的设计颇具匠心，实验覆盖面广、消融充分，证明了在极小数据量下该方法明显优于传统微调。然而，WER的绝对下降幅度仅有千分之一到百分之一量级，实际收益偏薄，且所有实验都基于同一个0.6B的Qwen3-ASR模型，方法的可推广性尚存疑；此外零代码开源，令审稿人对其复现成本深感担忧。 📌 核心摘要问题：端到端ASR模型一次前向完成转录，无法对困难输入进行额外的“思考”。本文探究能否在冻结ASR骨干网上添加连续的潜在计算环，实现输入依赖的测试时计算分配。方法核心：LatentASR引入两个可训练模块——Latent Adapter 和 Value Head。Latent Adapter 通过有界循环更新精炼少量潜在前缀嵌入，并采用三种稳定机制（归一化、门控、固定锚点）防止冻结解码器崩溃；Value Head 预测每个话语的潜在计算效用并提前停止循环。新颖点：不同于在全部参数上微调或修改输入分布，该方法仅训练约4M参数，保持骨干完全冻结，通过受限的、可选的残差更新在连续空间内进行迭代优化，无需中间推理文本。主要结果：在500条话语的极小训练集下，LatentASR 是唯一不提升WER的方法，在 FLEURS (en_us) 上相对WER降低2.54% (4.900→4.776)，VoxPopuli (en) 降低0.47% (9.038→8.995)；口音/语码切换 (ASCEND) 上相对CER降低16.0% (57.81→48.55)；在30种语言的多语言评估中WER均匀下降，无过拟合。实际意义：提供了一种无需修改预训练ASR骨干即可为其注入自适应计算量的方法，可将固定算力转变为按需分配的软调度。主要局限：干净语音上的绝对提升很小，方法对激活集大小和构成敏感（最优窗口仅500条），未见在更大ASR模型上的验证，零开源降低了即时工业采纳的可能性，且未探讨流式/实时场景的可行性。 🔗 开源详情代码：论文中未提及代码链接模型权重：论文中未提及模型权重的发布链接（如 HuggingFace 或 ModelScope）数据集：训练使用 500 条混合样本，来源于以下公开数据集： Common Voice 16.0 FLEURS VoxPopuli LibriSpeech GigaSpeech The People’s Speech ASCEND 上述数据集均为公开可获取的研究语料，但论文未给出具体下载链接或预处理脚本的仓库地址。 Demo：论文中未提及复现材料：论文中未提及提供训练配置、检查点或补充附录等专门复现材料；训练细节（优化器、超参数、数据构造原则）在正文第 4.1 节有描述，但未指向独立的配置文件或代码仓库。论文中引用的开源项目： Whisper (Radford et al.) —— 原始模型为 OpenAI 发布，未提供链接，通常获取方式为 GitHub: https://github.com/openai/whisper OWSM v4 —— 基于 ESPnet 的开源语音模型，通常获取方式为 GitHub: https://github.com/espnet/espnet Qwen3-ASR (0.6B) —— 论文中作为基础模型，技术报告为 arXiv:2601.21337，未给出权重链接；通常可通过 HuggingFace 或 ModelScope 获取 Coconut (Hao et al.) —— 论文 arXiv:2412.06769，未提供项目链接 Quiet-STaR (Zelikman et al.) —— 论文 arXiv:2403.09629，未提供项目链接 Pause tokens (Goyal et al.) —— 论文发表于 ICLR 2024，未提供项目链接（注：以上仅列出在论文中被直接引用且涉及开源工具/模型的条目，无具体链接指向作者提供的仓库时，给出常见获取渠道；没有提及的项目则写“未提及”） 🏗️ 方法概述和架构 LatentASR 在完全冻结的编码器‑解码器ASR骨干上叠加两个轻量可训练模块：Latent Adapter 和 Value Head。整体流程：给定语音a，编码器输出声学状态Z并传入解码器；在解码器输入的系统提示与需转录的文本之间，插入N个隐式前缀位置（不产生任何文本token）。Latent Adapter 逐个位置对这些隐式嵌入进行迭代精炼，Value Head 监控解码器隐状态，判断是否继续或提前停止循环。若Value Head在起始锚点判定无益，则全跳过N步，直接回退到冻结基线的输出；否则逐步执行，并可在中间任意步停下。 ...

Metronome: Bound the Cache, Keep the Beat for Real-Time Interaction Model Serving

📄 Metronome: Bound the Cache, Keep the Beat for Real-Time Interaction Model Serving #语音交互 #流式处理 8.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 🔥 8.7/10 | 前25% | #语音交互 | #Transformer | #流式处理 | arxiv 👥 作者与机构第一作者：Jiaying Meng（Independent Researcher）通讯作者：未说明作者列表：Jiaying Meng（Independent Researcher）、Bojie Li（Pine AI） 💡 毒舌点评本文以简洁的系统洞察切中交互语音模型服务的隐秘死穴——无界KV引发静默延迟悬崖，窗口化加准入控制的双药方既治标又治本，实验端到端且扎实。但单GPU、单引擎的验证格局让人对其跨生态普适性存疑，20次运行的统计量在系统论文中略显单薄，且sink kernel仅实现在Triton后端，FlashAttention路径仍无解，对工业部署的覆盖力打了折扣。 📌 核心摘要本文揭示并解决了实时交互语音模型（Moshi、MiniCPM-o、Qwen-Omni系列）在推理服务中因无界KV缓存导致的内存耗尽型“延迟悬崖”：在持续会话下，延迟从数毫秒突然跳至约1.6秒，而引擎仍在“准时”返回空帧，导致常规延迟与超时监控完全失效。Metronome通过两个相互依赖的机制修复此问题：（1）在每个会话上施加窗口化KV缓存，仅保留最近W个token和少量固定注意力sink token，从而将无界状态变为有界状态；（2）基于恢复后的单调延迟信号，使用AIMD在线准入控制器发现可调度的并发数N*，并干净地丢弃溢出请求。端到端实验在四个交互模型上表明，窗口化KV将崩溃率从14/20降至0/20，控制器在约209个并发会话处稳定收敛（Qwen-Omni-30B，2s帧预算），而消融实验证明sink token对自由运行生成质量不可或缺。该原则可推广至任何具有周期性截止时间和无界状态的实时推理服务。 ...

Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification

📄 Mixture-Constrained Max Pooling Improves Separation-Based Bird Species Classification #音频分类 #音频分离 #无监督学习 5.3/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 0.5/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.3/10 | 后50% | #音频分类 | #无监督学习 | #音频分离 | arxiv 👥 作者与机构第一作者：Yuzhu Wang（单位未说明）通讯作者：未说明作者列表：Yuzhu Wang, Kalle Lahtinen, Patrik Lauha, Shiqi Zhang, Panu Somervuo, Otso Ovaskainen, Tuomas Virtanen（单位均未明确标注） 💡 毒舌点评混合约束最大池化（MCM）的出发点实用——用混合信号的概率去“砍”分离带来的假阳性虚高，真/假阳性增益分析也清晰地呈现了问题所在。但方法本质就是一个后处理trick，创新阈值偏低；分离器训练和分类器训练完全独立，域不匹配问题被轻易承认但毫无解决措施；最关键的超参数τ全靠验证集人工摸索，缺乏任何自动化或理论支撑；实验对比仅针对max pooling，完全忽略了更基本的平均池化、注意力加权等聚合策略，削弱了MCM优势的说服力。代码只给了分类器部分，分离器核心复现无望，整体完成度更像一个初步实验报告而非完整研究。 ...

MOSAIC: Interpretable Multi-Token Cross-Attention of Biophonetic and Self-Supervised Representations for Unified Voice Anti-Spoofing

📄 MOSAIC: Interpretable Multi-Token Cross-Attention of Biophonetic and Self-Supervised Representations for Unified Voice Anti-Spoofing #语音伪造检测 #可解释性 #自监督学习 #领域适应 6.3/10 | 创新 1.2/2 | 严谨 0.9/1.5 | 实验 0.7/1.5 | 清晰 0.8/1 | 影响 0.7/1.5 | 开源 0.8/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ✅ 6.3/10 | 前50% | #语音伪造检测 | #Transformer | #可解释性 #自监督学习 | arxiv 👥 作者与机构第一作者：Yugwon Won（RaonSecure Co., Ltd., AI Security R&D Team, Seoul, Republic of Korea）通讯作者：Yugwon Won（同第一作者）作者列表：Yugwon Won（AI Security R&D Team, RaonSecure Co., Ltd.） 💡 毒舌点评论文将手工特征拆分为多语义查询令牌进行交叉注意力融合，并利用注意力矩阵和令牌激活进行可解释性分析，思路是有趣的。但这项工作的核心贡献更多体现在特征工程与可视化技巧上，而非提出基础性的新架构或理论。方法在2019年数据集上接近单任务SOTA，但在真正考验泛化能力的2021年跨域评测上表现惨淡，尤其是PA场景（EER 40.09%），使得“统一”模型的卖点大打折扣。对最核心的“6-token”与“单token”之间的性能差异，论文避而不谈，可解释性分析也仅限于定性观察，缺乏严格的因果或消融验证，这使得整体贡献的坚实程度存疑。 ...

Noisy Environment Adaptation of Neural Speech Codec via Focal Mask and Noise Feature Separation

📄 Noisy Environment Adaptation of Neural Speech Codec via Focal Mask and Noise Feature Separation #语音增强 #语音分离 5.9/10 | 创新 0.8/2 | 严谨 0.9/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.9/10 | 前50% | #语音增强 | #Transformer | #语音分离 | arxiv 👥 作者与机构第一作者：Shaokai Li（武汉大学计算机学院，国家多媒体软件工程技术研究中心）通讯作者：未明确指定，但根据常见学术惯例，Weiping Tu 或 Yuhong Yang 可能为共同通讯作者，两者单位均为武汉大学计算机学院，国家多媒体软件工程技术研究中心，湖北省多媒体与网络通信工程重点实验室作者列表：Shaokai Li, Weiping Tu, Yuhong Yang 💡 毒舌点评这篇论文试图通过在神经编解码器的嵌入空间中引入一个"面面俱到"的增强模块来解决噪声问题，方案直接且有效。但从审稿角度看，这更像是一次技巧性很强的"搭积木"：将focal modulation、Transformer、Mamba和ResNet组合，去噪的同时顺便做了个噪声分类。这导致模型参数量高达222M，几乎是基础编解码器的3倍。更致命的是，它的价值完全锚定在ESC-50这个50类环境音上，我们无从知晓它在真实咖啡馆、街道或风噪下的表现，也无法判断这63M参数的噪声分类器除了"辅助训练"外还有什么实际用处。总的来说，论文的增益是明确的，但其工程代价和实用性疑虑也同样巨大。 ...

NouveauVoice: Generating Novel Pseudo Speakers for Voice Anonymization

📄 NouveauVoice: Generating Novel Pseudo Speakers for Voice Anonymization #语音转换 #变分自编码器 #语音合成 5.9/10 | 创新 1/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0.2/1.5 | 复现 0.1/0.5 | 工程 1/1.5 📝 5.9/10 | 前50% | #语音转换 | #变分自编码器 | #语音合成 | arxiv 👥 作者与机构第一作者：Meiying Melissa Chen（论文未提供机构信息）通讯作者：未说明作者列表：Meiying Melissa Chen、Anastasia Kuznetsova、Zhenyu Wang、Zhiyao Duan（均未说明机构） 💡 毒舌点评本文的"插件式"伪说话人生成思路巧妙，通过层次化VAE实现了可调节的匿名强度，工程实用性可圈可点。然而，实验对比对象仅为简单的GMM，完全回避了VoicePrivacy Challenge中B3、B4等主流匿名化基线，且训练与推理的大量关键超参数完全缺失，让该方法在顶会级别的竞争中显得说服力不足。更致命的是，匿名化后未见任何主观听感评测（MOS），生成分布与原始分布的MMD偏差也未被正面解释为自然度损失——审稿人会追问：你生成的伪说话人真的"好听"吗？ 📌 核心摘要本文针对说话人匿名化中伪说话人身份多样性不足的问题，提出了基于层次化深度变分自编码器（NVAE）的伪说话人嵌入生成框架NouveauVoice，同时引入匿名强度可控的新维度。方法核心是独立训练一个层次化VAE，学习说话人嵌入空间的分布。该生成器作为即插即用的插件模块，通过采样分层潜变量生成新的伪说话人嵌入，并将其注入现有语音转换（VC）系统实现匿名化，无需修改后端系统的结构或权重。相比以往在特征空间扰动或用GMM采样的方法，NVAE通过分层条件先验提供了更丰富的说话人多样性，并且可通过渐进式替换不同数量的潜变量组来连续控制匿名化强度——这是此前工作不具备的能力。在两个SOTA语音转换后端（FACodec与CosyVoice2）上评估，CosyVoice2-NV的EER达36.40%，WER为4.29%，UAR为42.53%；FACodec-NV的EER为38.26%，WER为7.56%，UAR为40.36%；整体上在匿名性与可懂度/情感保持间取得较优权衡。层次化控制实验表明，仅替换前2-3组潜变量即可获得大部分匿名增益，且对可懂度影响极小。实际意义在于提供了一种轻量、可配置的隐私保护方案，能够以最小化修改将现有高质量语音合成与转换系统转化为说话人匿名化系统，降低了部署门槛。主要局限性：缺少与VoicePrivacy Challenge强基线（如基于GAN的B3、基于码本的B4）的直接比较，且训练与推理的详细超参数几乎全部缺失，极大降低了可复现性。此外，未见对匿名化语音自然度的主观评测，生成伪说话人的感知质量存疑。 🔗 开源详情代码：论文中未提及代码链接，仅声明"The demo will be available on GitHub page upon acceptance"。模型权重：论文中未提及。数据集：论文使用的数据集包括 LibriTTS（train-clean-100、train-clean-360、test-clean）、LibriSpeech（960h）、VoxCeleb、IEMOCAP，均为公开数据集，但未提供具体下载链接。 Demo：论文中未提及具体链接。复现材料：论文中未提及。论文中引用的开源项目： SpeechBrain ECAPA-TDNN 说话人验证模型：https://huggingface.co/speechbrain/spkrec-ecapa-voxceleb SpeechBrain wav2vec2 ASR 模型：https://huggingface.co/speechbrain/asr-wav2vec2-librispeech Facebook wav2vec2-large-960h-lv60-self 基础模型：https://huggingface.co/facebook/wav2vec2-large-960h-lv60-self SUPERB wav2vec2 情感识别模型：https://huggingface.co/superb/wav2vec2-base-superb-er scikit-learn RBF 核函数：https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.rbf_kernel.html FACodec、CosyVoice2、CAM++ 等模型仅通过参考文献提及，论文未给出直接链接。 🏗️ 方法概述和架构 NouveauVoice的整体流程分为两个阶段：独立训练阶段，利用原始说话人嵌入训练层次化VAE（NVAE）以学习说话人身份分布；推理阶段，从训练好的NVAE中采样生成伪说话人嵌入，直接替换原有VC系统中的说话人嵌入，从而驱动VC系统输出匿名语音。 ...

OmniFocus: Query-Guided Modality-Balanced Token Compression for Omni-Modal Large Language Models

📄 OmniFocus: Query-Guided Modality-Balanced Token Compression for Omni-Modal Large Language Models #多模态模型 #模型压缩 #音视频问答 5.9/10 | 创新 1/2 | 严谨 0.9/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 0.5/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 📝 5.9/10 | 前50% | #音视频问答 | #模型压缩 | #多模态模型 | arxiv 👥 作者与机构第一作者：Shijie Cao（School of Advanced Interdisciplinary Sciences, University of Chinese Academy of Sciences; Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences）通讯作者：论文中未明确标注通讯作者，但根据邮箱模式与作者排序推断，Yaojie Lu 为 senior 作者，通常担任通讯作者。作者列表：Shijie Cao（University of Chinese Academy of Sciences; Institute of Software, Chinese Academy of Sciences）、Qingyu Zhang（Institute of Software, Chinese Academy of Sciences）、Boxi Yu（University of Limerick）、Yuzhong Zhang（CUHK, Shenzhen）、Boxi Cao（Institute of Software, Chinese Academy of Sciences）、Yaojie Lu（Institute of Software, Chinese Academy of Sciences）、Hongyu Lin（Institute of Software, Chinese Academy of Sciences）、Xianpei Han（Institute of Software, Chinese Academy of Sciences）、Le Sun（Institute of Software, Chinese Academy of Sciences） 💡 毒舌点评本文提出了一个思路清晰但技术深度一般的训练无关 token 压缩策略。亮点在于正确识别了单模态（音频）引导压缩会系统性地损害视觉模态性能的问题，并给出了直觉上合理的对称解决方案。然而，方法本质上是基于余弦相似度的启发式采样，缺乏理论创新，且在“前沿模型全量微调”和“关键任务精度”这两端都不讨好，其性能优势在多数 benchmark 上仅 1-2 个百分点，属于典型的边缘提升，难以在顶级会议中产生显著吸引力。提交时未提供可用的代码或复现材料，进一步削弱了其可信度。 ...

Open-Set Source Tracing as Compositional Factors via Structured Prototypes

📄 Open-Set Source Tracing as Compositional Factors via Structured Prototypes #语音伪造检测 #可解释性 6/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 ✅ 6/10 | 前50% | #语音伪造检测 | #对比学习 | #可解释性 | arxiv 👥 作者与机构第一作者：Santiago Rubio（University of Zaragoza, ViVoLab, Aragón Institute for Engineering Research (I3A), Spain）通讯作者：未明确指定，推断为 Santiago Rubio 作者列表：Santiago Rubio, Antonio Almudévar, Antonio Miguel, Eduardo Lleida, Alfonso Ortega（均隶属于 University of Zaragoza, ViVoLab, I3A） 💡 毒舌点评这篇文章用 “Nature vs. Nurture” 的比喻把合成语音来源拆成架构、数据和残余因子，思路漂亮且很有解释力；结构化正交原型与子空间划分也确实在少样本开集归因上稳住了泛化差距。但实验仅围绕 MLAAD 一个数据集自娱自乐，缺少与更丰富的开集溯源方法（如基于 OOD 分数的方案）的正面交锋，也没有任何代码或权重放出，让人对方法的真实鲁棒性心里没底。44 个未见源的评估听起来唬人，但未见架构和未见数据集的严重不对称性让“泛化”的成色打了折扣。 ...

Parallelized Autoregressive Decoding for Omni-Modal Dense Video Captioning

📄 Parallelized Autoregressive Decoding for Omni-Modal Dense Video Captioning 8/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 1/1.5 🔥 8/10 | 前25% | #音视频理解 | #自回归模型 | arxiv 👥 作者与机构第一作者：Wenzheng Zeng（National University of Singapore）通讯作者：Hwee Tou Ng（National University of Singapore）、Mike Zheng Shou（National University of Singapore）作者列表：Wenzheng Zeng（National University of Singapore）、Siyi Jiao（National University of Singapore）、Chen Gao（National University of Singapore）、Hwee Tou Ng（National University of Singapore）、Mike Zheng Shou（National University of Singapore） 💡 毒舌点评亮点在于将事件结构巧妙转化为可并行的因果图重构，在加速3.8倍的同时竟能反哺描述精度，潜在全局规划与事件因子化注意力的设计足够精巧。短板是该方法对纯音频/语音社区的直接价值有限，且该方法的注意力模式与标准FlashAttention内核不兼容，导致训练成本反而高于标准自回归模型，距离即插即用尚有距离。 ...

Physics-Informed Direction-of-Arrival Estimation Over Distributed Edge Devices

📄 Physics-Informed Direction-of-Arrival Estimation Over Distributed Edge Devices 5.3/10 | 创新 1.5/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.5/1.5 📝 5.3/10 | 后50% | #声源定位 | #联邦学习 | arxiv 👥 作者与机构第一作者：Nathan Tatsuta（University of California San Diego, Department of Electrical and Computer Engineering）通讯作者：未明确标注（两位作者使用同一邮箱，可能均为通讯作者）作者列表：Nathan Tatsuta（UCSD ECE）、Rajeev Sahay（UCSD ECE） 💡 毒舌点评将阵列流形的 steering vector 几何作为正则项嵌入联邦学习本地损失，理论推导给出首个面向FL DoA的非凸收敛证明和MSAE界，想法简洁有效。但实验严重依赖自建合成数据，无真实阵列或公开数据集验证，且未与MUSIC等经典超分辨方法对比，说服力大打折扣。全文无代码无数据，复现基本靠猜，加上与语音/音频应用完全脱钩，对音频领域读者价值极其有限。 📌 核心摘要本文提出在联邦学习框架下解决分布式DoA估计问题，在标准交叉熵损失中加入基于ULA steering vector的物理正则项 \((\beta/2)\|\mathbf{a}(\hat{\theta})-\mathbf{a}(\theta)\|^2\)，迫使训练沿阵列流形的度量空间前进，避免传统FL将所有角度误分类等权惩罚的缺陷。在此基础上提出FedDoA和DoAProx两种算法，后者额外加入FedProx的近端项，实现在权重空间和流形空间的双域约束。理论贡献在于，在不依赖PL条件或凸性假设的前提下，证明了FedDoA和DoAProx具有 \(\mathcal{O}(1/\sqrt{T})\) 的非凸收敛速率，并首次推导出联邦DoA学习的均方角度误差（MSAE）上界，该界随正则强度 \(\beta\) 和阵列孔径 \(M\) 增加而收紧。实验在MATLAB合成的18万条信号（ULA \(M=8\), \(N=1500\) 快照, 61类角度）上，覆盖了label-iid/channel-iid等四种异构条件和 \(K=\{6,12\}\) 客户端。在label-iid条件下所有方法达到90–95%准确率，物理引导方法收敛更快；在label-non-iid条件下物理引导方法优势扩大，FedDoA可比基线高出约5–8个百分点（无精确表格，仅曲线图）。论文未给出数值表格、未报告方差/置信区间、未进行消融实验，也未与任何集中式方法对比。 🔗 开源详情代码：未提及模型权重：未提及数据集：未提及 Demo：未提及复现材料：未提及论文中引用的开源项目：未提及 🏗️ 方法概述和架构系统架构：系统由 \(K\) 个客户端和一个中心参数服务器构成。每轮通信中，服务器广播全局模型；客户端利用本地数据计算梯度更新，仅上传模型参数；服务器聚合后进入下一轮。完整管线为：本地接收信号 → 前后段协方差矩阵拼接 → 提取实虚部构成输入张量 → CNN预测角度类别 → 物理正则化损失驱动本地更新。 ...