Period-conscious Time-series Reconstruction under Local Differential Privacy

📄 Period-conscious Time-series Reconstruction under Local Differential Privacy #差分隐私 #时间序列 #周期性分析 #信号处理 ✅ 7.0/10 | 前25% | #时间序列重构 | #差分隐私 | #时间序列 #周期性分析 | arxiv 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Yaxuan Wang(论文中未说明其具体机构) 通讯作者:Enji Liang(论文中未说明其具体机构), Yanran Wang(论文中未说明其具体机构) 作者列表:Yaxuan Wang(未说明), Tianxin Li(未说明), Enji Liang(未说明), Yue Fu(未说明), Yanran Wang(未说明) 注:论文仅标注了作者贡献和通讯作者,未提供任何作者的所属大学、实验室或公司信息。 💡 毒舌点评 亮点:CPR框架非常“接地气”,它没有追求复杂的理论证明,而是针对LDP噪声破坏周期性信号的两个具体病症(频谱模糊和相位漂移),设计了一套从粗到细、从频域到时域的组合疗法,实验也证实了在“高压”(低ε)环境下确实比传统滤波方法更有效。 短板:方法更像是多个成熟模块(FFT、中位数聚合、EM、KDE)的针对性拼接,缺乏一个统一的、优雅的数学框架来解释其优越性;此外,在仅使用四个数据集且数据构造方式(拼接加抖动)相对人工的情况下宣称SOTA,其结论的泛化能力有待更多复杂真实场景的检验。 🔗 开源详情 代码:论文中未提及代码链接 模型权重:论文中未提及 数据集: Darwin (Daily Meridian Longitude): https://archive.ics.uci.edu/dataset/732/darwin Turkish Music Emotion: https://archive.ics.uci.edu/dataset/862/turkish+music+emotion Raisin: https://archive.ics.uci.edu/dataset/850/raisin Crowdsourced Mapping: https://archive.ics.uci.edu/dataset/400/crowdsourced+mapping 注:论文说明,实验使用了上述公开数据集,并提取了其中的数值特征来构建周期性时间流。论文未提供其预处理或加工后的具体数据。 Demo:论文中未提及 复现材料:论文中未提及具体的训练配置、检查点或附录等复现材料。 论文中引用的开源项目: Square Wave (SW) local randomizer:论文中提出了该隐私机制的公式和实现细节,但未提供独立的代码仓库或开源项目链接。 LBD [14]:论文中引用了该方法作为基线比较,并说明其实现遵循原文,但未提供独立的开源项目链接。 Laplace机制 [6]:论文中引用了该方法作为标准基线,未提供独立的开源项目链接。 📌 核心摘要 解决的问题:在本地差分隐私保护下收集周期性时间序列数据(如视频动作、音频节奏、传感器信号)时,LDP机制注入的样本级噪声会破坏信号的频谱峰值,导致周期估计不准,并引发跨周期的相位漂移,严重降低重构质量。 方法核心:提出CPR框架,分为周期恢复与相位恢复两阶段。首先通过多尺度、多共识的周期识别(在不同窗口大小上进行FFT并投票)来稳定地估计主导周期;然后利用估计的周期,通过相位感知聚合(将所有周期的相同相位点分组)和EM-then-KDE去噪(先用EM解码SW机制噪声,再用核密度估计提取鲁棒的相位值)来重构一个干净的周期模板。 与已有方法相比新在何处:不同于通用LDP重构方法(如Laplace、LBD)或简单平滑(SW_moving),CPR首次明确将周期/相位意识置于重构核心。它不是盲目去噪,而是先稳定周期结构,再利用该结构进行跨周期的统计聚合,从而更有效地对抗LDP噪声。 主要实验结果:在四个数据集上,CPR在周期性检测准确率和重构余弦距离上均优于所有基线方法。例如,在Darwin数据集上,当ε=1,w=5时,周期检测准确率(论文表I)为19%,显著高于其他设置;图2显示,在所有隐私预算下,CPR的重构余弦距离(越低越好)始终最小,尤其在低ε区间优势明显。 实际意义:为边缘设备收集周期性敏感数据(如健康监测中的心率/步态、多媒体内容中的节奏特征)提供了一种在强隐私保护下仍能保持数据效用的技术方案,有助于平衡隐私与数据利用。 主要局限性:1) 论文假设信号具有单一主导周期,对多周期叠加或强非平稳周期的处理能力未充分验证;2) 实验数据集构造相对简单(重复拼接加抖动),未在更复杂的真实世界流数据上验证;3) 计算复杂度和实时性分析未给出,可能不适用于资源受限的边缘场景。 🏗️ 模型架构 CPR是一个两阶段的服务器端后处理框架,整体架构如下图所示: ...

2026-05-05 · 更新于 2026-05-20 · 2 min · 255 words

The AECM Algorithm for Deterministic Maximum Likelihood Direction Finding in the Presence of Gaussian Mixture Noise

📄 The AECM Algorithm for Deterministic Maximum Likelihood Direction Finding in the Presence of Gaussian Mixture Noise #声源定位 #麦克风阵列 #信号处理 #鲁棒性 ✅ 7.0/10 | 前50% | #声源定位 | #麦克风阵列 | #信号处理 #鲁棒性 | arxiv 学术质量 5.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Mingyan Gong(未说明) 通讯作者:Bin Lyu(未说明) 作者列表:Mingyan Gong(未说明)、Bin Lyu(未说明) 💡 毒舌点评 本文清晰地指出了传统SAGE算法在解决高斯混合噪声下DOA估计问题时的两个痛点(收敛慢、在不等功率信号下失效),并给出了基于AECM和黄金分割搜索的改进方案,逻辑链条完整;但实验部分堪称“简陋”,仅用一个包含两个信号源的简单仿真场景就得出“更快更稳定”的结论,缺乏与多种非高斯噪声模型(如SαS)、不同算法变体(如不同L值)的对比,说服力打了折扣。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及。 数据集:论文中未提及。 Demo:论文中未提及。 复现材料:论文本身包含了算法伪代码(算法1, 2, 3)和详细的数值结果仿真参数(如第5节所述),可作为复现的指南。 论文中引用的开源项目:未提及。 📌 核心摘要 要解决什么问题:在高斯混合噪声(一种能建模脉冲噪声的非高斯模型)环境下,如何高效、稳定地进行确定性最大似然(ML)方向估计(DOA)。 方法核心是什么:将交替期望条件最大化(AECM)算法应用于该问题。AECM通过构建多个信息量较少的“完整数据”版本,顺序更新每个源的DOA估计(一次一个),并采用黄金分割搜索法在每次迭代中寻找接近前次估计的局部最优解,以解决SAGE算法同时更新所有DOA导致的收敛慢和功率不等时失效的问题。 与已有方法相比新在哪里:改进了此前该问题唯一高效方法——SAGE算法。主要区别在于:(1) 采用“EM-周期”而非“EM-对”顺序更新参数;(2) 使用条件最大化步骤(CM-step)而非完全最大化步骤(M-step),减少了迭代间DOA估计的跳变;(3) 引入黄金分割搜索确保收敛稳定性。 主要实验结果如何:论文通过一个仿真案例(N=6阵元,M=2源,不等功率)进行对比。如图1所示,若直接采用最大值搜索更新DOA,两种算法均失效,估计值收敛至强信号的真实DOA。如图2所示,采用黄金分割搜索后,两种算法均能正确收敛,且AECM算法达到稳定收敛所需迭代次数明显少于SAGE算法(例如,约快30%)。论文未给出具体的迭代次数或运行时间数字。 实际意义是什么:为雷达、声纳、无线通信等领域中存在脉冲干扰的环境,提供了一种更稳定、更高效的DOA估计求解算法。 主要局限性是什么:实验验证过于单薄,仅一个场景;未与更多其他抗脉冲噪声DOA估计算法(如FLOM-MUSIC等)对比;未讨论在更多混合分量(L>2)或更复杂噪声环境下的性能;未提供开源代码。 🏗️ 模型架构 本文并非提出一个新的神经网络或深度学习模型,而是针对一个经典的信号处理优化问题(确定性ML方向估计),设计和应用了一种参数估计算法——AECM算法。 ...

2026-05-05 · 更新于 2026-05-20 · 1 min · 188 words

语音/音频论文速递 2026-05-05

语音/音频论文速递 2026-05-05 共分析 33 篇论文 ⚡ 今日概览 📥 抓取 33 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐生成 5篇 █████ #音频分类 3篇 ███ #语音识别 2篇 ██ #音视频 2篇 ██ #大语言模型 1篇 █ #多模态讽刺检测 1篇 █ #多模态幻觉缓解 1篇 █ #模型评估 1篇 █ 📊 论文评分排行榜(33 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetun 8.5分 前25% #大语言模型 🥈 Dimensionality-Aware Anomaly Detection in Learned Repre 8.0分 前25% #语音识别 🥉 PC-MNet: Dual-Level Congruity Modeling for Multimodal S 8.0分 前25% #多模态讽刺检测 4. HARMES: A Multi-Modal Dataset for Wearable Human Activi 8.0分 前25% #音频分类 5. When Audio-Language Models Fail to Leverage Multimodal 7.5分 前50% #语音识别 6. Mitigating Multimodal LLMs Hallucinations via Relevance 7.5分 前25% #多模态幻觉缓解 7. Toward Fair Speech Technologies: A Comprehensive Survey 7.5分 前25% #模型评估 8. Virtual Speech Therapist: A Clinician-in-the-Loop AI Sp 7.5分 前25% #语音治疗系统 9. Toward Fine-Grained Speech Inpainting Forensics:A Datas 7.5分 前25% #音频深度伪造检测 10. RenCon 2025: Revival of the Expressive Performance Rend 7.5分 前25% #音乐生成 11. Spoken Language Identification with Pre-trained Models 7.5分 前25% #说话人识别 12. TMD-Bench: A Multi-Level Evaluation Paradigm for Music- 7.5分 前25% #音乐生成 13. Khala: Scaling Acoustic Token Language Models Toward Hi 7.5分 前25% #音乐生成 14. Delayed Commitment for Representation Readiness in Stag 7.5分 前25% #音视频 15. MG-Former: A Transformer-Based Framework for Music-Driv 7.5分 前25% #音乐生成 16. Integrating acoustic tapping with a UAV platform for ti 7.5分 前25% #音频分类 17. NH-CROP: Robust Pricing for Governed Language Data Asse 7.5分 前25% #强化学习 18. When Attention Collapses: Residual Evidence Modeling fo 7.5分 前25% #音频分离 19. BRITE: A Benchmark for Reliable and Interpretable T2V E 7.5分 前25% #基准测试 20. Neck-Learn: Attention-Based Multiple Instance Learning 7.0分 前25% #语音生物标志物 21. Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with 7.0分 前50% #语音合成 22. MelShield: Robust Mel-Domain Audio Watermarking for Pro 7.0分 前25% #音频安全 23. MindMelody: A Closed-Loop EEG-Driven System for Persona 7.0分 前50% #音乐生成 24. Multimodal Confidence Modeling in Audio-Visual Quality 7.0分 前25% #音视频 25. The AECM Algorithm for Deterministic Maximum Likelihood 7.0分 前50% #声源定位 26. The 2026 ACII Dyadic Conversations (DaiKon) Workshop &a 7.0分 前50% #语音情感识别 27. Period-conscious Time-series Reconstruction under Local 7.0分 前25% #时间序列重构 28. OceanPile: A Large-Scale Multimodal Ocean Corpus for Fo 7.0分 前25% #数据集 29. Private Speech Classification without Collapse: Stabili 6.5分 前25% #音频分类 30. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.5分 前25% #音频问答 31. Artificial intelligence language technologies in multil 6.5分 前50% #多语言健康沟通 32. MultiSense-Pneumo: A Multimodal Learning Framework for 6.5分 前50% #肺炎筛查 33. Multi-Axis Speech Similarity via Factor-Partitioned Emb 6.0分 前50% #音频检索 📋 论文列表 🥇 Flexi-LoRA with Input-Adaptive Ranks: Efficient Finetuning for Speech and Reasoning Tasks 🔥 8.5/10 | 前25% | #大语言模型 | #参数高效微调 | #问答 #数学推理 | arxiv ...

2026-05-05 · 更新于 2026-05-20 · 19 min · 3988 words

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #心理声学 #信号处理 🔥 8.5/10 | 前25% | #语音增强 #对抗样本 | #信号处理 | #语音增强 #对抗样本 学术质量 6.0/7 | 选题价值 1.8/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 通讯作者:Will Schwarzer(马萨诸塞大学阿默斯特分校) 作者列表:Will Schwarzer(马萨诸塞大学阿默斯特分校)、Philip S. Thomas(马萨诸塞大学阿默斯特分校)、Andrea Fanelli(Dolby Laboratories)、Xiaoyu Liu(Meta) 💡 毒舌点评 论文将音频对抗攻击的研究从简单的扰动约束推进到了考虑真实声学环境(模拟过空传播)和严格心理声学掩蔽的实用化设定,这是一项重要且扎实的安全研究。然而,攻击的成功高度依赖于白盒梯度访问,且论文坦承通用对抗扰动和跨模型迁移基本无效,这限制了其直接展示的“威胁”的即时实用性,更像是一份详尽的系统性风险报告。 🔗 开源详情 代码:提供公开代码仓库链接:https://github.com/willschwarzer/adv-dns-public。 模型权重:论文研究的对象是四个已有公开检查点的开源DNS模型(Demucs/Denoiser, Full-SubNet+, FRCRN, MP-SENet),并详细列出了使用的具体版本和提交哈希(见附录G表4)。攻击本身是针对这些模型生成的,未提及公开攻击模型权重。 数据集:使用来自ICASSP 2022 DNS Challenge 4公开数据集的音频(干净语音、噪声、RIR),并注明了引用和许可(CC-BY-4.0 for 数据, MIT for 代码)。 Demo:论文中未提及在线演示。但提供了指向攻击样本在线试听页面的链接(https://sites.google.com/view/adv-dns/),用于评估主观不可感知性和攻击效果。 复现材料:提供了极其详尽的复现信息,包括:所有实验设置(SNR, 混响, 模型)、优化算法及超参数(Adam, 学习率, 梯度裁剪, 迭代次数)、心理声学模型具体参数、STFT参数、人类研究协议、统计检验方法等。代码仓库应包含运行实验所需脚本。 论文中引用的开源项目:OpenAI Whisper(用于ASR评估和过滤数据)、MP-SENet、Denoiser (Demucs)、FRCRN (ClearerVoice-Studio)、FullSubNet-Plus、MaskGCT(用于生成目标攻击语音)、DNS-Challenge数据集与代码、DNSMOS P.835、NISQA、ViSQOL。所有引用的项目及其版本、许可证在附录G的表4中详细列出。 📌 核心摘要 问题:深度语音去噪(DNS)模型在安全关键应用(如助听器、应急通信)中广泛使用,但其对抗鲁棒性尚未被充分研究。论文旨在评估这些模型是否对精心设计的、人耳难以察觉的对抗噪声脆弱。 方法:核心方法是提出一个基于心理声学掩蔽的对抗攻击框架。该框架通过计算掩蔽阈值(包括频率掩蔽和时域前后掩蔽)来约束扰动的功率谱密度,使其在原始语音信号中“隐藏”。优化采用投影梯度下降,损失函数为短时客观可懂度(STOI)。此外,框架通过维纳解卷积和梯度下降投影来模拟和应对扰动在房间脉冲响应(RIR)下的传播,以实现模拟过空攻击。 创新:与已有工作(如使用简单p范数约束或未充分考虑感知掩蔽)相比,该工作的创新在于:a) 集成了增强的、包含时域掩蔽的心理声学模型,并引入偏移量调节掩蔽阈值,更好地平衡攻击成功率与不可感知性;b) 系统性地将攻击扩展到模拟真实声学环境(混响、不同背景噪声水平、过空传播);c) 对多种开源DNS模型在不同设置下的鲁棒性进行了全面的机制分析,揭示了梯度流动(而非模型大小)是关键因素。 主要实验结果:论文测试了Demucs, Full-SubNet+, FRCRN, MP-SENet四个模型。关键发现:a) 所有模型都能在人耳无法察觉的扰动下被驱动输出无意义语音(STOI提升从正值变为负值,见图1);b) 攻击在从极干净(70dB SNR)到嘈杂、混响的环境下均成功;c) Full-SubNet+因梯度爆炸展现出一定“伪鲁棒性”,但此保护机制已知可被绕过;d) 人类研究(15名音频专家)证实攻击后的音频几乎无法转写,且扰动通常不可察觉;e) 模拟过空攻击对除Full-SubNet+外的模型同样有效(见图5);f) 简单的高斯噪声防御仅能部分缓解,但攻击者可能自适应(见图4)。通用扰动和跨模型迁移效果有限。 图1:在不同背景信噪比(SNR)和混响条件下,四个DNS模型在加入不可察觉的对抗扰动前后,其输出相对于干净语音的STOI变化(ΔSTOI)。攻击成功地将ΔSTOI从正值(增强)变为负值(劣化),表明模型输出变得比含噪输入更不可懂。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 291 words

Deep Learning with Learnable Product-Structured Activations

📄 Deep Learning with Learnable Product-Structured Activations #神经网络架构 #隐式神经表示 #深度学习理论 #信号处理 #可解释AI 🔥 8.0/10 | 前10% | #神经网络架构 | #神经网络架构 | #隐式神经表示 #深度学习理论 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Saanjali Maharaj(University of Toronto) 通讯作者:Prasanth B. Nair(University of Toronto) 作者列表:Saanjali Maharaj(University of Toronto)、Prasanth B. Nair(University of Toronto) 💡 毒舌点评 亮点在于LRNN架构将低秩函数分解思想巧妙地引入深度学习,其理论分析严谨(证明了通用逼近和维度诅咒缓解),并且实验设计得极为全面,从ImageNet图像到PDE求解,几乎“打穿”了隐式表示领域的主流基准。短板则是,尽管架构思想优美,但其每个“神经元”内部实际嵌套了一个小型MLP(用于参数化一元函数),这无疑显著增加了计算复杂度和训练时间,论文在性能与效率的权衡上讨论稍显不足,可能限制其在大规模实时应用中的部署。 🔗 开源详情 代码:论文明确提供了公开的代码仓库链接:https://github.com/dacelab/lrnn。 模型权重:论文中未提及公开预训练模型权重。 数据集:使用了公开的数据集(ImageNet, DIV2K, GTZAN, LibriSpeech等),但论文中未说明是否提供处理后的特定任务数据集。 Demo:论文中未提及在线演示。 复现材料:论文提供了极其详尽的复现信息,包括: 所有实验的具体超参数设置(学习率、调度器、模型尺寸等)。 架构的实现细节(如组件MLP的结构、LayerNorm的使用、方差控制缩放)。 各类消融研究的设计和结果。 训练硬件信息(单张RTX 4090 GPU)。 论文中引用的开源项目:论文依赖并对比了多个开源基准模型,包括SIREN、SPDER、WIRE、Gaussian Activated Networks等的官方实现。其实现基于PyTorch框架。 📌 核心摘要 问题:现代神经网络受限于固定激活函数,难以自适应地捕捉任务特定的高阶交互结构,且在表示高频信号时存在频谱偏差。 方法核心:提出“深度低秩分离神经网络”(LRNN)。其核心是每个神经元使用一个可学习的乘积结构激活函数,即多个可学习的一元变换的乘积,而非传统的固定标量激活。 新意:与传统MLP和固定激活的INR方法相比,LRNN的激活函数是高度灵活且数据依赖的,能自然地通过乘法合成丰富的频谱成分。该架构是标准MLP的推广,并建立了与低秩函数分解的理论联系。 主要实验结果:LRNN在多个任务上达到SOTA。在图像表示上,对1000张ImageNet图像达到40dB PSNR的成功率为100%,远超SIREN(1.8%)和SPDER(26.4%)。在音频表示上,MSE比基线低3-11倍。在PDE求解上,用SIREN 1/8的参数量实现同等或更低误差。在稀疏视图CT重建中,获得最高PSNR(29.13 dB)和SSIM(0.7455),且无伪影。 实际意义:提供了一种通用、表达能力强且理论清晰的神经网络构建模块,能显著提升信号表示、科学计算和成像任务的性能,有助于减少医疗CT的辐射剂量。 主要局限性:其反向传播需要存储中间乘积项,导致内存占用高于标准MLP;架构增加了每层的计算复杂度;虽然提供了消融实验,但对于如何在不同任务中最优地设置超参数(如分离秩r和投影宽度\(\bar{d}\))的指导不够充分。 🏗️ 模型架构 LRNN(Low-Rank Separated Neural Network)是一种对多层感知机(MLP)的推广。其核心创新在于用可学习的乘积结构激活函数替代了固定激活函数。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 298 words

MAPSS: Manifold-based Assessment of Perceptual Source Separation

📄 MAPSS: Manifold-based Assessment of Perceptual Source Separation #模型评估 #自监督学习 #信号处理 #语音分离 #音频质量 🔥 8.5/10 | 前25% | #模型评估 | #自监督学习 | #信号处理 #语音分离 学术质量 6.2/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Amir Ivry(Technion - Israel Institute of Technology, Electrical and Computer Engineering) 通讯作者:未明确指定(根据邮箱顺序推测为Amir Ivry) 作者列表:Amir Ivry(Technion - Israel Institute of Technology)、Samuele Cornell(Carnegie Mellon University, Language Technologies Institute)、Shinji Watanabe(Carnegie Mellon University, Language Technologies Institute) 💡 毒舌点评 亮点在于其优雅的数学框架(流形+马氏距离)将“分离度”和“保真度”评估解耦,并为每个测量值提供了理论误差边界,这在音频评估指标中非常罕见。然而,其性能高度依赖一个预先定义的、手工设计的“失真库”来构建感知流形,这似乎将评估的泛化能力瓶颈从模型转移到了这个失真库的覆盖面上,且对时间对齐的敏感性可能限制其在实际延迟系统中的应用。 ...

2026-05-04 · 更新于 2026-05-20 · 2 min · 237 words

语音/音频论文速递 2026-05-03

语音/音频论文速递 2026-05-03 共分析 13 篇语音/AI 论文 🎯 任务分类 点击任务标签查看该方向所有论文: 音乐信息检索(2篇) 语音识别(2篇) 音频生成(1篇) 发音错误检测(1篇) 说话人识别(1篇) 音乐理解(1篇) 音频场景理解(1篇) 语音质量评估(1篇) 语音对话系统(1篇) 音频问答(1篇) 音频事件检测(1篇) ⚡ 今日概览 📥 抓取 13 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音乐信息检索 2篇 ██ #语音识别 2篇 ██ #音频生成 1篇 █ #发音错误检测 1篇 █ #说话人识别 1篇 █ #音乐理解 1篇 █ #音频场景理解 1篇 █ #语音质量评估 1篇 █ 📊 论文评分排行榜(13 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 UniSonate: A Unified Model for Speech, Music, and Sound 8.5分 前25% #音频生成 🥈 Beyond Acoustic Sparsity and Linguistic Bias: A Prompt- 8.5分 前25% #发音错误检测 🥉 DM-ASR: Diarization-aware Multi-speaker ASR with Large 8.0分 前25% #说话人识别 4. Transformer-Based Rhythm Quantization of Performance MI 8.0分 前25% #音乐信息检索 5. Audio Effect Estimation with DNN-Based Prediction and S 8.0分 前25% #音乐理解 6. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 7. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.5分 前25% #语音质量评估 8. Spectrographic Portamento Gradient Analysis: A Quantita 7.5分 前25% #音乐信息检索 9. Advancing automatic speech recognition using feature fu 7.0分 前25% #语音识别 10. Identifying and typifying demographic unfairness in pho 7.0分 前50% #语音识别 11. Full-Duplex Interaction in Spoken Dialogue Systems: A C 6.5分 前25% #语音对话系统 12. Audio Video Verbal Analysis (AVVA) for Capturing Classr 6.0分 前50% #音频问答 13. Earable Platform with Integrated Simultaneous EEG Sensi 5.5分 后50% #音频事件检测 📋 论文列表 🥇 UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions 🔥 8.5/10 | 前25% | #音频生成 | #流匹配 | #扩散模型 #统一音频模型 | arxiv ...

2026-05-03 · 更新于 2026-05-20 · 8 min · 1688 words

Are Deep Speech Denoising Models Robust to Adversarial Noise?

📄 Are Deep Speech Denoising Models Robust to Adversarial Noise? #语音增强 #对抗样本 #鲁棒性 #音频安全 #信号处理 ✅ 7.5/10 | 前25% | #语音增强 | #对抗样本 | #鲁棒性 #音频安全 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Will Schwarzer(University of Massachusetts) 通讯作者:未明确说明(第一作者邮箱为wschwarzer@umass.edu,但论文未明确标注“通讯作者”) 作者列表: Will Schwarzer(University of Massachusetts) Philip S. Thomas(University of Massachusetts) Andrea Fanelli(Dolby Laboratories) Xiaoyu Liu(Dolby Laboratories,论文注释“Work done while at Dolby Laboratories”,现所属机构为Meta) 💡 毒舌点评 本文系统性地揭示了当前主流开源深度语音降噪(DNS)模型在面对心理声学隐藏的对抗噪声时的普遍脆弱性,其“攻击成功且不可感知”的结论对安全关键场景(如助听器、应急通信)的模型部署敲响了警钟,实验设计严谨且多维度验证令人信服。然而,攻击目前严重依赖白盒梯度访问,且通用对抗扰动(UAP)效果有限,这使得论文揭示的威胁在真实复杂对抗环境中的可实现性打了折扣,防御部分也仅探索了最简单的高斯噪声。 🔗 开源详情 代码:提供代码仓库链接:https://github.com/willschwarzer/adv-dns-public 模型权重:论文测试的四个DNS模型(Demucs, FRCRN, MP-SENet, Full-SubNet+)均为开源,权重公开。 数据集:使用公开的ICASSP 2022 DNS Challenge 4数据集。 Demo:论文中未提及在线演示链接。 复现材料:论文正文和附录提供了详细的实验设置、超参数、优化细节、攻击样本链接以及复现声明。 论文中引用的开源项目:Whisper (ASR), Denoiser (Demucs), FullSubNet-Plus, FRCRN (ClearerVoice-Studio), MP-SENet, MaskGCT (Amphion), DNS-Challenge数据集与代码, DNSMOS P.835, NISQA, ViSQOL。其许可证信息已在表4中列出。 📌 核心摘要 问题:本文研究广泛使用的深度语音降噪(DNS)模型是否对精心构造的、心理声学上不可感知的对抗性噪声具有鲁棒性。 方法:作者提出了一种结合心理声学掩蔽模型(增强时间前后掩蔽)和房间脉冲响应(RIR)感知的攻击框架。核心是利用投影梯度下降(PGD)优化扰动,以短时客观可懂度(STOI)为损失函数,使DNS模型的输出从清晰语音变为无法理解的乱码,同时确保扰动能量低于听觉掩蔽阈值。 创新:与先前工作相比,本文首次对多个SOTA开源DNS模型在多种声学环境(从极干净到嘈杂混响)和模拟空中传播条件下,进行了系统性的不可感知攻击研究;建立了结合心理声学和RIR感知的攻击优化流程;并通过人类研究验证了攻击的成功性和不可感知性。 结果:对四个模型(Demucs, FRCRN, MP-SENet, Full-SubNet+)的测试表明,除Full-SubNet+因梯度爆炸问题表现出一定“伪鲁棒性”外,其他三个模型在所有测试环境(包括70 dB SNR无混响的近乎干净场景)下均可被成功攻击,使其输出STOI显著下降(例如,图1显示攻击后STOI增强量ΔSTOI从正值变为显著负值)。人类听辨实验(15名音频专家)证实攻击后输出词准确率接近0(图6a),且攻击扰动与干净样本的区分率仅略高于随机猜测(ABX准确率59%,图6b)。简单高斯噪声防御仅能提供部分保护(图4)。 意义:研究警示,开源DNS模型在安全关键应用(如助听器、应急通信、空管)中的部署存在严重安全隐患,亟需开发更强的防御机制。 局限:攻击需要白盒梯度访问;朴素的模型迁移攻击无效;目标攻击虽在客观指标上成功,但主观听感上目标语音仅隐约可闻;通用对抗扰动(UAP)效果有限;防御评估仅限于简单的高斯噪声。 🏗️ 模型架构 本文并未提出新的DNS模型架构,而是评估了四个现有开源DNS模型的脆弱性。这些模型的架构简述如下,均来源于论文及其引用: ...

2026-05-02 · 更新于 2026-05-20 · 1 min · 203 words

SCRAPL: Scattering Transform with Random Paths for Machine Learning

📄 SCRAPL: Scattering Transform with Random Paths for Machine Learning #音频生成 #信号处理 #时频分析 🔥 8.5/10 | 前25% | #音频生成 | #信号处理 | #时频分析 学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music) 通讯作者:未说明(从邮箱推测可能与通讯作者单位一致,但未在文中明确标注) 作者列表:Christopher Mitcheltree(Queen Mary University of London, Centre for Digital Music)、Vincent Lostanlen(Nantes Université, LS2N)、Emmanouil Benetos(Queen Mary University of London, Centre for Digital Music)、Mathieu Lagrange(Nantes Université, LS2N) 💡 毒舌点评 亮点:本文提出SCRAPL算法,巧妙地利用散射变换的树状结构,通过随机路径采样和定制化优化器(P-Adam, P-SAGA),将计算成本高昂的全树散射变换损失,成功转化为一种高效且无偏的随机近似,为在大规模神经网络训练中使用复杂感知损失扫清了障碍。 短板:该方法本质上是一种采样近似,在最终精度上(如表1所示)依然无法超越计算成本高得多的全树散射变换(JTFS),且在处理信号衰减部分(如表9所示)时表现不佳,表明其对稀疏低频路径的捕捉能力有待加强。 ...

2026-05-02 · 更新于 2026-05-20 · 3 min · 487 words

Toward Complex-Valued Neural Networks for Waveform Generation

📄 Toward Complex-Valued Neural Networks for Waveform Generation #语音合成 #生成模型 #对抗学习 #音频生成 #信号处理 ✅ 7.5/10 | 前25% | #语音合成 | #生成模型 | #对抗学习 #音频生成 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Hyung-Seok Oh(高丽大学人工智能系) 通讯作者:Seong-Whan Lee(高丽大学人工智能系) 作者列表:Hyung-Seok Oh(高丽大学人工智能系)、Deok-Hyeon Cho(高丽大学人工智能系)、Seung-Bin Kim(高丽大学人工智能系)、Seong-Whan Lee(高丽大学人工智能系) 💡 毒舌点评 这篇论文首次将复值神经网络完整地引入iSTFT基声码器的生成器和判别器,构建了一个优雅的复数域对抗框架,理论动机清晰,并通过详实的实验(尤其是消融研究)证明了复值建模相比简单参数扩增的优越性。然而,其主要短板在于工程实用性:复值网络内存占用翻倍,且论文坦承多GPU训练优化不足,导致其训练效率提升有限,实际部署时的内存与计算成本仍是显著瓶颈。 🔗 开源详情 代码:提供了代码仓库链接:https://hs-oh-prml.github.io/ComVo/。 模型权重:论文中未提及是否公开预训练模型权重。 数据集:使用了公开的LibriTTS和MUSDB18-HQ数据集,论文中说明了获取和使用方式。 Demo:论文中未提及提供在线演示。 复现材料:提供了非常详细的训练配置、超参数表(表20)、架构细节、损失函数公式(附录C)、数值验证结果(附录F)和计算图可视化(附录G),复现材料充分。 论文中引用的开源项目:引用了iSTFTNet、HiFi-GAN、BigVGAN、Vocos、APNet、APNet2、FreeV等基线的开源实现;评估工具引用了UTMOS、auraloss(MR-STFT)、PESQ、cargan(Periodicity/V-UV);辅助工具引用了complextorch库用于实现高斯技巧。 📌 核心摘要 问题:现有iSTFT基声码器使用实值神经网络处理复数频谱图的实部和虚部,这种分离处理的方式限制了模型对频谱复数内在结构(实-虚部耦合关系)的建模能力。 方法核心:提出ComVo,一个端到端复值神经网络声码器。其生成器和判别器(复值多分辨率判别器cMRD)均采用原生复数运算。创新点包括:引入相位量化层作为非线性正则化;提出分块矩阵计算方案以减少冗余运算,提升训练效率。 新在何处:据作者所知,这是首个同时在生成器和判别器中使用复值神经网络进行iSTFT波形生成的声码器,建立了真正的复数域对抗训练框架。 主要实验结果:在LibriTTS数据集上,ComVo在多项客观指标(UTMOS 3.6901, PESQ 3.8239)和主观评价(MOS 4.07)上优于Vocos、BigVGAN等强基线。在MUSDB18-HQ音乐数据集上也表现最佳。消融实验表明,复值生成器+复值判别器(GCDC)组合效果最佳,且复值建模优于将参数量翻倍的实值模型。分块矩阵方案将训练时间减少25%。 实际意义:为语音合成中的频谱建模提供了新范式,有望通过更好地建模相位信息来生成更自然的语音波形。 主要局限性:模型内存占用约为实值模型的2倍;多GPU训练存在未优化的问题;相位量化等模块采用了“分离式”设计,尚未探索更深入的复数域非线性。 🏗️ 模型架构 ComVo是一个基于生成对抗网络(GAN)的iSTFT基声码器,整体架构如图2所示。 ...

2026-05-02 · 更新于 2026-05-20 · 3 min · 446 words