主动噪声控制

Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations

📄 Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations #音频增强 #主动噪声控制 #麦克风阵列 #鲁棒性 #信号处理 📝 5.7/10 | 前25% | #音频增强 | #信号处理 | #主动噪声控制 #麦克风阵列 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Tong Xiao（Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics; Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）通讯作者：Simon Doclo（Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics）作者列表：Tong Xiao（同上）、Reinhild Roden（Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）、Matthias Blau（Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）、Simon Doclo（同上） 💡 毒舌点评本文针对助听器空间选择性主动噪声控制（SSANC）中的次级路径变化问题，提出了一个基于“最小化平均代价”的鲁棒优化框架。动机非常实际，工程实现路径清晰，并通过实时实验验证了仿真结果，这在音频处理领域是值得肯定的。然而，核心方法（公式16）在理论上并无新意，本质上是将经典鲁棒优化中的“平均化”策略应用于特定公式（公式12），创新性有限。实验设计的主要缺陷在于，评估仅限于与理想“匹配”上限和不鲁棒“失配”情况的对比，完全未与其他已知的鲁棒控制方法（如H∞优化或在线自适应估计）进行比较，这严重削弱了对其方法优越性的论证。此外，论文声称该框架提供“实用的设计策略”，但其离线、固定的特性以及对预设路径变化集的依赖，在高度动态的现实场景中的适用性存疑。 ...

语音/音乐/音频论文速递 2026-05-19

语音/音乐/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜（34 篇，按分数降序）排名论文评分分档主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分前50% #语音合成 20. Stable Audio 3 6.8分前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Ziyi Yang（论文未说明其具体所属机构）通讯作者：未说明作者列表：Ziyi Yang（未说明）、Zhengding Luo（未说明）、Yisong Zou（未说明）、Boxiang Wang（未说明）、Qirui Huang（未说明）、Woon-Seng Gan（未说明） 💡 毒舌点评这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中，并且通过巧妙的端到端可微设计，绕开了监督学习需要“标签”的难题，在真实噪声上取得了不错的改进，思路清晰，实验扎实。不过，模型参数量和计算量相比基线方法（CNN）显著增加，这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战，论文对此权衡的讨论略显不足，且未提供任何开源代码。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及模型权重链接。数据集：论文中提及了训练和测试所用数据集的具体描述（83,977个合成带限噪声样本，用于测试的真实噪声类型包括飞机、压缩机等），但未提供公开下载链接或开源协议。 Demo：论文中未提及Demo链接。复现材料：论文中提供了详细的训练配置、超参数、模型架构及评估结果，具体信息如下，但未提供额外的检查点文件或附录文档链接。数据集：83,977个1秒时长、13kHz采样率的合成带限噪声（覆盖20-1900 Hz）。划分：79,977训练样本，2,000验证样本，2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。声学路径：使用一个覆盖10-3000 Hz的合成声学路径，训练和测试中保持一致。模型配置：输入帧长度 L=13,000 样本，控制滤波器长度 N=512。 Conv1d前端：1输入通道，256输出通道，卷积核64，步长4，填充30；后接BatchNorm、ReLU、最大池化（步长4）。 Transformer编码器：d_model=256，8个注意力头，1层编码器，前馈维度1024，dropout 0.1，使用Pre-Norm。输出头：Linear(256->512)，ReLU，Dropout(0.1)，Linear(512->512)。总可训练参数：1,201,152。训练超参数：优化器Adam，权重衰减10⁻⁴，初始学习率5×10⁻⁴，批大小128，训练40轮。使用StepLR调度器（步长5，衰减因子0.5）。评估指标：噪声降低（NR）分贝数。每个测试噪声运行5秒，在最后1秒计算NR，报告平均NR。基线模型：FxNLMS（滤波器长度512，步长0.001）；GFANC（CNN co-processor，参数211,215，详见论文）。论文中引用的开源项目：未提及。补充信息 [模型架构] 补充：论文明确指出，Transformer编码器采用Pre-Norm（预归一化）设计。这是影响训练稳定性的关键设计选择，但未在分析中强调。同时，分析中提到输入帧L=13,000采样点，但未点明这对应于约1秒的音频（采样率13kHz），这是理解系统实时性的关键。 ...

语音/音乐/音频论文速递 2026-05-04

语音/音乐/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜（14 篇，按分数降序）排名论文评分分档主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

ICASSP 2026 - 主动噪声控制论文列表

ICASSP 2026 - 主动噪声控制共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized 7.0分前25% 📋 论文详情 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 👥 作者与机构第一作者：Siyuan Lian（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）通讯作者：未说明作者列表：Siyuan Lian（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Lu Bai（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Tianyou Li（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Kai Chen（南京大学）、Jing Lu（南京大学现代声学实验室，南京大学-蔚来智能音频实验室） 💡 毒舌点评这篇论文的亮点在于将Kronecker分解（KPD）这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中，利用声学路径天然的低秩特性实现了“又快又准”的同步建模，思路清晰且实验验证扎实。然而，其短板在于对“低秩性”这一核心假设的普适性讨论略显不足，且在实际系统部署中如何动态选择最优秩P值缺乏指导，使得该方法更像是一个针对特定场景（空间相关性强）的优化，而非普适的解决方案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验数据为自采集，未提及公开。 Demo：未提供在线演示。复现材料：论文给出了部分关键参数（采样率、滤波器长度、J₁/J₂值、步长），但未提供完整的训练/测试脚本、配置文件或预训练检查点。论文中引用的开源项目：未提及依赖的开源工具或模型。总结：论文中未提及开源计划。 📌 核心摘要 ...

Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control

📄 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control #主动噪声控制 #Kronecker分解 #信号处理 #多通道 #实时处理 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度高 👥 作者与机构第一作者：Siyuan Lian（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）通讯作者：未说明作者列表：Siyuan Lian（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Lu Bai（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Tianyou Li（南京大学现代声学实验室，南京大学-蔚来智能音频实验室）、Kai Chen（南京大学）、Jing Lu（南京大学现代声学实验室，南京大学-蔚来智能音频实验室） 💡 毒舌点评这篇论文的亮点在于将Kronecker分解（KPD）这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中，利用声学路径天然的低秩特性实现了“又快又准”的同步建模，思路清晰且实验验证扎实。然而，其短板在于对“低秩性”这一核心假设的普适性讨论略显不足，且在实际系统部署中如何动态选择最优秩P值缺乏指导，使得该方法更像是一个针对特定场景（空间相关性强）的优化，而非普适的解决方案。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：实验数据为自采集，未提及公开。 Demo：未提供在线演示。复现材料：论文给出了部分关键参数（采样率、滤波器长度、J₁/J₂值、步长），但未提供完整的训练/测试脚本、配置文件或预训练检查点。论文中引用的开源项目：未提及依赖的开源工具或模型。总结：论文中未提及开源计划。 📌 核心摘要要解决的问题：在多通道主动噪声控制（ANC）系统中，传统顺序建模方法耗时过长，而同步建模方法（如Wiener滤波）又因高维矩阵求逆导致计算复杂度过高，难以在大规模系统中实时应用。方法核心：提出一种基于Kronecker乘积分解（KPD）的同步次级路径建模方法，利用次级路径矩阵的低秩特性，将高维路径向量分解为两个低维因子的乘积，通过迭代交替求解这两个因子来实现快速、低复杂度的建模。在此基础上，进一步开发了Kronecker分解滤波参考最小均方（KF-FxLMS）算法，直接利用分解后的因子计算滤波参考信号，避免重建完整路径响应，再次降低自适应更新阶段的计算量。创新之处：将KPD引入多通道ANC的次级路径建模领域，相比传统Wiener同步方法，将计算复杂度从O((CJ)^3)降低至O((PCJ₁)^3) + O((PJ₂)^3)（其中P为低秩近似阶数，远小于CJ），并在建模后阶段通过KF-FxLMS将滤波计算复杂度从O(CJ)降低至O(PCJ₁ + PJ₂)。论文通过实验验证了在实际房间环境中，次级路径矩阵确实具有低秩特性。主要实验结果：在1×8×8的ANC系统（8个控制源，8个误差麦克风）中，所提KPD方法仅需1秒建模信号即可达到低于-20 dB的归一化建模误差（NME），而传统Wiener同步方法在同样1秒数据下误差高达-8.5 dB。使用该快速建模结果（P=5）进行降噪，其性能（降噪18.7 dB）与使用5秒精确建模的Wiener方法相当，且远优于1秒Wiener方法（降噪14.3 dB）。具体NME对比见下表：建模方法建模信号长度 P值 NME (dB) Wiener (同步) 1 秒 - -8.5 KPD (同步) 1 秒 2 -19.7 KPD (同步) 1 秒 5 -25.3 KPD (同步) 1 秒 8 -27.1 Wiener (同步) 5 秒 - -50.1 KPD (同步) 5 秒 2 -21.4 KPD (同步) 5 秒 5 -30.6 KPD (同步) 5 秒 8 -39.5 实际意义：为大规模、多通道的ANC系统（如虚拟声屏障、汽车座舱降噪）提供了一种兼顾建模速度、精度和计算效率的实用解决方案，使其更易于在资源受限的实时平台上部署。主要局限性：方法的有效性严重依赖次级路径矩阵的低秩假设，其普适性在不同声学环境下有待进一步验证。此外，论文未讨论如何自动或自适应地选择最优秩P，P值的选取对性能有显著影响。 🏗️ 模型架构该论文描述的是一个完整的多通道ANC系统，其核心流程与架构如下： ...