Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations

📄 Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations #音频增强 #主动噪声控制 #麦克风阵列 #鲁棒性 #信号处理 📝 5.7/10 | 前25% | #音频增强 | #信号处理 | #主动噪声控制 #麦克风阵列 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度 高 👥 作者与机构 第一作者:Tong Xiao(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics; Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie) 通讯作者:Simon Doclo(Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics) 作者列表:Tong Xiao(同上)、Reinhild Roden(Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie)、Matthias Blau(Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie)、Simon Doclo(同上) 💡 毒舌点评 本文针对助听器空间选择性主动噪声控制(SSANC)中的次级路径变化问题,提出了一个基于“最小化平均代价”的鲁棒优化框架。动机非常实际,工程实现路径清晰,并通过实时实验验证了仿真结果,这在音频处理领域是值得肯定的。然而,核心方法(公式16)在理论上并无新意,本质上是将经典鲁棒优化中的“平均化”策略应用于特定公式(公式12),创新性有限。实验设计的主要缺陷在于,评估仅限于与理想“匹配”上限和不鲁棒“失配”情况的对比,完全未与其他已知的鲁棒控制方法(如H∞优化或在线自适应估计)进行比较,这严重削弱了对其方法优越性的论证。此外,论文声称该框架提供“实用的设计策略”,但其离线、固定的特性以及对预设路径变化集的依赖,在高度动态的现实场景中的适用性存疑。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 364 words

语音/音频论文速递 2026-05-19

语音/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分 前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分 前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分 前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分 前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分 前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分 前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分 前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分 前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分 前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分 前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分 前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分 前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分 前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分 前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分 前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分 前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分 前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分 前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分 前50% #语音合成 20. Stable Audio 3 6.8分 前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分 前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分 前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分 前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分 前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分 中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分 前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分 前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分 前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分 前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分 前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分 前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分 前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分 前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分 后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

2026-05-19 · 更新于 2026-05-19 · 23 min · 4805 words

Transformer-based End-to-End Control Filter Generation for Active Noise Control

📄 Transformer-based End-to-End Control Filter Generation for Active Noise Control #主动噪声控制 #Transformer #无监督学习 #实时处理 #模型比较 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Transformer | #无监督学习 #实时处理 | arxiv 学术质量 6.2/7 | 选题价值 1.3/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang(论文未说明其具体所属机构) 通讯作者:未说明 作者列表:Ziyi Yang(未说明)、Zhengding Luo(未说明)、Yisong Zou(未说明)、Boxiang Wang(未说明)、Qirui Huang(未说明)、Woon-Seng Gan(未说明) 💡 毒舌点评 这篇论文的核心工作是将Transformer“嫁接”到了固定滤波器主动噪声控制的框架中,并且通过巧妙的端到端可微设计,绕开了监督学习需要“标签”的难题,在真实噪声上取得了不错的改进,思路清晰,实验扎实。不过,模型参数量和计算量相比基线方法(CNN)显著增加,这对于追求低延迟、低功耗的嵌入式ANC设备来说是个不小的挑战,论文对此权衡的讨论略显不足,且未提供任何开源代码。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:论文中未提及模型权重链接。 数据集:论文中提及了训练和测试所用数据集的具体描述(83,977个合成带限噪声样本,用于测试的真实噪声类型包括飞机、压缩机等),但未提供公开下载链接或开源协议。 Demo:论文中未提及Demo链接。 复现材料:论文中提供了详细的训练配置、超参数、模型架构及评估结果,具体信息如下,但未提供额外的检查点文件或附录文档链接。 数据集:83,977个1秒时长、13kHz采样率的合成带限噪声(覆盖20-1900 Hz)。划分:79,977训练样本,2,000验证样本,2,000测试样本。训练时在参考信号上添加了SNR 10dB的高斯噪声。测试用到真实噪声和合成噪声。 声学路径:使用一个覆盖10-3000 Hz的合成声学路径,训练和测试中保持一致。 模型配置: 输入帧长度 L=13,000 样本,控制滤波器长度 N=512。 Conv1d前端:1输入通道,256输出通道,卷积核64,步长4,填充30;后接BatchNorm、ReLU、最大池化(步长4)。 Transformer编码器:d_model=256,8个注意力头,1层编码器,前馈维度1024,dropout 0.1,使用Pre-Norm。 输出头:Linear(256->512),ReLU,Dropout(0.1),Linear(512->512)。 总可训练参数:1,201,152。 训练超参数:优化器Adam,权重衰减10⁻⁴,初始学习率5×10⁻⁴,批大小128,训练40轮。使用StepLR调度器(步长5,衰减因子0.5)。 评估指标:噪声降低(NR)分贝数。每个测试噪声运行5秒,在最后1秒计算NR,报告平均NR。 基线模型:FxNLMS(滤波器长度512,步长0.001);GFANC(CNN co-processor,参数211,215,详见论文)。 论文中引用的开源项目:未提及。 补充信息 [模型架构] 补充:论文明确指出,Transformer编码器采用Pre-Norm(预归一化)设计。这是影响训练稳定性的关键设计选择,但未在分析中强调。同时,分析中提到输入帧L=13,000采样点,但未点明这对应于约1秒的音频(采样率13kHz),这是理解系统实时性的关键。 ...

2026-05-04 · 更新于 2026-05-19 · 2 min · 316 words

语音/音频论文速递 2026-05-04

语音/音频论文速递 2026-05-04 共分析 14 篇论文 ⚡ 今日概览 📥 抓取 14 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #音频生成 2篇 ██ #说话人验证 1篇 █ #声源定位 1篇 █ #音频深度伪造检测 1篇 █ #模型评估 1篇 █ #多模态模型 1篇 █ #主动噪声控制 1篇 █ #音乐理解 1篇 █ 📊 论文评分排行榜(14 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 LASE: Language-Adversarial Speaker Encoding for Indic C 8.5分 前25% #说话人验证 🥈 Towards Improving Speaker Distance Estimation through G 8.5分 前25% #声源定位 🥉 Alethia: A Foundational Encoder for Voice Deepfakes 8.0分 前25% #音频深度伪造检测 4. Beyond Decodability: Reconstructing Language Model Repr 7.5分 前25% #模型评估 5. Fast Text-to-Audio Generation with One-Step Sampling vi 7.5分 前25% #音频生成 6. MMAudio-LABEL: Audio Event Labeling via Audio Generatio 7.5分 前25% #音频生成 7. Group Cognition Learning: Making Everything Better Thro 7.5分 前25% #多模态模型 8. Transformer-based End-to-End Control Filter Generation 7.0分 前25% #主动噪声控制 9. GaMMA: Towards Joint Global-Temporal Music Understandin 7.0分 前25% #音乐理解 10. RoboKA: KAN Informed Multimodal Learning for RoboCall S 7.0分 前25% #语音伪造检测 11. From Birdsong to Rumbles: Classifying Elephant Calls wi 6.5分 前50% #音频分类 12. Timing is Everything: Temporal Scaffolding of Semantic 6.5分 前50% #音频事件检测 13. CustomDancer: Customized Dance Recommendation by Text-D 6.5分 前50% #音频检索 #音乐理解 14. MMAudioReverbs: Video-Guided Acoustic Modeling for Dere 6.0分 前50% #语音增强 📋 论文列表 🥇 LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation 🔥 8.5/10 | 前25% | #说话人验证 | #领域适应 | #多语言 #开源工具 | arxiv ...

2026-05-04 · 更新于 2026-05-19 · 9 min · 1720 words

ICASSP 2026 - 主动噪声控制 论文列表

ICASSP 2026 - 主动噪声控制 共 1 篇论文 ← 返回 ICASSP 2026 总览 排名 论文 评分 分档 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized 7.0分 前25% 📋 论文详情 🥇 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 👥 作者与机构 第一作者:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 通讯作者:未说明 作者列表:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Lu Bai(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Tianyou Li(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Kai Chen(南京大学)、Jing Lu(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 💡 毒舌点评 这篇论文的亮点在于将Kronecker分解(KPD)这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中,利用声学路径天然的低秩特性实现了“又快又准”的同步建模,思路清晰且实验验证扎实。然而,其短板在于对“低秩性”这一核心假设的普适性讨论略显不足,且在实际系统部署中如何动态选择最优秩P值缺乏指导,使得该方法更像是一个针对特定场景(空间相关性强)的优化,而非普适的解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验数据为自采集,未提及公开。 Demo:未提供在线演示。 复现材料:论文给出了部分关键参数(采样率、滤波器长度、J₁/J₂值、步长),但未提供完整的训练/测试脚本、配置文件或预训练检查点。 论文中引用的开源项目:未提及依赖的开源工具或模型。 总结:论文中未提及开源计划。 📌 核心摘要 ...

2026-04-29 · 更新于 2026-05-19 · 1 min · 145 words

Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control

📄 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control #主动噪声控制 #Kronecker分解 #信号处理 #多通道 #实时处理 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 通讯作者:未说明 作者列表:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Lu Bai(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Tianyou Li(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Kai Chen(南京大学)、Jing Lu(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 💡 毒舌点评 这篇论文的亮点在于将Kronecker分解(KPD)这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中,利用声学路径天然的低秩特性实现了“又快又准”的同步建模,思路清晰且实验验证扎实。然而,其短板在于对“低秩性”这一核心假设的普适性讨论略显不足,且在实际系统部署中如何动态选择最优秩P值缺乏指导,使得该方法更像是一个针对特定场景(空间相关性强)的优化,而非普适的解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验数据为自采集,未提及公开。 Demo:未提供在线演示。 复现材料:论文给出了部分关键参数(采样率、滤波器长度、J₁/J₂值、步长),但未提供完整的训练/测试脚本、配置文件或预训练检查点。 论文中引用的开源项目:未提及依赖的开源工具或模型。 总结:论文中未提及开源计划。 📌 核心摘要 要解决的问题:在多通道主动噪声控制(ANC)系统中,传统顺序建模方法耗时过长,而同步建模方法(如Wiener滤波)又因高维矩阵求逆导致计算复杂度过高,难以在大规模系统中实时应用。 方法核心:提出一种基于Kronecker乘积分解(KPD)的同步次级路径建模方法,利用次级路径矩阵的低秩特性,将高维路径向量分解为两个低维因子的乘积,通过迭代交替求解这两个因子来实现快速、低复杂度的建模。在此基础上,进一步开发了Kronecker分解滤波参考最小均方(KF-FxLMS)算法,直接利用分解后的因子计算滤波参考信号,避免重建完整路径响应,再次降低自适应更新阶段的计算量。 创新之处:将KPD引入多通道ANC的次级路径建模领域,相比传统Wiener同步方法,将计算复杂度从O((CJ)^3)降低至O((PCJ₁)^3) + O((PJ₂)^3)(其中P为低秩近似阶数,远小于CJ),并在建模后阶段通过KF-FxLMS将滤波计算复杂度从O(CJ)降低至O(PCJ₁ + PJ₂)。论文通过实验验证了在实际房间环境中,次级路径矩阵确实具有低秩特性。 主要实验结果:在1×8×8的ANC系统(8个控制源,8个误差麦克风)中,所提KPD方法仅需1秒建模信号即可达到低于-20 dB的归一化建模误差(NME),而传统Wiener同步方法在同样1秒数据下误差高达-8.5 dB。使用该快速建模结果(P=5)进行降噪,其性能(降噪18.7 dB)与使用5秒精确建模的Wiener方法相当,且远优于1秒Wiener方法(降噪14.3 dB)。具体NME对比见下表: 建模方法 建模信号长度 P值 NME (dB) Wiener (同步) 1 秒 - -8.5 KPD (同步) 1 秒 2 -19.7 KPD (同步) 1 秒 5 -25.3 KPD (同步) 1 秒 8 -27.1 Wiener (同步) 5 秒 - -50.1 KPD (同步) 5 秒 2 -21.4 KPD (同步) 5 秒 5 -30.6 KPD (同步) 5 秒 8 -39.5 实际意义:为大规模、多通道的ANC系统(如虚拟声屏障、汽车座舱降噪)提供了一种兼顾建模速度、精度和计算效率的实用解决方案,使其更易于在资源受限的实时平台上部署。 主要局限性:方法的有效性严重依赖次级路径矩阵的低秩假设,其普适性在不同声学环境下有待进一步验证。此外,论文未讨论如何自动或自适应地选择最优秩P,P值的选取对性能有显著影响。 🏗️ 模型架构 该论文描述的是一个完整的多通道ANC系统,其核心流程与架构如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 329 words