Fractional-Order Subband p-Norm Adaptive Filter via Transformation Nearest Kronecker Product Decomposition for Active Noise Control

📄 Fractional-Order Subband p-Norm Adaptive Filter via Transformation Nearest Kronecker Product Decomposition for Active Noise Control #自适应滤波 #有源噪声控制 #信号处理 #鲁棒性 #分数阶微积分 #Kronecker分解 📝 5/10 | 前50% | #自适应滤波 | #信号处理 | #有源噪声控制 #鲁棒性 | arxiv 学术质量 4/8 | 影响力 0.5/1 | 可复现性 0.5/1 | 置信度 高 👥 作者与机构 第一作者:Jianhong Ye(未说明具体机构,仅显示“J. Ye”及邮箱yjh_zcl@163.com) 通讯作者:Haiquan Zhao(西南交通大学电气工程学院,磁悬浮技术与磁浮车辆教育部重点实验室) 作者列表:Jianhong Ye(未说明具体机构)、Haiquan Zhao*(西南交通大学电气工程学院)、Shaohui Lv(西南交通大学电气工程学院)、Yang Zhou(西南交通大学电气工程学院) 💡 毒舌点评 本文将NKP分解、分数阶SGD和子带p范数三个现有技术进行组合,并创新性地提出TNKP策略以调和NKP算法的快收敛与传统算法的低稳态误差矛盾,在多种非高斯/α稳定噪声及真实ANC场景下展现了优于基线算法的性能。然而,论文在理论推导的深度和严谨性上存在根本性短板:1) 分数阶链式法则(式36)的应用(式38)极其粗糙,直接将向量函数的β阶导数等同于对每个分量分别求导再取实部(式41),缺乏严格数学依据;2) β参数的理论范围推导(式51)完全基于确保一个特定期望项E{|e|^{2(p-β)}}有限的简化假设,忽略了算法收敛所需的更严格条件(如梯度期望均值收敛、方差有界),该推导过于启发式;3) TNKP策略的切换阈值ρ完全依赖于事后统计(取后5000点平均值),是一种工程化的后处理手段,而非具备在线自适应能力的真正算法创新,其有效性高度依赖于对系统稳态性能的先验了解。因此,论文的“新”更多停留在工程模块的拼接层面,理论贡献有限。 📌 核心摘要 要解决什么问题:传统的归一化子带p范数(NSPN)算法在处理(1)非高斯输入、(2)特征指数0<α≤1的α稳定噪声以及(3)稀疏系统辨识时性能会显著下降或失效。 方法核心是什么:提出一种基于最近Kronecker乘积(NKP)分解和分数阶随机梯度下降(FoSGD)的归一化子带p范数自适应滤波算法,即NKP-FoNSPN。该算法将长冲激响应分解为Kronecker乘积形式的低秩子分量,并利用分数阶梯度提升鲁棒性。此外,提出一种变换NKP(TNKP)分解策略,结合NKP的快速收敛和传统非NKP算法的低稳态失调。 与已有方法相比新在哪里:首次将NKP分解应用于子带自适应滤波框架;提出了结合NKP和FoSGD的新颖算法;设计了新型TNKP分解策略以降低稳态误差;为有源噪声控制(ANC)场景开发了相应的filtered-x变体(NKP-FxFoNSPN, TNKP-FxFoNSPN)。 主要实验结果如何:在多种噪声(粉红噪声、直升机噪声、枪声、打桩机噪声)下的单通道和多通道ANC仿真及实测实验中,TNKP-FxFoNSPN算法在收敛速度和稳态噪声降低(ANR)方面均优于FxLMS、FxFoNLMP、FxGMCC、FxAPLEHS等基线算法。在系统辨识中,TNKP-FoNSPN在α=0.75的α稳定噪声下取得了与小步长FoNSPN相当的最低稳态NMSD,同时保持了NKP-FoNSPN的快速收敛(论文图10)。 实际意义是什么:为存在强脉冲噪声、非高斯输入以及长冲激响应的ANC场景(如牵引变电站噪声控制)提供了一种潜在更鲁棒、收敛更快的自适应滤波解决方案。 主要局限性是什么:1)分数阶导数链式法则的应用(式38, 41)缺乏严谨的数学推导和理论依据;2)β参数的理论稳定范围(式51)推导基于粗糙假设,不够严格;3)TNKP策略中的切换阈值ρ选择完全依赖经验(取后5000点平均值),缺乏在线自适应指导,且AEC场景下失效(图15);4)NKP技术要求待辨识系统为低秩结构,对高秩系统性能下降严重(论文图13);5)算法性能对初始值ι敏感(图6b)。 🔗 开源详情 代码:论文中未提及代码链接。论文详细描述了所提算法(如 NKP-FoNSPN, TNKP-FoNSPN 等)的伪代码(见论文中 Table 4 和 Table 5)和推导过程,但未提供 GitHub 或其他代码托管平台的仓库链接。 模型权重:论文中未提及。本文为理论方法和算法设计论文,未涉及发布预训练模型或权重文件。 数据集:论文中未提及具体数据集名称或下载链接。仿真实验中使用的噪声(如粉色噪声、直升机噪声、枪声、打桩机噪声、牵引变电站噪声)被用作噪声源,但未指明其来源数据集或提供获取链接。 Demo:论文中未提及在线演示或交互式 Demo。 复现材料:论文中未提供训练脚本、配置文件、检查点文件等具体的复现材料包。论文提供了算法仿真的关键参数设置(如滤波器长度 D=500, 子带数 N=4 等)和详细的伪代码,可作为复现的依据。 论文中引用的开源项目:未提及。论文引用的参考文献主要为学术文献,未列出第三方开源软件库或工具的项目名称与链接。论文中提到的算法(如 FxLMS, FxGMCC, FoNLMP 等)为标准或已发表算法,未指明其具体开源实现。 🏗️ 方法概述和架构 本文提出的核心方法是NKP-FoNSPN算法及其在ANC中的应用变体。该算法是一个端到端的自适应滤波框架,其整体流程为:输入信号→分析滤波器组分解为子带信号→基于NKP分解的分数阶p范数误差准则更新子滤波器→合成总滤波器输出。 ...

2026-05-19 · 更新于 2026-05-19 · 2 min · 277 words

语音/音频论文速递 2026-05-19

语音/音频论文速递 2026-05-19 共分析 34 篇论文 ⚡ 今日概览 📥 抓取 34 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 4篇 ████ #音频深度伪造检测 2篇 ██ #音频生成 2篇 ██ #音频安全 1篇 █ #多模态模型 1篇 █ #音频编码 1篇 █ #音频修复 1篇 █ #医疗音频 1篇 █ 📊 论文评分排行榜(34 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Acoustic Interference: A New Paradigm Weaponizing Acous 8.7分 前25% #音频安全 🥈 CodeBind: Decoupled Representation Learning for Multimo 8.6分 前15% #多模态模型 🥉 SAME: A Semantically-Aligned Music Autoencoder 8.5分 前25% #音频编码 4. A Survey of Advancing Audio Super-Resolution and Bandwi 8.1分 前25% #音频修复 5. MedASR: An Open-Source Model for High-Accuracy Medical 7.9分 前30% #语音识别 6. Speaker-Disentangled Remote Speech Detection of Asthma 7.5分 前50% #医疗音频 7. MusicDET: Zero-Shot AI-Generated Music Detection 7.4分 前25% #音频深度伪造检测 8. VISAFF: Speaker-Centered Visual Affective Feature Learn 7.4分 前25% #对话情感识别 9. Robust Audio Tagging under Class-wise Supervision Unrel 7.3分 前25% #音频分类 10. SIREM: Speech-Informed MRI Reconstruction with Learned 7.3分 前40% #医学图像重建 11. Sonalyzer-Moz: A Framework for Analyzing the Structure 7.3分 前50% #音乐结构分析 12. Omni-Customizer: End-to-End MultiModal Customization fo 7.3分 前25% #音视频 13. Contextual Biasing for Streaming ASR via CTC-based Word 7.2分 前50% #语音识别 14. Beyond Transcripts: Iterative Peer-Editing with Audio U 7.2分 前50% #语音摘要 15. UrduSpeech: A 156-Hour Urdu Speech Corpus with 12-Dimen 7.0分 前25% #语音识别 16. Audio-Image Cross-Modal Retrieval with Onomatopoeic Ima 7.0分 前50% #音频检索 17. Profiling the Voice: Speaker-Specific Phoneme Fingerpri 7.0分 前50% #语音伪造检测 18. Voice ‘‘Cloning’’ is Style Transfer 7.0分 前25% #语音克隆 19. SemaVoice: Semantic-Aware Continuous Autoregressive Spe 6.8分 前50% #语音合成 20. Stable Audio 3 6.8分 前25% #音频生成 21. Taming Audio VAEs via Target-KL Regularization 6.7分 前50% #音频生成 #语音合成 22. WavFlow: Audio Generation in Waveform Space 6.7分 前25% #音频生成 23. Can Large Audio Language Models Ignore Multilingual Dis 6.5分 前50% #音频问答 24. PAREDA: A Multi-Accent Speech Dataset of Natural Langua 6.5分 前50% #语音数据集 25. Flexible Multi-Channel Target Speaker Extraction Using 6.3分 中等偏上 #说话人提取 26. Sometin Beta Pass Notin (SBPN): Improving Multilingual 6.2分 前50% #语音识别 27. A Fast Robust Adaptive filter using Improved Data-Reuse 6.2分 前50% #声学回声消除 28. Robust Soft-Constrained Spatially Selective Active Nois 5.7分 前25% #音频增强 29. Analyzing Error Propagation in Korean Spoken QA with AS 5.6分 前50% #语音问答 30. S2Accompanist: A Semantic-Aware and Structure-Guided Di 5.6分 前50% #音乐生成 31. A Distribution Matching Approach to Neural Piano Transc 5.5分 前50% #音乐转录 32. EnvTriCascade: An Environment-Aware Tri-Stage Cascaded 5.3分 前50% #音频深度伪造检测 33. Fractional-Order Subband p-Norm Adaptive Filter via Tra 5.0分 前50% #自适应滤波 34. Bridging the Gap: Converting Read Text to Conversationa 3.1分 后50% #语音转换 📋 论文列表 🥇 Acoustic Interference: A New Paradigm Weaponizing Acoustic Latent Semantic for Universal Jailbreak against Large Audio Language Models 🔥 8.7/10 | 前25% | #音频安全 | #对抗样本 | #多模态模型 #基准测试 | arxiv ...

2026-05-19 · 更新于 2026-05-19 · 23 min · 4805 words

Forward Convolutive Prediction for Frame Online Monaural Speech Dereverberation based on Kronecker Product Decomposition

📄 Forward Convolutive Prediction for Frame Online Monaural Speech Dereverberation based on Kronecker Product Decomposition #语音增强 #信号处理 #Kronecker分解 #在线处理 ✅ 7.5/10 | 前50% | #语音增强 | #信号处理 | #Kronecker分解 #在线处理 学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度 中 👥 作者与机构 第一作者:Yujie Zhu(武汉大学电子信息学院) 通讯作者:未说明 作者列表:Yujie Zhu(武汉大学电子信息学院),Jilu Jin(西北工业大学CIAIC),Xueqin Luo(西北工业大学CIAIC),Wenxing Yang(上海理工大学东方泛血管器械创新学院),Zhong-Qiu Wang(南方科技大学计算机科学与工程系),Gongping Huang(武汉大学电子信息学院),Jingdong Chen(西北工业大学CIAIC),Jacob Benesty(加拿大魁北克大学INRS-EMT) 💡 毒舌点评 亮点:本文成功地将计算复杂的长线性预测滤波器,通过Kronecker积(KP)分解为两个短滤波器的乘积,并提供了有效的自适应更新算法,在保持或略微提升性能(在P值较大时)的同时,显著降低了计算量,为实时单通道去混响提供了更可行的工程方案。短板:论文的核心贡献是将现有的KP分解框架“嫁接”到FCP方法上,属于一个系统集成的创新,而非底层理论的突破。此外,第一阶段的DNN(GTCRN)是现成的架构,并未提出新的网络设计。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:使用了公开的VCTK数据集,但未提及本工作特有的数据或预处理脚本。 Demo:未提及。 复现材料:论文提供了关键算法伪代码(Algorithm 1)和部分超参数设置(如K, K1, K2, α1, α2),为复现提供了基础。但缺失了DNN训练细节(损失函数、具体架构参数、训练时长等),使得完整复现非常困难。 论文中引用的开源项目:提到了GTCRN模型,但未提供其具体实现链接或出处引用。 📌 核心摘要 这篇论文针对单通道语音去混响中计算复杂度高的问题,提出了基于Kronecker积(KP)分解的前向卷积预测(FCP)方法。其核心思想是将原本很长的线性预测滤波器,建模为两个长度短得多的滤波器的KP,从而大幅减少参数量和计算负担。与传统的FCP方法相比,新方法在滤波器更新阶段引入了KP分解框架,并通过基于递归最小二乘(RLS)的自适应算法迭代更新这两个短滤波器。实验在模拟的混响环境(VCTK数据集)中进行,结果表明,当KP分解的阶数P选择合适(如P=4或5)时,KP-FCP方法在PESQ和FWSNR等指标上能够达到甚至超过传统FCP的性能,同时计算复杂度显著降低。例如,在T60=400ms条件下,KP-FCP(P=5)的PESQ为1.837,优于FCP(online)的1.709。该研究为资源受限场景下的实时单通道语音去混响提供了一种高效的解决方案。主要局限性在于,第一阶段的神经网络部分采用了现有架构,且KP分解阶数P的选择需要权衡性能与效率。 ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 338 words

Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control

📄 Synchronous Secondary Path Modeling and Kronecker-Factorized Adaptive Algorithm for Multichannel Active Noise Control #主动噪声控制 #Kronecker分解 #信号处理 #多通道 #实时处理 ✅ 7.0/10 | 前25% | #主动噪声控制 | #Kronecker分解 #信号处理 | #Kronecker分解 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 通讯作者:未说明 作者列表:Siyuan Lian(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Lu Bai(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Tianyou Li(南京大学现代声学实验室,南京大学-蔚来智能音频实验室)、Kai Chen(南京大学)、Jing Lu(南京大学现代声学实验室,南京大学-蔚来智能音频实验室) 💡 毒舌点评 这篇论文的亮点在于将Kronecker分解(KPD)这一经典工具巧妙地“移植”到多通道ANC的次级路径建模中,利用声学路径天然的低秩特性实现了“又快又准”的同步建模,思路清晰且实验验证扎实。然而,其短板在于对“低秩性”这一核心假设的普适性讨论略显不足,且在实际系统部署中如何动态选择最优秩P值缺乏指导,使得该方法更像是一个针对特定场景(空间相关性强)的优化,而非普适的解决方案。 🔗 开源详情 代码:论文中未提及代码链接。 模型权重:未提及。 数据集:实验数据为自采集,未提及公开。 Demo:未提供在线演示。 复现材料:论文给出了部分关键参数(采样率、滤波器长度、J₁/J₂值、步长),但未提供完整的训练/测试脚本、配置文件或预训练检查点。 论文中引用的开源项目:未提及依赖的开源工具或模型。 总结:论文中未提及开源计划。 📌 核心摘要 要解决的问题:在多通道主动噪声控制(ANC)系统中,传统顺序建模方法耗时过长,而同步建模方法(如Wiener滤波)又因高维矩阵求逆导致计算复杂度过高,难以在大规模系统中实时应用。 方法核心:提出一种基于Kronecker乘积分解(KPD)的同步次级路径建模方法,利用次级路径矩阵的低秩特性,将高维路径向量分解为两个低维因子的乘积,通过迭代交替求解这两个因子来实现快速、低复杂度的建模。在此基础上,进一步开发了Kronecker分解滤波参考最小均方(KF-FxLMS)算法,直接利用分解后的因子计算滤波参考信号,避免重建完整路径响应,再次降低自适应更新阶段的计算量。 创新之处:将KPD引入多通道ANC的次级路径建模领域,相比传统Wiener同步方法,将计算复杂度从O((CJ)^3)降低至O((PCJ₁)^3) + O((PJ₂)^3)(其中P为低秩近似阶数,远小于CJ),并在建模后阶段通过KF-FxLMS将滤波计算复杂度从O(CJ)降低至O(PCJ₁ + PJ₂)。论文通过实验验证了在实际房间环境中,次级路径矩阵确实具有低秩特性。 主要实验结果:在1×8×8的ANC系统(8个控制源,8个误差麦克风)中,所提KPD方法仅需1秒建模信号即可达到低于-20 dB的归一化建模误差(NME),而传统Wiener同步方法在同样1秒数据下误差高达-8.5 dB。使用该快速建模结果(P=5)进行降噪,其性能(降噪18.7 dB)与使用5秒精确建模的Wiener方法相当,且远优于1秒Wiener方法(降噪14.3 dB)。具体NME对比见下表: 建模方法 建模信号长度 P值 NME (dB) Wiener (同步) 1 秒 - -8.5 KPD (同步) 1 秒 2 -19.7 KPD (同步) 1 秒 5 -25.3 KPD (同步) 1 秒 8 -27.1 Wiener (同步) 5 秒 - -50.1 KPD (同步) 5 秒 2 -21.4 KPD (同步) 5 秒 5 -30.6 KPD (同步) 5 秒 8 -39.5 实际意义:为大规模、多通道的ANC系统(如虚拟声屏障、汽车座舱降噪)提供了一种兼顾建模速度、精度和计算效率的实用解决方案,使其更易于在资源受限的实时平台上部署。 主要局限性:方法的有效性严重依赖次级路径矩阵的低秩假设,其普适性在不同声学环境下有待进一步验证。此外,论文未讨论如何自动或自适应地选择最优秩P,P值的选取对性能有显著影响。 🏗️ 模型架构 该论文描述的是一个完整的多通道ANC系统,其核心流程与架构如下: ...

2026-04-29 · 更新于 2026-05-19 · 2 min · 329 words