A Noval Monte Carlo Gradient Method Based on Meta-Learning for Effective Step-Size Selection in Active Noise Control

📄 A Noval Monte Carlo Gradient Method Based on Meta-Learning for Effective Step-Size Selection in Active Noise Control #噪声控制 #元学习 #信号处理 #自适应滤波器 ✅ 6.5/10 | 前50% | #噪声控制 | #元学习 | #信号处理 #自适应滤波器 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度 高 👥 作者与机构 第一作者:Luyuan Li(西北工业大学 智能声学与沉浸式通信中心) 通讯作者:未明确说明(根据惯例,可能为通讯单位NTU的Woon-seng Gan,但论文中未明确标注) 作者列表:Luyuan Li(西北工业大学)、Jisheng Bai(西安邮电大学 通信与信息工程学院)、Xiruo Su(浙江大学 网络多媒体技术浙江省重点实验室)、Xiaoyi Shen(中国科学院声学研究所 声学与海洋信息国家重点实验室)、Dongyuan Shi(西北工业大学)、Woon-seng Gan(南洋理工大学 电气与电子工程学院) 💡 毒舌点评 这篇论文巧妙地将元学习“学会学习”的思想应用于解决ANC中“如何选步长”这个痛点,想法很有趣,且理论上不增加在线计算负担是很大亮点。不过,验证它的实验停留在仿真阶段,缺少在真实降噪耳机或车载产品上的“真枪实弹”检验,说服力打了个折扣;而且“无代码无数据”的状态,让想复现的同行基本无从下手。 📌 核心摘要 要解决什么问题:经典的FxLMS算法在主动噪声控制中,其性能高度依赖步长参数μ的选择。传统变步长方法经验性强、泛化能力有限,且会增加计算负担。 方法核心:提出一种基于蒙特卡洛梯度的元学习(MCGM)方法。核心思想是:在FxLMS算法运行前,利用当前环境下的噪声数据(通过蒙特卡洛采样构造多个任务),通过梯度下降离线“学习”一个最优的固定步长μ。方法中引入了遗忘因子λ,以减轻控制滤波器初始化为零带来的“初始零效应”影响。 与已有方法相比新在哪里: 理念新:将步长选择视为一个可学习的元问题,而非在线调整或经验设定。 机制新:利用蒙特卡洛采样模拟任务分布,结合梯度下降直接优化步长参数,而非设计复杂的步长函数。 负担低:学习过程在算法运行前完成,不增加FxLMS在线运行时的计算量,这与多数变步长方法不同。 主要实验结果:在仿真中,使用了真实声学路径和多种真实噪声(直升机、交通、手推车、街道噪声)。实验表明: MCGM方法在宽带噪声下,收敛速度和稳态降噪量均优于理论步长、归一化步长、变步长和组合步长方法(图4)。 在四种真实世界噪声下,MCGM方法均能达到约40 dB的平均降噪量,而其他方法只在特定噪声类型下表现良好(图5)。 当次级路径发生10%-30%的失配时,MCGM方法仍能保持较好的降噪性能,表现出一定鲁棒性(图6)。 (注:论文中所有图表均为曲线图,未提供包含具体数值的对比表格。) 实际意义:为ANC系统提供了一种自动化、低计算开销的步长优化方案,有望提升FxLMS算法在不同噪声环境下的适应性和初始收敛速度,对实际ANC产品(如耳机、汽车座椅)的快速降噪有潜在应用价值。 主要局限性: 实验仅限于仿真环境,未在真实硬件原型(如降噪耳机)上验证。 训练数据依赖于当前环境噪声的采样,对于噪声统计特性突变的场景,是否需要重新训练未讨论。 论文未公开代码和数据,可复现性差。 🏗️ 模型架构 本文并非提出一个神经网络模型,而是提出一个算法框架,用于优化经典自适应滤波器(FxLMS)的超参数(步长μ)。 ...

2026-04-29

Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control

📄 Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control #音频安全 #元学习 #信号处理 #少样本学习 #自适应滤波 ✅ 7.5/10 | 前25% | #音频安全 | #元学习 | #信号处理 #少样本学习 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 通讯作者:Zhengding Luo (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 作者列表:Ziyi Yang (南洋理工大学)、Li Rao (南京大学声学研究所现代声学重点实验室)、Zhengding Luo (南洋理工大学, 通讯作者)、Dongyuan Shi (西北工业大学)、Qirui Huang (南洋理工大学)、Woon-Seng Gan (南洋理工大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙的工程切入点:不改变工业界广泛使用的FxLMS算法本身,而是通过一个“离线学习、在线简单设置”的元学习初始化模块来提升其性能,这种“即插即用”的兼容性思维非常务实。但其短板也很明显:验证场景过于“温和”和“干净”——仅在预录的路径切换实验上演示效果,缺乏对真实世界中连续、渐变、非平稳声学环境变化的长期跟踪评估,使得结论的鲁棒性打了折扣。 ...

2026-04-29

Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification

📄 Meta-Ensemble Learning with Diverse Data Splits for Improved Respiratory Sound Classification #音频分类 #集成学习 #元学习 #数据增强 #生物声学 🔥 8.0/10 | 前25% | #音频分类 | #集成学习 | #元学习 #数据增强 | arxiv 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:June-Woo Kim (Wonkwang University, Electronic Engineering) 通讯作者:Kyunghoon Kim (Seoul National University Bundang Hospital) 作者列表: June-Woo Kim (Wonkwang University, Electronic Engineering) Miika Toikkanen (RSC LAB, MODULABS) Heejoon Koo (RSC LAB, MODULABS) Yoon Tae Kim (RSC LAB, MODULABS) Doyoung Kwon (AICU Global Inc.) Kyunghoon Kim (Seoul National University Bundang Hospital) 💡 毒舌点评 亮点在于将“数据划分多样性”这个简单思想系统性地与元学习框架结合,并在医疗音频的泛化难题上取得了扎实的验证;短板是作为核心的元模型(两层MLP)过于朴素,且整个框架高度依赖所选的基础模型(BTS),缺乏对自身架构为何有效的深入理论分析。 ...

2026-04-28

语音/音频论文速递 2026-04-28

语音/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜(24 篇,按分数降序) 排名 论文 评分 分档 主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分 前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分 前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分 前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分 前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分 前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分 前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分 前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分 前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分 前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分 前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分 前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分 前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分 前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分 前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分 前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分 前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分 前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分 前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分 前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分 前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分 前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分 前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分 前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分 前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...

2026-04-28