卷积循环神经网络

📄 Predictive Directional Selective Fixed-Filter Active Noise Control for Moving Sources via a Convolutional Recurrent Neural Network #声源定位 #卷积循环神经网络 #麦克风阵列 #实时处理 #信号处理 ✅ 7.5/10 | 前25% | #声源定位 | #卷积循环神经网络 | #麦克风阵列 #实时处理 | arxiv 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Boxiang Wang (南洋理工大学电气与电子工程学院，boxiang001@e.ntu.edu.sg) 通讯作者：Zhengding Luo (南洋理工大学电气与电子工程学院，luoz0021@e.ntu.edu.sg) 作者列表：Boxiang Wang (南洋理工大学电气与电子工程学院)、Zhengding Luo* (南洋理工大学电气与电子工程学院)、Dongyuan Shi (西北工业大学智能声学与沉浸式通信中心)、Junwei Ji (西北工业大学智能声学与沉浸式通信中心)、Xiruo Su (西北工业大学智能声学与沉浸式通信中心)、Woon-Seng Gan (南洋理工大学电气与电子工程学院) 💡 毒舌点评这篇论文的亮点在于巧妙地将卷积循环神经网络（CRNN）的“预测”能力引入到方向选择性固定滤波器主动噪声控制（D-SFANC）框架中，通过提前选择滤波器有效解决了运动源跟踪的延迟问题，思路清晰且具有实用性。然而，论文的对比基线略显陈旧（如传统的FxLMS），且实验设置高度简化（单声源、远场假设、固定圆形轨迹），在复杂真实声场（如多声源、强混响、非规则运动）下的鲁棒性尚未得到验证，其宣称的“优越性”仍有局限。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/Wang-Boxiang/PD-SFANC。模型权重：未提及是否公开预训练的CRNN权重。数据集：未提及是否公开训练和测试所用的数据集。论文指出使用了合成数据和UrbanSound8K。 Demo：未提及在线演示。复现材料：论文给出了主要的仿真参数表（表2）和数据集配置描述（表3），但未提供完整的训练细节（如学习率、batch size、优化器参数）、训练硬件信息、或可直接运行的脚本和配置文件。论文中引用的开源项目：论文未明确列出引用的开源项目，但提到了使用图像法进行RIR仿真的工作（diaz2021gpurir）。 📌 核心摘要要解决什么问题：传统的方向选择性固定滤波器主动噪声控制（D-SFANC）方法对非平稳运动噪声源的响应存在延迟，导致降噪性能下降。方法核心是什么：提出一种预测性方向选择性固定滤波器主动噪声控制（PD-SFANC）方法，利用卷积循环神经网络（CRNN）从多帧上下文中提取时空特征，预测下一帧噪声源的到达方向（DoA），并提前选择对应的控制滤波器，实现“主动”降噪。与已有方法相比新在哪里：新在将CRNN的预测能力集成到SFANC框架中，变被动响应为主动选择；相比传统的自适应FxLMS算法，收敛快且无发散风险；相比无预测能力的D-SFANC，解决了滤波器切换延迟；相比依赖传统信号处理的DFG-SFANC，无需人工调参。主要实验结果如何：在恒速和变速运动场景的仿真中，PD-SFANC的平均降噪水平（NRL）稳定在15 dB以上，优于FxLMS、D-SFANC和DFG-SFANC。CRNN在不同混响和信噪比条件下的DoA分类准确率超过87%，在20dB及以上信噪比时超过90%。实际意义是什么：为移动设备（如吸尘器、无人机）产生的噪声提供了一种低延迟、高性能的主动降噪解决方案，其双模块架构（协处理器+实时控制器）适合在资源受限的嵌入式设备上部署。主要局限性是什么：研究基于单声源和远场假设，未验证多声源场景；仿真实验的运动轨迹（圆形）相对简单，未测试更复杂的现实运动模式；CRNN的泛化能力在极端混响和低信噪比下有所下降。 🏗️ 模型架构论文中的系统架构包含两个并行模块：实时控制器和协处理器。整体数据流与交互如下： ...

语音/音乐/音频论文速递 2026-04-28 共分析 24 篇论文 ⚡ 今日概览 📥 抓取 24 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #语音合成 2篇 ██ #语音伪造检测 2篇 ██ #音视频 1篇 █ #音频大模型 1篇 █ #语音生物标志物 1篇 █ #语音生成 1篇 █ #语音情感识别 1篇 █ #图神经网络 1篇 █ 📊 论文评分排行榜（24 篇，按分数降序）排名论文评分分档主任务 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avata 8.5分前25% #音视频 🥈 HeadRouter: Dynamic Head-Weight Routing for Task-Adapti 8.0分前25% #音频大模型 🥉 Comparison of sEMG Encoding Accuracy Across Speech Mode 8.0分前25% #语音生物标志物 4. Scaling Properties of Continuous Diffusion Spoken Langu 8.0分前25% #语音生成 5. Psychologically-Grounded Graph Modeling for Interpretab 8.0分前25% #语音情感识别 6. Latent-Hysteresis Graph ODEs: Modeling Coupled Topology 8.0分前25% #图神经网络 7. Meta-Ensemble Learning with Diverse Data Splits for Imp 8.0分前25% #音频分类 8. CineAGI: Character-Consistent Movie Creation through LL 8.0分前25% #跨模态 9. Listening with Time: Precise Temporal Awareness for Lon 8.0分前25% #音频场景理解 10. An event-based sequence modeling approach to recognizin 7.5分前25% #音乐理解 11. Speech Enhancement Based on Drifting Models 7.5分前25% #语音增强 12. Talker-T2AV: Joint Talking Audio-Video Generation with 7.5分前25% #语音合成 13. Explainable AI in Speaker Recognition – Making Latent 7.5分前25% #说话人识别 14. Predictive Directional Selective Fixed-Filter Active No 7.5分前25% #声源定位 15. RAS: a Reliability Oriented Metric for Automatic Speech 7.5分前25% #语音识别 16. Robust Audio-Text Retrieval via Cross-Modal Attention a 7.5分前25% #音频检索 17. RTCFake: Speech Deepfake Detection in Real-Time Communi 7.0分前25% #语音伪造检测 18. MAGIC-TTS: Fine-Grained Controllable Speech Synthesis w 7.0分前25% #语音合成 19. TTS-PRISM: A Perceptual Reasoning and Interpretable Spe 7.0分前25% #语音合成评估 20. All That Glitters Is Not Audio: Rethinking Text Priors 6.5分前50% #音频问答 21. Opening the Design Space: Two Years of Performance with 6.5分前50% #音乐生成 22. Spectro-Temporal Modulation Representation Framework fo 6.5分前50% #语音伪造检测 23. Come Together: Analyzing Popular Songs Through Statisti 6.5分前50% #音乐信息检索 24. A Functorial Formulation of Neighborhood Aggregating De 6.5分前25% #理论分析 📋 论文列表 🥇 Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation 🔥 8.5/10 | 前25% | #音视频 | #扩散模型 | #知识蒸馏 #流式处理 | arxiv ...