Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid

📄 Feasibility of Time-Domain DNN-Based Speech Enhancement on Embedded FPGA for Hearing Aid #语音增强 #助听器 7.2/10 | 创新 1.2/2 | 严谨 1.1/1.5 | 实验 1.4/1.5 | 清晰 1/1 | 影响 0.8/1.5 | 开源 0.4/1.5 | 复现 0.4/0.5 | 工程 0.9/1.5 ✅ 7.2/10 | 前50% | #语音增强 | #助听器 | arxiv 👥 作者与机构 Feyisayo Olalere, Umut Altin, Kiki van der Heijden, Marcel van Gerven 机构:Radboud University, Donders Institute for Brain, Cognition, and Behaviour, The Netherlands;Columbia University, USA. ...

2026-06-04 · 更新于 2026-06-12 · 3 min · 445 words

语音/音乐/音频论文速递 2026-06-04

语音/音乐/音频论文速递 2026-06-04 共分析 22 篇论文 ⚡ 今日概览 📥 抓取 22 篇 → 🔬 深度分析完成 🏷️ 热门方向 方向 数量 分布 #语音识别 3篇 ███ #音频分类 2篇 ██ #音频生成 2篇 ██ #语音增强 2篇 ██ #多模态模型 1篇 █ #语音编码 1篇 █ #空间音频 1篇 █ #音乐生成 1篇 █ 📊 论文评分排行榜(22 篇,按分数降序) 排名 论文 总分 分档 主任务 🥇 Multilingual Long-Form Speech Instruction Following: KI 10.0分 前10% #语音识别 🥈 Drift-Augmented Scoring: Text-Derived Noise Robustness 10.0分 前25% #音频分类 🥉 DetectZoo: A Unified Toolkit for AI-Generated Content D 9.3分 前25% #多模态模型 4. CleanCodec: Efficient and Robust Speech Tokenization vi 8.8分 前25% #语音编码 5. Read What You Hear: Reference-Free Hypotheses Evaluatio 8.6分 前25% #语音识别 6. UAT: Unified Audio-Text Diffusion for Audio Generation, 8.5分 前25% #音频生成 7. Flow-HOA: Generative Joint Optimization for Ambisonics 7.9分 前25% #空间音频 8. Test-Time Compute Scaling for ASR with Depth-Conditione 7.8分 前25% #语音识别 9. Channel-Oriented Design for EEG-to-Music Reconstruction 7.7分 前25% #音乐生成 10. Entity Binding Failures in Speech LLM Reasoning: Diagno 7.5分 前25% #语音问答 11. Video2LoRA: Parametric Video Internalization for Vision 7.5分 前50% #参数高效微调 12. Feasibility of Time-Domain DNN-Based Speech Enhancement 7.2分 前50% #语音增强 13. Differentiable Articulatory Copy-Synthesis of Biphonic 7.1分 前50% #音频生成 14. The Differentiable Auditory Loop (DAL): An ML Framework 7.1分 前50% #语音增强 15. Masked Wavelet Scattering Transform Neural Field for So 6.7分 前50% #音频质量评估 16. SHB-AE: Spherical harmonic beamforming based Ambisonics 6.7分 前50% #音频编码 17. SURF: Separation via Unsupervised Remixing Flow 6.4分 前25% #无监督学习 18. Gauss Circle Lattices with Geometric Convolutions for S 6.0分 前50% - 19. Plan First, Judge Later, Run Better: A DMAIC-Inspired A 5.8分 前50% #工业应用 20. Representation Matters in Randomized Smoothing for Audi 5.7分 前50% #音频分类 21. Neural Radiated-Noise Fields for Unmanned Underwater Ve 5.1分 前50% - 22. A Second-Order Cepstral Signature of Contact-Vibration 4.8分 后50% #信号处理基础 📋 论文列表 🥇 Multilingual Long-Form Speech Instruction Following: KIT's Submission to IWSLT 2026 10.0/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.3/1.5 | 清晰 1/1 | 影响 1.5/1.5 | 开源 1.5/1.5 | 复现 0.5/0.5 | 工程 1.5/1.5 ...

2026-06-04 · 更新于 2026-06-12 · 14 min · 2920 words

Beamforming Using Virtual Microphones for Hearing Aid Applications

📄 Beamforming Using Virtual Microphones for Hearing Aid Applications #语音增强 #波束成形 #麦克风阵列 #助听器 #低复杂度 ✅ 7.5/10 | 前50% | #语音增强 | #波束成形 | #麦克风阵列 #助听器 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Mojtaba Farmani(Eriksholm Research Centre, Snekkersten, Denmark; Department of Electronic Systems, Aalborg University, Aalborg, Denmark) 通讯作者:未说明 作者列表:Mojtaba Farmani(Eriksholm Research Centre & Aalborg University)、Svend Feldt(Eriksholm Research Centre)、Jesper Jensen(Eriksholm Research Centre) 💡 毒舌点评 论文的核心亮点在于将虚拟麦克风的生成从复杂的相位-幅度分离插值(如GAI)或依赖几何信息的建模,简化为一个基于WDO假设的幂函数模型(式4),理论推导优雅且计算成本极低,非常适合助听器芯片。短板在于,作为一篇声称“ superior performance ”的论文,其对比基线(GAI和扩展GAI)略显保守,未与近年来性能更强的基于神经网络的虚拟麦克风方法进行直接对比,削弱了“SOTA”宣称的说服力。 ...

2026-04-29 · 更新于 2026-06-12 · 1 min · 210 words