回声消除 | 语音/音乐/音频论文速递

LMPAN: A Lightweight Multi-Path Alignment Network for Joint Full-Duplex Acoustic Echo Cancellation and Noise Suppression

📄 LMPAN: A Lightweight Multi-Path Alignment Network for Joint Full-Duplex Acoustic Echo Cancellation and Noise Suppression #回声消除 #语音增强 #自监督学习 6.2/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1.1/1.5 | 清晰 0.6/1 | 影响 0.9/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1.2/1.5 ✅ 6.2/10 | 前50% | #语音增强 | #自监督学习 | #回声消除 | arxiv 👥 作者与机构第一作者：Chengwei Liu（Qwen Business Unit of Alibaba, China）通讯作者：未明确说明，但根据惯例及作者署名，或为共同通讯作者。Shaofei Xue（Qwen Business Unit of Alibaba / TongYi AI Lab）与 Haoyin Yan（TongYi AI Lab of Alibaba Group）均有可能。作者列表：Chengwei Liu（Qwen Business Unit of Alibaba）、Shaofei Xue（Qwen Business Unit of Alibaba / TongYi AI Lab）、Haoyin Yan（TongYi AI Lab of Alibaba Group）、Xiaotao Liang（Qwen Business Unit of Alibaba）、Zheng Xue（Qwen Business Unit of Alibaba） 💡 毒舌点评本文的轻量级多路径对齐和两阶段SSL训练是在极低资源预算下的务实组合，将AEC+NS做到了可与更大参数模型竞争的水平，对下游ASR/VAD的提升也颇具说服力。然而，工作更多是已知组件（GTCRN、WavLM、软对齐）的系统化集成，缺乏原理性洞察。全篇未提供任何代码或模型，连batch size、GPU型号等基础训练配置都隐去，复现几乎不可能。动态目标适应带来的收益不如两阶段训练本身，且反而拉低了AECMOS，论文对此闪烁其词。此外，SERt的消融在模拟数据上进行，结论能否迁移到真实环境存疑。整体像一份精心包装的内部技术报告而非完整学术贡献。 ...

语音/音乐/音频论文速递 2026-07-03

语音/音乐/音频论文速递 2026-07-03 共分析 31 篇论文 ⚡ 今日概览 📥 抓取 31 篇 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音频分类 4篇 ████ #声源定位 4篇 ████ #语音识别 4篇 ████ #语音交互 3篇 ███ #语音合成 3篇 ███ #音视频理解 2篇 ██ #语音增强 2篇 ██ #音乐理解 1篇 █ 📊 论文评分排行榜（31 篇，按分数降序）排名论文总分分档主任务 🥇 Unlocking Speech-Text Compositional Powers: Instruction 8.5分前25% #语音交互 🥈 Decomposer: Learning to Decompile Symbolic Music to Pro 8.4分前25% #音乐理解 🥉 A global predicted-fMRI drive signal from TRIBE does no 7.7分前25% #音视频理解 4. Cross Domain Few-Shot Class-Incremental Audio Classific 7.4分前50% #音频分类 5. Self-Supervised Test-Time Tuning for Packet Loss Concea 7.4分前50% #音频修复 6. Reasoning LLM Improves Speaker Recognition in Long-form 7.2分前50% #音视频理解 7. SelectTSL: Prompt-Guided Selective Target Sound Localiz 7.1分前50% #声源定位 8. Enhancing Acoustic-to-Articulatory Inversion with Multi 7.0分前50% #语音交互 9. TurnNat: Automatic Evaluation of Turn-Taking Naturalnes 7.0分前50% #语音交互 10. Audio-Based Understanding of Audiobook Narration Appeal 6.9分前50% #语音属性识别 11. H-SAGE: Holistic Speaker-Aware Guided Experts for MoE-b 6.9分前50% #语音识别 12. An Efficient vLLM-Based Inference Pipeline for Unified 6.8分前50% #语音合成 13. Few-Shot Open-Set Audio Classification Using Attention 6.8分前50% #音频分类 14. Beyond Words: Towards Effective Modeling of Non-Verbal 6.4分前50% #语音识别 15. LMPAN: A Lightweight Multi-Path Alignment Network for J 6.2分前50% #语音增强 16. NAVER LABS Europe Submission to the Instruction-followi 6.2分前50% #语音翻译 17. Pmeta-TLA: Backdoor Attacks for Speech Classification M 6.0分前50% #语音唤醒 18. Neural Audio Codec with Adjustable Token Temporal Resol 5.8分前50% - 19. SPARCLE: SPeaker-aware Aligned Representations via Cont 5.8分前50% #语音合成 20. Speaker head orientation estimation with a single micro 5.8分前50% #声源定位 21. Towards a Phonology-Informed Evaluation of Multilingual 5.7分前50% #语音质量评估 22. Rethinking Speech-LLM Integration for ASR: Effective Jo 5.6分前50% #语音识别 23. RT-Tango: Real-Time Distributed Binaural Speech Enhance 5.5分前50% #语音增强 24. Quantifying the Uncertainty of Blindly Estimated Room E 5.2分后50% #音频检索 25. CNN Models for Microphone Array Covariance Matrix Upsam 5.0分后50% #声源定位 26. A Multi-Branch Hierarchy-Aware Framework for Heterogene 4.9分后50% #音频分类 27. From Monolingual to Multilingual: Evaluating Mamba for 4.8分后50% #语音识别 28. DRL-CLBA: A Clean Label Backdoor Attack for Speech Clas 4.7分后50% #音频分类 29. Spatial Speech Perception Systems: A Survey of Sound So 4.1分后50% #声源定位 30. UT-AISTimprt submission for ICME 2026 Grand Challenge o 4.1分后50% #音乐生成 31. Using embeddings to predict spoken word duration and pi 4.0分后50% #语音合成 📋 论文列表 🥇 Unlocking Speech-Text Compositional Powers: Instruction-Following Speech Language Models without Instruction Tuning 8.5/10 | 创新 1.6/2 | 严谨 1.3/1.5 | 实验 1.3/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 1.1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 ...

DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise

📄 DiffVQE: Hybrid Diffusion Voice Quality Enhancement Under Acoustic Echo and Noise #语音增强 #扩散模型 #回声消除 #语音质量评估 #单步扩散 ✅ 6.2/10 | 前30% | #语音增强 | #扩散模型 | #回声消除 #语音质量评估 | arxiv 学术质量 6.2/8 | 影响力 0.9/2 | 可复现性 0.8/1 | 置信度高 👥 作者与机构第一作者：Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology) 通讯作者：未提及作者列表：Haljan Lugo Girao (Technische Universität Braunschweig, Institute for Communications Technology), Ernst Seidel (Technische Universität Braunschweig, Institute for Communications Technology), Pejman Mowlaee (GN Advanced Science), Ziyue Zhao (GN Advanced Science), Tim Fingscheidt (Technische Universität Braunschweig, Institute for Communications Technology) 💡 毒舌点评这篇论文的核心贡献在于尝试将单步条件扩散模型应用于AEC任务，并给出了一个声称可复现的框架。其在部分语音质量指标上超越了重新训练的DeepVQE基线，且模型更轻量，这展示了生成模型在AEC领域的潜力。然而，论文的创新程度有限，其核心单步扩散框架直接借自EffDiffSE，真正的“新意”在于架构调整和数据适配。致命的缺陷在于缺乏关键的消融实验，无法证明Cond DNN、Score DNN以及单步策略各自必要性，使得结论说服力大打折扣。此外，尽管标题和摘要声称“excel”在“echo and noise control performance”，但实验数据显示其在回声抑制（Echo）指标上并未优于甚至略逊于DeepVQE，结论的表述存在过度推广之嫌。 ...

ICASSP 2026 - 回声消除论文列表

ICASSP 2026 - 回声消除共 1 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 Maximum Likelihood Measurement Noise Estimation for Block-Ti 7.0分前50% 📋 论文详情 🥇 Maximum Likelihood Measurement Noise Estimation for Block-Time Domain Kalman Filters ✅ 7.0/10 | 前50% | #回声消除 | #信号处理 #卡尔曼滤波器 | #信号处理 #卡尔曼滤波器 👥 作者与机构第一作者：Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems) 通讯作者：Till Hardenbicker (邮箱: hardenbicker@iks.rwth-aachen.de) 作者列表：Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems)、Jan Schneider (RWTH Aachen University, Institute of Communication Systems，推测同单位)、Peter Jax (RWTH Aachen University, Institute of Communication Systems，推测同单位) 💡 毒舌点评 ...

Maximum Likelihood Measurement Noise Estimation for Block-Time Domain Kalman Filters

📄 Maximum Likelihood Measurement Noise Estimation for Block-Time Domain Kalman Filters #回声消除 #信号处理 #卡尔曼滤波器 #噪声估计 #自适应滤波 #在线学习 ✅ 7.0/10 | 前50% | #回声消除 | #信号处理 #卡尔曼滤波器 | #信号处理 #卡尔曼滤波器学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems) 通讯作者：Till Hardenbicker (邮箱: hardenbicker@iks.rwth-aachen.de) 作者列表：Till Hardenbicker (RWTH Aachen University, Institute of Communication Systems)、Jan Schneider (RWTH Aachen University, Institute of Communication Systems，推测同单位)、Peter Jax (RWTH Aachen University, Institute of Communication Systems，推测同单位) 💡 毒舌点评这篇论文的亮点在于其务实的工程思维：没有追求天马行空的理论，而是精准定位到BTKF在实际应用中缺失的一环——噪声估计，并巧妙地引入Toeplitz结构假设和起始点检测来稳定估计过程，显示出扎实的信号处理功底。短板则在于实验论证的“闭环”不够紧密，摘要中反复强调BTKF的收敛速度优势，但在实验部分几乎没有提供任何关于收敛速度的定量数据或图表，使得这一核心宣称未能得到充分支撑，说服力打折扣。 ...