语音增强 | 语音/音乐/音频论文速递

ICML 2026 语音/音频论文详细分析

ICML 2026 语音/音频论文详细分析共分析 137 篇 ICML 2026 论文 🎯 任务分类点击任务标签查看该方向所有论文：音视频理解（18篇）音视频生成（10篇）音频分类（9篇）音频理解（8篇）音乐生成（8篇）语音合成（8篇）音视频问答（8篇）语音识别（5篇）语音伪造检测（4篇）语音交互（4篇）语音增强（4篇）语音编码（4篇）多模态模型（3篇）音频伪造检测（3篇）音频分离（2篇）空间音频（2篇）音频编码（2篇）音频修复（2篇）语音属性识别（2篇）音频生成（2篇） ⚡ 会议概览 📥 ICML 2026 接收 6341 篇论文 → 🔍 关键词 + LLM 筛选 137 篇音频/语音/音乐相关 → 🔬 深度分析完成 🏷️ 热门方向方向数量分布 #音视频理解 18篇 ██████████████████ #音视频生成 10篇 ██████████ #音频分类 9篇 █████████ #音频理解 8篇 ████████ #音乐生成 8篇 ████████ #语音合成 8篇 ████████ #音视频问答 8篇 ████████ #语音识别 5篇 █████ #语音伪造检测 4篇 ████ #语音交互 4篇 ████ #语音增强 4篇 ████ #语音编码 4篇 ████ #多模态模型 3篇 ███ #音频伪造检测 3篇 ███ #音频分离 2篇 ██ 📊 论文评分排行榜（137 篇，按分数降序）排名论文评分分档主任务 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with T 9.4分前10% #音视频理解 🥈 Joint Enhancement and Classification using Coupled Diff 9.3分前10% #语音识别 🥉 Learning Tight Rejection Boundaries without Negatives f 9.3分前10% #语音伪造检测 4. AVTrack: Audio-Visual Tracking in Human-centric Complex 9.3分前10% #音视频理解 5. A Semantically Consistent Dataset for Data-Efficient Qu 9.2分前10% #音频分离 6. SAM Audio: Segment Anything in Audio 9.2分前10% #音频分离 7. MECAT: A Multi-Experts Constructed Benchmark for Fine-G 9.1分前10% #音频理解 8. $\tau$-Voice: Benchmarking Full-Duplex Voice Agents on 9.1分前10% #语音交互 9. PhaseCoder: Microphone Geometry-Agnostic Spatial Audio 8.7分前25% #空间音频 10. BAT: Better Audio Transformer Guided by Convex Gated Pr 8.6分前25% #音频分类 11. SPEAR: A Unified SSL Framework for Learning Speech and 8.4分前25% #音频理解 12. Dual-View Predictive Diffusion: Lightweight Speech Enha 8.4分前25% #语音增强 13. Unlocking Cross-Modal Biosignal Synthesis: A Temporally 8.3分前25% - 14. CoLA: Cross-Modal Low-rank Adaptation for Multimodal Do 8.3分前25% #音视频理解 15. Speech-Audio Compositional Attacks on Multimodal LLMs a 8.3分前25% #音频理解 16. MoST: Mixing Speech and Text with Modality-Aware Mixtur 8.2分前25% - 17. IVQ: Structured and Lightweight Vector Quantization via 8.2分前25% #音频编码 18. Spherical Procrustes Alignment for Reliable Medical Aud 8.2分前25% #音频分类 19. Attend to Anything: Foundation Model for Unified Human 8.2分前25% #音视频理解 20. VocSim A Training-free Benchmark for Zero-shot Content 8.2分前25% #音频检索 21. JAEGER: Joint 3D Audio-Visual Grounding and Reasoning i 8.1分前25% #声源定位 22. LALM-as-a-Judge: Benchmarking Large Audio-Language Mode 8.1分前25% #语音交互 23. Pianist Transformer: Towards Expressive Piano Performan 8.1分前25% #音乐生成 24. Simultaneous Speech-to-Speech Translation Without Align 8.0分前25% #语音翻译 25. PHALAR: Phasors for Learned Musical Audio Representatio 8.0分前25% #音乐生成 26. Optimality of FSQ Tokens for Continuous Diffusion for C 8.0分前25% #语音合成 27. SonicMaster: Towards Controllable All-in-One Music Rest 8.0分前25% #音频修复 28. Do Audio LLMs Listen or Read? Analyzing and Mitigating 8.0分前25% #语音属性识别 29. Multiple Choice Learning of Low-Rank Adapters for Langu 8.0分前25% #多模态模型 30. Bridging the Stability-Expressivity Gap: Synthetic Data 8.0分前25% #语音合成 31. FutureOmni: Evaluating Future Forecasting from Omni-Mod 8.0分前25% #音视频问答 32. Acoustic Interference: A New Paradigm Weaponizing Acous 8.0分前25% #音频理解 33. ReGen: Hierarchical Multi-Prompt Representation Generat 8.0分前25% #语音编码 34. DiscoForcing: A Unified Framework for Real-Time Audio-D 8.0分前25% #音乐生成 35. DreamID-Omni: Unified Framework for Controllable Human- 8.0分前25% #音视频生成 36. AgentSteerTTS: A Multi-Agent Closed-Loop Framework for 7.9分前25% #语音合成 37. STAR-VAE: Structured Topology-Aware Regularization for 7.9分前25% #音频生成 38. HyperPotter: Spell the Charm of High-Order Interactions 7.9分前25% #音频伪造检测 39. T2AV-Compass: Towards Unified Evaluation for Text-to-Au 7.9分前25% #音视频生成 40. Decoupling The “What” and “Where” With Polar Coordinate 7.8分前25% #音乐生成 41. V-LynX: Token Interface Alignment for Video+X LLMs 7.8分前25% #音视频问答 42. Ariadne’s Thread of LipSync: Unraveling Forgeries via I 7.8分前25% #音视频理解 43. SONAR: Spectral‑Contrastive Audio Residuals for General 7.8分前25% #语音伪造检测 44. TMD-Bench: A Multi-Level Evaluation Paradigm for Music– 7.7分前25% #音视频生成 45. AudioMosaic: Contrastive Masked Audio Representation Le 7.7分前25% #音频分类 46. BFCL Audio: An Audio Function Calling Evaluation for La 7.7分前25% #语音交互 47. SALSA-V: Shortcut-Augmented Long-form Synchronized Audi 7.6分前25% #音视频生成 48. BEAT: Tokenizing and Generating Symbolic Music by Unifo 7.6分前25% #音乐生成 49. From Inpainting to Editing: Unlocking Robust Mask-Free 7.6分前25% #扩散模型 50. Hearing Without Noticing? Attention-Aware Stealthy Blac 7.6分前25% #语音识别 51. AVGen-Bench: A Task-Driven Benchmark for Multi-Granular 7.6分前25% #音视频生成 52. Alethia: a Foundational Encoder for Voice Deepfakes 7.6分前25% #语音伪造检测 53. AG-REPA: Causal Layer Selection for Representation Alig 7.6分前25% #语音合成 54. AVI-Bench: Toward Human-like Audio-Visual Intelligence 7.6分前25% #音视频理解 55. Two-dimensional quantization for geometry-aware audio c 7.6分前25% #语音编码 56. Abstraction Induces the Brain Alignment of Language and 7.5分前25% #语音编码 57. Self-Guidance: Enhancing Neural Codecs via Decoder Mani 7.5分前25% #语音编码 58. OmniVideo-R1: Reinforcing Audio-visual Reasoning with Q 7.5分前25% #音视频问答 59. Listening Through the Noise: Cauchy-Driven Diffusion Br 7.4分前50% #音频修复 60. MoshiRAG: Asynchronous Knowledge Retrieval for Full-Dup 7.4分前50% - 61. Omni-Perception Policy Optimization for Multimodal Emot 7.4分前50% #音视频理解 62. video-SALMONN S: Memory-Enhanced Streaming Audio-Visual 7.3分前50% #音视频问答 63. Group Cognition Learning: Making Everything Better Thro 7.3分前50% #音视频理解 64. REST: Diffusion-based Real-time End-to-end Streaming Ta 7.3分前50% #音视频生成 65. PhoStream: Benchmarking Real-World Streaming for Omnimo 7.3分前50% #音视频问答 66. ProactiveLLM: Learning Active Interaction for Streaming 7.2分前50% #语音识别 67. Stream RAG: Instant and Accurate Spoken Dialogue System 7.2分前50% #流式处理 68. Probing Cross-modal Information Hubs in Audio-Visual LL 7.2分前50% #音视频理解 69. Efficient Multi-modal Dataset Distillation via Analytic 7.2分前50% #对比学习 70. Self-Supervised Flow Matching for Scalable Multi-Modal 7.2分前50% #音视频生成 71. CoCoEmo: Composable and Controllable Human-Like Emotion 7.1分前50% #语音合成 72. Scaling Transformers for End-to-End Discrete Audio Toke 7.1分前50% #音频编码 73. Query-Based Asymmetric Modeling with Decoupled Input–Ou 7.1分前50% #语音增强 74. OmniSIFT: Modality-Asymmetric Token Compression for Eff 7.1分前50% #音视频问答 75. Sparse Autoencoders for Interpretable Emotion Control i 7.0分前50% #语音合成 76. The Silent Thought: Modeling Internal Cognition in Full 7.0分前50% #知识蒸馏 77. Hidden in Plain Tokens: Simply Robust, Gradient-Free Wa 7.0分前50% #音频水印 78. Efficient Distributed MLLM Training with Cornstarch 7.0分前50% #音视频理解 79. Reasoning LLM Improves Speaker Recognition in Long-form 7.0分前50% - 80. Real-World Unsupervised Models Generalize to Predict Br 6.9分前50% #模型评估 81. From Talking to Singing: A New Challenge for Audio-Visu 6.9分前50% #音视频理解 82. OmniShow: Unifying Multimodal Conditions for Human-Obje 6.9分前50% #音视频生成 83. E-VAds: An E-commerce Short Videos Understanding Benchm 6.9分前50% #音视频问答 84. STARCaster: Spatio-Temporal AutoRegressive Video Diffus 6.8分前50% #音视频生成 85. Zero-Shot Rankability: Revealing Latent Ordinal Structu 6.8分前50% #音视频理解 86. An Exterior Method for Nonnegative Matrix Factorization 6.8分前50% #音频分类 87. FoeGlass: Simple In-Context Learning Is Enough for Red 6.8分前50% #语音伪造检测 88. Native Active Perception as Reasoning for Omni-Modal Un 6.8分前50% #音视频理解 89. Unlocking Speech–Text Compositional Powers: Instruction 6.7分前50% #语音交互 90. UltraLIF: Fully Differentiable Spiking Neural Networks 6.7分前50% #音频分类 91. Towards Streaming Synchronized Spatial Audio Generation 6.6分前50% #音视频生成 92. TextME: Bridging Unseen Modalities Through Text Descrip 6.6分前50% - 93. Evaluating and Rewarding LALMs for Expressive Role-Play 6.6分前50% #语音合成 94. PADS-TAL: Padding-Annealed Diffusion Sampling in Text-A 6.6分前50% #音乐生成 95. ADEPT: RL-Aligned Agentic Decoding of Emotion via Evide 6.5分前50% #语音情感识别 96. Universal Algorithm-Implicit Learning 6.5分前50% #音频分类 97. SARSteer: Safeguarding Large Audio Language Models via 6.5分前50% - 98. MetaPerch: Learning from metadata for bioacoustics foun 6.5分前50% #音频分类 99. Polyphonia: Zero-Shot Timbre Transfer in Polyphonic Mus 6.5分前50% #音乐生成 100. CMI-RewardBench: Evaluating Music Reward Models with Co 6.4分前50% #音乐生成 101. Multimodal Fact-Level Attribution for Verifiable Reason 6.4分前50% #音频理解 102. MedMosaic: A Challenging Large Scale Benchmark of Diver 6.4分前50% #音频理解 103. INFER: Learning Implicit Neural Frequency Response Fiel 6.4分前50% #空间音频 104. Characterizing the Predictive Impact of Modalities with 6.4分前50% - 105. PCRNet: Phase-aware Complex Refinement Network for EEG- 6.4分前50% #实时处理 106. OmniFit: Bridging Modalities via Layer-Adaptive Token C 6.3分前50% #音视频理解 107. EchoingPixels: Aliasing-Resistant Joint Token Reduction 6.3分前50% #音视频理解 108. Quaternion Self-Attention with Shared Scores 6.3分前50% #语音增强 109. LightAVSeg: Lightweight Audio-Visual Segmentation 6.3分前50% #模型压缩 110. SURF: Separation via Unsupervised Remixing Flow 6.2分前50% #语音分离 111. Neural-Inspired Modeling of Auditory Selection and Comp 6.2分前50% #音视频语音分离 112. AuTAgent: A Reinforcement Learning Framework for Tool-A 6.2分前50% #音频理解 113. Multimodal Latent Language Modeling with Next-Token Dif 6.1分前50% #语音合成 114. FakeWorld 1.0: An Omni-modal Benchmark for Fake Media a 6.1分前50% #可解释性 115. ConsMSA: Semantic Distribution Consistency Learning for 6.1分前50% #多模态模型 116. MusicDET: Zero-Shot AI-Generated Music Detection 6.1分前50% #音频伪造检测 117. Convex Low-resource Accent-Robust Language Detection in 6.0分前50% #语音识别 118. NeuroCLUS: A Foundation Model with Functional Clusterin 6.0分前50% #语音识别 119. Sparse Tokens Suffice: Jailbreaking Audio Language Mode 5.9分前50% #模型剪枝 120. Scaling Behavior in Model Fine-tuning for Audio DeepFak 5.9分前50% #音频伪造检测 121. Bioacoustic Geolocation: Species Sounds as Geographic S 5.8分前50% #音频理解 122. AudioChat: Unified Audio Storytelling, Editing, and Und 5.8分前50% #音频生成 123. Omni-Diffusion: Unified Multimodal Understanding and Ge 5.8分前50% - 124. Robust Signal Enhancement via Fractional Detail Views a 5.7分前50% #语音增强 125. Multimodal Fusion via Self-Consistent Task-Gradient Fie 5.5分前50% #鲁棒性 126. NAACA: Training-Free NeuroAuditory Attentive Cognitive 5.5分前50% #音频事件检测 127. Language Model Augmented Semi-Supervised Statistical In 5.4分后50% #语音属性识别 128. MER-DG: Modality-Entropy Regularization for Multimodal 5.4分后50% #音视频理解 129. Towards Understanding Modality Interaction in Multimoda 5.3分后50% #音视频理解 130. Stable Spectral Copula Alignment for Robust Multimodal 5.2分后50% #鲁棒性 131. Multimodal Meta-Verifier with Explicit Structured Recal 5.2分后50% #多模态模型 132. WaveSSM: Multiscale State-Space Models for Non-stationa 4.8分后50% #音频分类 133. Efficient, Property-Aligned Fan-Out Retrieval via RL-Co 4.7分后50% #音乐检索 134. VIBE: Disentangling Social Dynamics via Kinematics-Info 4.6分后50% - 135. UniFLoW: Universal Multi-Modal Federated LoRA Fine-Tuni 4.4分后50% #音视频问答 136. Rethinking Attention in Spiking Transformers: Overcomin 3.6分后50% #音频分类 137. PRIM：Cooperative Dynamic Token Compression for Efficien 3.6分后50% #音视频理解 📋 论文列表 🥇 TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions 🔥 9.4/10 | 前10% | #音视频理解 | 创新 1.7/2 | 严谨 1.3/1.5 | 实验 1.4/1.5 | 影响 0.9/1.5 | 开源 1.5/1.5 ...

CAPS: A Cascaded Reconstruction Model to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension

📄 CAPS: A Cascaded Reconstruction Model to Power Saving in Hearables Using Sub-Nyquist Sampling with Bandwidth Extension 标签：#语音增强 #多模态模型 #低资源 #流式处理 #音频理解 6.6/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.3/1.5 ✅ 6.6/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #多模态模型 | #低资源 #流式处理 | arxiv 👥 作者与机构第一作者：Tarikul Islam Tamiti (Cyber-Security Engineering, George Mason University, USA) 通讯作者：未说明作者列表：Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Baja-Ricketts, David Vergano, Anomadarshi Barua (Cyber-Security Engineering, George Mason University, USA) 💡 毒舌点评论文亮点在于从硬件（ADC）功耗这一实际约束出发，设计并原型验证了一套完整的“降采样-无线传输-神经网络重建”系统，将BWE与多模态SE首次结合，并展示了在移动端部署的实时能力，工程实践完整度很高。短板同样突出：作为声称达到SOTA的工作，未开源任何代码、模型或数据集，严重削弱了其学术可信度和可复现性；泛化性证据仅基于小规模自采数据，影响了结论的普遍性。 ...

Towards Array-Invariant Speech Enhancement via Geometry-Aware Dynamic Convolution

📄 Towards Array-Invariant Speech Enhancement via Geometry-Aware Dynamic Convolution 标签：#语音增强 #多通道 #鲁棒性 #音频理解 #Transformer 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1/1.5 ✅ 6.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：中 | #语音增强 | #多通道 | #鲁棒性 #音频理解 | arxiv 👥 作者与机构第一作者：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）通讯作者：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）作者列表：Zhenglong Liu（上海交通大学听觉认知与计算声学实验室）、Wangyou Zhang（上海交通大学听觉认知与计算声学实验室）、Chenda Li（上海交通大学听觉认知与计算声学实验室）、Yanmin Qian（上海交通大学听觉认知与计算声学实验室、VUI Labs） 💡 毒舌点评想法直观且有工程洞察：将麦克风几何坐标这一“免费”先验通过动态卷积机制转化为对固定SOTA模型的即插即用适配器，直击多通道语音增强在实际部署中的阵列泛化痛点。短板在于实验验证略显单薄，仅在RealMAN单一真实数据集上进行系统性评估，对更复杂声学环境（如强混响、高噪声）和非理想阵列（如柔性、几何信息含噪）的鲁棒性未做深入分析。作为一项方法研究，缺乏对关键超参数和模块组件的消融，技术贡献停留在集成应用层面，工程细节（如实时性、计算延迟）披露不足。 ...

Listen first: Output-based multi-microphone speech enhancement

📄 Listen first: Output-based multi-microphone speech enhancement 标签：#语音增强 #多通道 #助听器 #音频理解 #Transformer 6.4/10 | 创新 1.3/2 | 严谨 1.4/1.5 | 实验 1/1.5 | 清晰 0.9/1 | 影响 0.7/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.4/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音增强 | #多通道 | #助听器 #音频理解 | arxiv 👥 作者与机构第一作者：Panos Apostolidis（未说明）通讯作者：未说明作者列表：Panos Apostolidis（未说明）、Svend Feldt（未说明）、Zheng-Hua Tan（未说明）、Jan Østergaard（未说明）、Jesper Jensen（未说明） 💡 毒舌点评本文提出了一个概念上颇具吸引力的“输出驱动”范式，并通过精心设计的实验证明了其在低信噪比和RTF失配条件下相对于传统输入驱动MVDR基线的优势。然而，论文的核心贡献更像一个新颖的“想法验证”而非一个完整的系统。首先，其非因果处理假设（需整个语音段）严重限制了在实时助听器中的实际应用。其次，评估机制完全依赖一个经过训练的固定神经VAD模型，其本身在极端条件下的可靠性成了系统性能的“阿喀琉斯之踵”。最后，缺乏与当前主流端到端深度学习语音增强系统的对比，使得其性能优势在当下的研究环境中显得孤立且边界不清。论文的工程细节描述足以复现其实验，但未开源代码的做法降低了其直接影响力。 📌 核心摘要本文旨在解决传统输入驱动（基于VAD）的助听器语音增强算法在低信噪比（SNR）等恶劣条件下性能下降的问题。作者提出了一种新颖的“输出驱动”处理范式，该范式通过评估系统输出信号的质量来配置处理系统，而非依赖从嘈杂输入中提取的特征。核心方法是使用一个包含多个候选MPDR波束成形器的系统，通过计算每个候选输出信号的“瞥见比例”（Glimpse Proportion, GP）来估计语音可懂度，并选择GP值最高的波束成形器。与传统方法相比，新范式的新颖之处在于将系统配置决策建立在输出质量评估上，从而规避了输入特征估计的可靠性问题。实验在模拟的助听器场景中进行，使用Librispeech语音、ESC-50点噪声源和各向同性噪声。结果显示，在输入SNR为-5 dB时，输出驱动系统的SNR改善（ΔSNR）比输入驱动MVDR基线高约3-4 dB，ESTOI和PESQ也显著提升，尤其在低SNR和RTF失配条件下优势明显。该工作的实际意义在于为助听器等低功耗、高需求场景提供了一种更鲁棒的语音增强思路。主要局限性包括：实验为非因果处理、RTF字典构建依赖先验信息、缺乏与端到端深度学习系统的对比。 ...

PolarBM: Complex-valued Boltzmann Machine for Modeling Audio Signals in Polar and Log-polar Coordinates

📄 PolarBM: Complex-valued Boltzmann Machine for Modeling Audio Signals in Polar and Log-polar Coordinates 标签：#语音增强 #自监督学习 #音频编码 #理论分析 #音频理解 5.8/10 | 创新 1.3/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.7/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.5/1.5 📝 5.8/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音增强 | #自监督学习 | #音频编码 #理论分析 | arxiv 👥 作者与机构第一作者：Toru Nakashika（东京电气通信大学信息与工程研究生院）通讯作者：未说明（根据论文格式推测可能为第一作者）作者列表：Toru Nakashika（东京电气通信大学信息与工程研究生院）、Kohei Yatabe（东京农工大学电气工程与计算机科学系） 💡 毒舌点评本文在数学上相当优雅，将玻尔兹曼机自然地扩展到复数极坐标表示，并推导出新颖的PW-NCCG分布，语音重建实验结果也令人惊讶地接近原始语音。然而，作为一篇2026年的论文，其核心模型仍是浅层的概率图模型，在深度学习范式主导的今天，其竞争力与可扩展性存疑，且完全不开源的做法使其价值大打折扣。 ...

CoFi-Lite: Pushing the Limits of Ultra-Lightweight Speech Enhancement

📄 CoFi-Lite: Pushing the Limits of Ultra-Lightweight Speech Enhancement 标签：#语音增强 #CNN #模型压缩 #高效推理 #流式处理 7.3/10 | 创新 1.5/2 | 严谨 1.3/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 0.8/1.5 | 开源 0.2/1.5 | 复现 0.3/0.5 | 工程 1.1/1.5 ✅ 7.3/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音增强 | #CNN | #模型压缩 #高效推理 | arxiv 👥 作者与机构第一作者：Leyan Yang（南京大学现代声学实验室，NJU-Horizon智能音频实验室）通讯作者：Jing Lu（南京大学现代声学实验室，NJU-Horizon智能音频实验室）作者列表：Leyan Yang（南京大学现代声学实验室，NJU-Horizon智能音频实验室）、Dahan Wang（南京大学现代声学实验室，NJU-Horizon智能音频实验室）、Xiaobin Rong（南京大学现代声学实验室，NJU-Horizon智能音频实验室）、Jiadong Zhao（南京大学现代声学实验室，NJU-Horizon智能音频实验室）、Jing Lu（南京大学现代声学实验室，NJU-Horizon智能音频实验室） 💡 毒舌点评本文在极端计算约束下将语音增强性能推向新高，展示了“螺蛳壳里做道场”的精细工程能力，其粗细粒度解耦与跨路径融合的设计思路清晰且有效。然而，方法本质上是已有模块（MB block, CRN）的精心组合与压缩，创新更多体现在架构搜索与权衡上；且仅用demo页面展示结果，未提供代码和模型，使论文的可复用性和后续影响力大打折扣。 ...

Teaching Speech Enhancement Models to Sing: Domain Adaptation from Speech Enhancement to Singing Voice Separation

📄 Teaching Speech Enhancement Models to Sing: Domain Adaptation from Speech Enhancement to Singing Voice Separation 标签：#音乐源分离 #参数高效微调 #语音增强 #领域适应 #低资源 6.7/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 0.4/1.5 | 开源 1.2/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.7/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #音乐源分离 | #LoRA | #参数高效微调 #语音增强 | arxiv 👥 作者与机构第一作者：Paul A. Bereuter (Graz University of Technology, Signal Processing and Speech Communication Laboratory) 通讯作者：未说明作者列表：Paul A. Bereuter (Graz University of Technology, Signal Processing and Speech Communication Laboratory), Mark D. Plumbley (Centre for Vision, Speech and Signal Processing, University of Surrey), Alois Sontacchi (Graz University of Technology, Signal Processing and Speech Communication Laboratory) 💡 毒舌点评论文将语音增强模型迁移到歌唱声音分离的框架清晰，LoRA平衡性能与遗忘的验证扎实，但本质是现有技术（预训练+微调）在特定音频子域的应用研究。主要短板在于：1）声称揭示了生成模型更强的泛化性，但仅凭单一域外测试集（MSRBench）的有限提升，结论支撑不足；2）与参照模型MelRoFo (L)差距显著，且承认非SOTA目标，削弱了影响力；3）未能深入分析SE与SVS的“域”究竟在何处异同，迁移有效性止于性能数字对比。 ...

Where Speech Enhancement Hurts Recognition: An Inference Time Polar Projection Diagnosis

📄 Where Speech Enhancement Hurts Recognition: An Inference Time Polar Projection Diagnosis 标签：#语音识别 #测试时自适应 #语音增强 #音频理解 #Transformer 6.7/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.9/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.7/10 | 前50% | 文档类型：方法研究 | 评分置信度：高 | #语音识别 | #测试时自适应 | #语音增强 #音频理解 | arxiv 👥 作者与机构第一作者：Mingyue Huo（University of Illinois Urbana-Champaign）通讯作者：未说明作者列表：Mingyue Huo（University of Illinois Urbana-Champaign）、Yuheng Zhang（University of Illinois Urbana-Champaign）、Hao Zhang（Wuhan University） 💡 毒舌点评论文提出的“极坐标投影”诊断框架设计精巧，将“增强损害识别”这一模糊的工程现象，转化为可度量、可分离的幅度与相位问题，为理解SE-ASR失配提供了清晰的解剖刀，展现了优秀的工程洞察力。然而，整个分析建立在单一的VoiceBank+DEMAND基准上，且未讨论该方法在真实复杂声学环境（如远场、混响、重叠语音）下的表现，使得其结论的普适性打了折扣，更像是一篇针对基准问题的优秀“病理分析报告”。此外，论文本身未提供任何实验代码，严重限制了其可复现性和社区影响力。 ...

Technical Report for MERL's Real-TSE Challenge Submission

📄 Technical Report for MERL’s Real-TSE Challenge Submission 标签：#语音分离 #课程学习 #语音增强 #音频理解 #Transformer 6.6/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.5/1.5 ✅ 6.6/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音分离 | #课程学习 | #语音增强 #音频理解 | arxiv 👥 作者与机构第一作者：Dominik Klement（MERL，实习期间工作；具体部门未说明）通讯作者：未说明作者列表：Dominik Klement（Mitsubishi Electric Research Laboratories (MERL)）、Yoshiki Masuyama（Mitsubishi Electric Research Laboratories (MERL)）、Christoph Boeddeker（Mitsubishi Electric Research Laboratories (MERL)）、Kohei Saijo（具体机构未说明）、Julius Richter（Mitsubishi Electric Research Laboratories (MERL)）、Gordon Wichern（Mitsubishi Electric Research Laboratories (MERL)）、Jonathan Le Roux（Mitsubishi Electric Research Laboratories (MERL)） 💡 毒舌点评本文是一份极为务实且富有洞察力的工程报告，它摒弃了对模型架构的盲目追逐，转而揭示了在真实世界挑战中“数据即王者”的朴素真理。论文对DNSMOS等评估指标脆弱性的批判一针见血，比许多空谈贡献的论文更具价值。遗憾的是，其核心贡献（详尽的工程流水线）完全闭源，使得这份“炼丹秘籍”沦为只能远观的“屠龙之术”，严重削弱了其对社区的长期影响力。 ...

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #知识蒸馏 #模型压缩 #音频理解 #Transformer 6.5/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 1.2/1.5 ✅ 6.5/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #知识蒸馏 | #模型压缩 #音频理解 | arxiv 👥 作者与机构第一作者：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France) 通讯作者：Romain Serizel (Sorbonne Université, CNRS, LIP6, France) (论文中标注 † 为通讯作者) 作者列表：Zahra Benslimane (Univ. Lorraine, CNRS, Inria, LORIA, France), Pierre Chouteau (Univ. Lorraine, CNRS, Inria, LORIA, France), Martyna Poreba (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabrice Auzanneau (Univ. Lorraine, CNRS, Inria, LORIA, France), Michal Szczepanski (Univ. Lorraine, CNRS, Inria, LORIA, France), Fabian Chersi (Univ. Lorraine, CNRS, Inria, LORIA, France), Romain Serizel (Sorbonne Université, CNRS, LIP6, France) 💡 毒舌点评论文的核心洞察——空间滤波能补偿量化带来的掩膜估计误差——确实有启发性，为混合系统的低功耗部署提供了新思路。然而，实验设置略显“保守”：所有评估均基于单一噪声方位角（仅右侧45°和90°），且目标声源固定在正前方。论文未测试更复杂或动态的声学场景（如混响、移动噪声源、多干扰源），这限制了结论的普适性。此外，与当前最先进的轻量级增强模型缺乏直接对比，使其在技术谱系中的位置不甚明了。 ...