语音增强 | 语音/音乐/音频论文速递

It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement

📄 It Takes Few to TANGO: A Quantized Distributed Model for Binaural Speech Enhancement 标签：#语音增强 #模型压缩 #多通道 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 0/1.5 | 复现 0.1/0.5 | 工程 1.2/1.5 ✅ 6.3/10 | 前50% | 文档类型：系统技术报告 | 评分置信度：高 | #语音增强 | #模型压缩 | #多通道 | arxiv 👥 作者与机构第一作者：Zahra Benslimane（法国南锡大学，洛林大学）通讯作者：未说明作者列表：Zahra Benslimane（法国南锡大学，洛林大学）、Pierre Chouteau（法国南锡大学）、Martyna Poreba（法国南锡大学）、Fabrice Auzanneau（法国南锡大学）、Michal Szczepanski（法国南锡大学）、Fabian Chersi（法国南锡大学）、Romain Serizel（洛林大学） 💡 毒舌点评论文的核心价值在于揭示了混合神经-空间系统中空间滤波器对量化噪声的鲁棒性，并据此提出了一套务实、有效的系统级压缩流水线（架构简化 -> QAT -> ERB压缩 -> 分组LSTM），为助听器等边缘设备的语音增强部署提供了清晰的工程路线图。其硬伤在于：1) 所有压缩技术（量化、分组LSTM、ERB）均为现有成熟组件的组合，缺乏算法层面的突破；2) 所有实验均在模拟数据上完成，缺乏真实硬件部署验证（延迟、功耗）；3) 完全不开源代码、模型和训练数据，极大削弱了其学术影响力和可复用性。 ...

Distributed Multichannel Wiener Filtering for Topology-Unconstrained Wireless Acoustic Sensor Networks

📄 Distributed Multichannel Wiener Filtering for Topology-Unconstrained Wireless Acoustic Sensor Networks #语音增强 5.1/10 | 创新 1.2/2 | 严谨 1.2/1.5 | 实验 0.5/1.5 | 清晰 0.8/1 | 影响 0.4/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 📝 5.1/10 | 后50% | #语音增强 | #语音增强 | arxiv 👥 作者与机构第一作者：Paul Didier（STADIUS Center for Dynamical Systems, Signal Processing, and Data Analytics, Electrical Engineering Department (ESAT), KU Leuven, Leuven, Belgium）通讯作者：Paul Didier (email: phmdidier@proton.me) 作者列表：Paul Didier（KU Leuven），Pourya Behmandpoor（Vrije Universiteit Brussel），Henri Gode（Carl von Ossietzky Universität Oldenburg），Toon van Waterschoot（KU Leuven），Simon Doclo（Carl von Ossietzky Universität Oldenburg, Fraunhofer IDMT），Jörg Bitzer（Fraunhofer IDMT），Marc Moonen（KU Leuven） 💡 毒舌点评这篇论文在无线声学传感器网络的分布式信号估计问题上，提出了一个巧妙的无迭代闭式解，将拓扑剪枝与级联LMMSE估计优雅地结合，理论证明扎实。然而，其根基——严格的“全局-局部源”（GLS）假设——是一把双刃剑。它带来了极简的架构和单次收敛的特性，但也使方法成为一个只能在真空环境中完美运作的“球形鸡”：一旦信号泄露到非全局、非本地的节点上，最优性瞬间崩塌，且实验对比完全缺失与当代深度学习方法的必要对话，使得其宣称的“集中式性能”在现代技术语境下显得说服力不足。这更像是一件陈列在理论博物馆中的精巧工艺品，而非一个能投入真实混响战场的有力武器。 ...

Flow Matching-Based Speech Source Separation with Best-of-N Biometric Sampling

📄 Flow Matching-Based Speech Source Separation with Best-of-N Biometric Sampling #语音分离 #流匹配 #Transformer #说话人验证 #长音频处理 #语音增强 4.9/10 | 创新 1/2 | 严谨 0.8/1.5 | 实验 0.7/1.5 | 清晰 0.6/1 | 影响 0.6/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 1/1.5 📝 4.9/10 | 后50% | #语音分离 | #流匹配 | #Transformer #说话人验证 | arxiv 👥 作者与机构第一作者：Anastasia Zorkina（ITMO University）通讯作者：未说明作者列表：Anastasia Zorkina、Alexandr Anikin、Nikita Khmelev、Anastasiya Korenevskaya、Sergey Novoselov、Vladimir Volokhov、Maxim Korenevsky、Yuriy Matveev（机构均未明确列出，但NVIDIA NeMo工具包的使用暗示部分作者可能与NVIDIA有关联） 💡 毒舌点评这篇论文的精髓在于“搭积木”：取NeMo的生成式语音增强模型做骨架，用Wav2Vec说话人编码器当万能胶，糊上Best-of-N采样的膏药，最后塞进一个分块-对齐的框架里，拼出个能跑长音频的分离流水线。下游任务（ASR和SV）指标确实亮眼，证明这积木搭得挺实用。然而，作为一篇机器学习论文，它在方法层面的贡献约等于零——流匹配框架没动，生成模型架构是现成的，Best-of-N更是LLM圈玩剩下的。实验部分拿非最优分块模式下的SepReformer当垫脚石，对比的公平性存疑，而且代码和数据权重一丁点都没放出来。在NeurIPS/ICML这个级别，工程拼装手艺再好，也抵不过方法论创新的贫瘠和实验严谨性的缺失。 ...

Noisy Environment Adaptation of Neural Speech Codec via Focal Mask and Noise Feature Separation

📄 Noisy Environment Adaptation of Neural Speech Codec via Focal Mask and Noise Feature Separation #语音增强 #语音分离 5.9/10 | 创新 0.8/2 | 严谨 0.9/1.5 | 实验 0.8/1.5 | 清晰 0.8/1 | 影响 0.6/1.5 | 开源 1/1.5 | 复现 0.3/0.5 | 工程 0.7/1.5 📝 5.9/10 | 前50% | #语音增强 | #Transformer | #语音分离 | arxiv 👥 作者与机构第一作者：Shaokai Li（武汉大学计算机学院，国家多媒体软件工程技术研究中心）通讯作者：未明确指定，但根据常见学术惯例，Weiping Tu 或 Yuhong Yang 可能为共同通讯作者，两者单位均为武汉大学计算机学院，国家多媒体软件工程技术研究中心，湖北省多媒体与网络通信工程重点实验室作者列表：Shaokai Li, Weiping Tu, Yuhong Yang 💡 毒舌点评这篇论文试图通过在神经编解码器的嵌入空间中引入一个"面面俱到"的增强模块来解决噪声问题，方案直接且有效。但从审稿角度看，这更像是一次技巧性很强的"搭积木"：将focal modulation、Transformer、Mamba和ResNet组合，去噪的同时顺便做了个噪声分类。这导致模型参数量高达222M，几乎是基础编解码器的3倍。更致命的是，它的价值完全锚定在ESC-50这个50类环境音上，我们无从知晓它在真实咖啡馆、街道或风噪下的表现，也无法判断这63M参数的噪声分类器除了"辅助训练"外还有什么实际用处。总的来说，论文的增益是明确的，但其工程代价和实用性疑虑也同样巨大。 ...

Weakly Guided and Autoregressive Beamformer Parameterization for Generalizable Moving Speaker Extraction in Higher-Order Ambisonics

📄 Weakly Guided and Autoregressive Beamformer Parameterization for Generalizable Moving Speaker Extraction in Higher-Order Ambisonics #语音分离 #语音增强 4.3/10 | 创新 0.8/2 | 严谨 0.8/1.5 | 实验 0.6/1.5 | 清晰 0.6/1 | 影响 0.5/1.5 | 开源 0/1.5 | 复现 0.2/0.5 | 工程 0.8/1.5 📝 4.3/10 | 后50% | #语音分离 | #语音增强 | arxiv 👥 作者与机构第一作者：Jakob Kienegger（Signal Processing (SP) Group, University of Hamburg）通讯作者：未说明作者列表：Jakob Kienegger、Tal Peer、Sina Khanagha、Timo Gerkmann（均隶属于 Signal Processing (SP) Group, University of Hamburg） 💡 毒舌点评这篇论文提出了一个精致的工程pipeline：仅需初始方向，用固定波束和自回归反馈"扶着"DNN去估计掩码，再驱动一个线性MVDR波束形成器。想法漂亮，但实验部分却选择了一条最容易的路——只和自己比，不敢直面那些拥有完整跟踪能力的强引导方案和深度非线性空间滤波器。这就像一个武林高手只和自家师弟切磋，武艺高低无从得知。此外，合成数据基于完美的远场平面波假设，而真实录音的低阶Ambisonics结果（WER超70%）暴露了方法在复杂声学环境下的巨大鸿沟，作者对此却轻描淡写。 ...

Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy

📄 Dual-View Predictive Diffusion: Lightweight Speech Enhancement via Spectrogram-Image Synergy #语音增强 #语音增强 #扩散模型 8.4/10 | 创新 1.3/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.8/1 | 影响 1/1.5 | 开源 1.4/1.5 | 复现 0.4/0.5 | 工程 1.2/1.5 🔥 8.4/10 | 前25% | #语音增强 | #扩散模型 | arxiv 👥 作者与机构第一作者：Ke Xue（北京理工大学网络空间安全学院）通讯作者：Rongfei Fan（北京理工大学网络空间安全学院）作者列表：Ke Xue（北京理工大学网络空间安全学院）、Rongfei Fan（北京理工大学网络空间安全学院）、Kai Li（清华大学计算机科学与技术系、BNRist）、Shanping Yu（北京理工大学网络空间安全学院）、Puning Zhao（中山大学网络空间安全学院）、Jianping An（北京理工大学网络空间安全学院） 💡 毒舌点评亮点：在轻量级语音增强方向上，DVPD用不到PGUSE 40%的参数量和MACs，在大部分指标上实现了反超，效率-质量权衡玩得漂亮。TLB策略作为从图像扩散模型（FreeU）迁移到语音频谱的"拿来主义"式改造，以零训练成本的即插即用特性在多个U-Net扩散模型上生效，为后续语音扩散推理优化立了一个低成本标杆。短板：整体框架套壳"预测+扩散并行分支"并未跳出现有范式，更像在PGUSE的骨架上做了精巧的频谱感知化装修。TLB虽好，但其分层调参本质上是基于测试集PESQ的oracle选择，实际部署中DNSMOS的映射关系仅做了三档粗糙划分，严格来说存在一定的"test-set tuning"嫌疑，其在新场景下的无参考自适应能力还未被严格验证。论文的理论贡献更多在工程洞察（频谱物理先验编码）而非方法论突破，这使得其离真正顶会oral级影响力尚有一步之遥。 📌 核心摘要论文要解决的核心问题是：现有扩散语音增强模型将频谱图当作普通2D图像进行空间均匀处理，忽略了音频频谱内在的非均匀信息密度（低频谐波密集、高频能量稀疏）和强各向异性（水平和垂直维度分别对应谐波和瞬态），导致计算效率低、参数冗余大的问题。核心方法是提出DVPD（Dual-View Predictive Diffusion），从"视觉纹理"与"声学物理"双重视角设计轻量级语音增强框架，包含三个关键创新组件：（a）频率自适应非均匀压缩编码器（FANC），对0-2kHz不加压缩以保留谐波完整性，对2-4kHz、>4kHz频段以递增压缩比和异构膨胀卷积核进行差异化处理；（b）轻量级图像基础频谱感知模块（LISA），通过三阶段动态条纹卷积（沿频率轴和时间轴）捕获频谱的各向异性特征，其中动态核由全局上下文经过卷积和tanh生成；（c）训练无关无损增强策略（TLB），在推理阶段对U-Net的跳跃连接和主干特征按2kHz分界进行分频段调制，并根据输入样本的质量层级自适应地选择不同的放缩因子组合。与PGUSE等SOTA并行预测-扩散架构相比，DVPD的核心新颖性在于将频谱图的内在物理结构显式编码进网络设计中：FANC的非均匀压缩和LISA的各向异性动态卷积是对频谱声学特性的针对性建模，而非简单采用空间均匀的通用卷积。TLB策略将FreeU式的U-Net特征调制技巧迁移到语音增强，并针对语音频谱的低频谐波完整性要求和高频噪声残留问题做了分频段设计。主要实验结果如下表所示（WSJ0-UNI测试集）： Method Para. MACs Type PESQ↑ ESTOI↑ CSIG↑ CBAK↑ COVL↑ WV-MOS↑ Degraded - - - 1.67±0.60 0.70±0.18 2.41±1.15 1.92±0.60 2.01±0.87 1.79±2.13 MP-SENet 2.26M 34.58G P 2.71±0.89 0.88±0.13 3.99±0.76 2.90±0.58 3.38±0.89 4.16±0.25 PGUSE 5.1M 26.3G D+P 2.95±0.91 0.91±0.06 4.01±0.77 2.61±0.60 3.53±0.91 3.44±0.66 DVPD (w/o TLB) 1.9M 10.2G D+P 2.99±0.88 0.91±0.12 4.06±0.71 2.93±0.57 3.43±0.87 4.16±0.25 DVPD (w/ TLB) 1.9M 10.2G D+P 3.15±0.79 0.92±0.05 4.21±0.37 3.01±0.47 3.51±0.99 4.27±0.31 DVPD以1.9M参数、10.2G MACs在WSJ0-UNI上取得PESQ 3.15，显著超过PGUSE（5.1M, 26.3G MACs, PESQ 2.95）。即使不使用TLB策略，DVPD（2.99 PESQ）也已超过PGUSE，且纯预测分支DVPD-P仅0.61M参数、2.41G MACs即可达到与2.26M/34.58G MACs的MP-SENet相当的性能（PESQ 2.70 vs 2.71）。 ...

Joint Enhancement and Classification using Coupled Diffusion Models of Signals and Logits

📄 Joint Enhancement and Classification using Coupled Diffusion Models of Signals and Logits #语音识别 #语音增强 #鲁棒性 #扩散模型 #多模态模型 9.3/10 | 创新 1.8/2 | 严谨 1.4/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1.2/1.5 | 开源 1.2/1.5 | 复现 0.5/0.5 | 工程 1.1/1.5 🔥 9.3/10 | 前10% | #语音识别 | #扩散模型 | #语音增强 #鲁棒性 | arxiv 👥 作者与机构第一作者：Gilad Nurko（Technion – Israel Institute of Technology）通讯作者：Gilad Nurko（Technion – Israel Institute of Technology）作者列表：Gilad Nurko（Technion – Israel Institute of Technology）、Roi Benita（Technion – Israel Institute of Technology）、Yehoshua Dissen（Technion – Israel Institute of Technology）、Tomohiro Nakatani（NTT, Inc., Japan）、Marc Delcroix（NTT, Inc., Japan）、Shoko Araki（NTT, Inc., Japan）、Joseph Keshet（Technion – Israel Institute of Technology） 💡 毒舌点评信号与logits扩散的耦合想法聪明又实用，让增强和识别双向奔赴，确实比傻乎乎的“先增强后分类”高出几个段位。但计算开销是硬伤，Nested和Alternating策略的NFE（神经功能评估）倍数（10×和7×）让部署侧直呼受不了，且ASR实验一直抱着受限词表不放，似乎有点逃避大词汇量连续识别的hard mode。整体瑕不掩瑜，ICML的spotlight水平，但别想让审稿人给full oral。 ...

Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking

📄 Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking #音频修复 #语音增强 #扩散模型 #音频事件检测 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.4/10 | 前50% | #音频修复 | #扩散模型 | #语音增强 #音频事件检测 | arxiv 👥 作者与机构第一作者：Dian Ding（上海交通大学计算机科学与工程系）通讯作者：Yu Lu（上海交通大学计算机科学与工程系，yulu01@sjtu.edu.cn）作者列表：Dian Ding（上海交通大学）、Liren Dong（陕西师范大学人工智能与计算机科学学院）、Yu Lu（上海交通大学）、Juntao Zhou（上海交通大学）、Ran Wang（上海交通大学）、Peng Li（陕西师范大学）、Zhenyi Jia（上海交通大学医学院附属第六人民医院普外科）、Guangtao Xue（上海交通大学） 💡 毒舌点评本文在扩散桥框架内引入 Cauchy 噪声假设，对临床肠鸣音去噪具有扎实的理论动机——但“语音干扰呈重尾分布”这一核心动机仅通过 Fig.2 的目视对比来论证，并未给出正式的统计拟合优度检验，有“看图说话”之嫌。CLINBS 数据集填补了病理肠鸣音空白值得肯定，然而论文未提供任何代码、模型权重或数据集获取方式，严重削弱了可复现性与实际影响力。此外，所有评估均在人工加性混合的语音干扰下进行，即使在附录 C.4 补充了真实病房噪声实验，该实验仍采用加性混合模型（将无肠鸣音的背景录音与纯净肠鸣音线性混合），未涉及真实含噪临床录音的直接去噪，临床适用性仍有待证明。 ...

Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation

📄 Neural-Inspired Modeling of Auditory Selection and Compensation for Audio-Visual Speech Separation #音视频语音分离 #语音增强 #多模态模型 6.2/10 | 创新 1.4/2 | 严谨 1.1/1.5 | 实验 1.2/1.5 | 清晰 0.6/1 | 影响 0.8/1.5 | 开源 0/1.5 | 复现 0.3/0.5 | 工程 0.8/1.5 ✅ 6.2/10 | 前50% | #音视频语音分离 | #多模态模型 | #语音增强 | arxiv 👥 作者与机构第一作者：Xinmeng Xu（岭南大学人工智能系，Department of Artificial Intelligence, Lingnan University）通讯作者：Haoran Xie（岭南大学人工智能系，Department of Artificial Intelligence, Lingnan University）作者列表：Xinmeng Xu（岭南大学人工智能系）、Haoran Xie（岭南大学人工智能系）、Xiaohui Tao（南昆士兰大学数学物理与计算学院，School of Mathematics, Physics and Computing, University of Southern Queensland）、Lin Li（武汉理工大学计算机科学与人工智能学院，School of Computer Science and Artificial Intelligence, Wuhan University of Technology）、S. Joe Qin（岭南大学人工智能系） 💡 毒舌点评这篇论文从认知神经科学中搬来“听觉选择”和“跨模态补偿”的双阶段机制，并在AVSS架构中将其显式化为ASM和CCM模块，想法干净且有洞察力。在LRS2/3和VoxCeleb2上以6.3M的参数稳定超越包括AV-CrossNet在内的现有SOTA，且多说话人重叠和视觉降质下的表现更加突出。然而，致命伤是完全闭源：无代码、无模型、无Demo链接，这在2024年后的ML顶会中极度罕见且难以接受。此外，Section 3.1的信息论不等式与模块设计之间存在一条明晃晃的鸿沟：Eq. 2中的β项从未在损失函数中出现过，其“理论指导设计”的说法本质上是一种后验包装。总体而言，这是一篇工程扎实但理论过度声称、且因闭源而严重削弱影响力的工作。 ...

Quaternion Self-Attention with Shared Scores

📄 Quaternion Self-Attention with Shared Scores #语音增强 #高效推理 #模型压缩 6.3/10 | 创新 1.2/2 | 严谨 1/1.5 | 实验 0.8/1.5 | 清晰 0.7/1 | 影响 0.5/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.7/1.5 ✅ 6.3/10 | 前50% | #语音增强 | #Transformer | #高效推理 #模型压缩 | arxiv 👥 作者与机构第一作者：Shogo Yamauchi（The Asahi Shimbun Company, Tokyo, Japan）通讯作者：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University, Tokyo, Japan）、Hideaki Tamori（The Asahi Shimbun Company）作者列表：Shogo Yamauchi（The Asahi Shimbun Company）、Tohru Nitta（Tokyo Woman’s Christian University）、Hideaki Tamori（The Asahi Shimbun Company） 💡 毒舌点评用一个四元数内积替换汉密尔顿积做注意力打分，把4路独立softmax砍成1路，在语音增强上RTF最高砍半，还证明了组件独立本质是冗余——这个洞察确实漂亮。但实验仅限0.8M以下的小模型，跟2019年的Tay et al.基线比完就收工，连线性注意力、FlashAttention这类通用加速方案的影子都没见着，更别说拿Mamba来硬碰硬。整个评估像在自家花园里赛跑，说服力打折严重。声明的"首次提出共享分数"也值得商讨，因为实数Transformer从Vaswani et al.起就在用一个标量分数矩阵，本文本质是给四元数空间做了同样的事。 ...