语音增强 | 语音/音频论文速递

BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enhancement

📄 BSMP-SENet:Band-Split Magnitude-Phase Network for Speech Enhancement #语音增强 #信号处理 #时频分析 #模型评估 ✅ 7.0/10 | 前25% | #语音增强 | #信号处理 #时频分析 | #信号处理 #时频分析学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：XueZhou Ju（JiangSu University, School of Computer Science and Communication Engineering）（注：论文中作者列表仅出现一人，根据常规署名推断，但未明确标注“第一作者”）通讯作者：未说明作者列表：XueZhou Ju（JiangSu University, School of Computer Science and Communication Engineering） 💡 毒舌点评亮点：论文敏锐地指出了现有Transformer增强模型“缺乏频率先验”和“相位全局建模困难”这两个痛点，并设计了针对性的解决方案（联合子带分解），思路清晰，消融实验也证实了该核心模块的有效性。短板：整体框架创新更像是“乐高式”模块组合（已有的子带思想+多尺度卷积+Transformer+通道注意力），且实验部分缺少与模型参数量、计算复杂度（FLOPs）的直接对比分析（表中虽列有FLOPs，但未深入讨论效率与性能的权衡），使得“平衡准确性与效率”的宣称缺乏更坚实的证据。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：训练和测试使用了公开数据集（VoiceBank+DEMAND, LibriSpeech, DEMAND, MUSAN, NOISEX-92），但论文未提供生成特定测试集的脚本或说明。 Demo：未提及。复现材料：论文提供了模型架构图、关键模块设计、部分训练策略（优化器、损失类型）和实验设置，但缺少具体的超参数列表（如层数、隐藏维度）、训练步数、学习率调度细节和检查点信息。论文中引用的开源项目：论文中引用的基线方法（如DEMUCs, CMGAN）大多是开源的，但本文未说明是否基于或修改了这些代码库。 📌 核心摘要要解决什么问题：现有基于Transformer的语音增强模型对频率信息缺乏显式感知，导致频谱建模不均衡；同时，多数子带方法仅处理幅度，忽视了相位信息，而全局建模相位又因相位谱的非平稳性而困难，影响了语音重建质量。方法核心是什么：提出BSMP-SENet，其核心是可学习子带滤波器组模块，该模块首次在子带层面联合分解和处理语音的幅度谱与相位谱，引入了显式的频率先验。此外，模型还结合了门控多尺度卷积时序块和频段条件注意力模块，以增强时序建模并进行自适应的通道重加权。与已有方法相比新在哪里：与主要进行幅度子带处理或全局时频建模的方法不同，本方法创新性地实现了幅度-相位联合的、非均匀的子带分解与处理，从而更精细地建模不同频带（尤其是相位变化剧烈的高频）的特性。主要实验结果如何：在VoiceBank+DEMAND基准测试中，模型参数量为2.06M，WB-PESQ达到3.62，STOI为96.3%，CBAK为4.05，在PESQ、STOI和CBAK上均优于或匹配包括MPSENet在内的近期SOTA方法。在自建的LibriSpeech测试集（三种噪声，三种SNR）上，模型平均PESQ为3.26，STOI为0.92，均优于对比的SE-Conformer、UNIVERSE++和MPSENet。消融实验显示，移除核心模块LSFB导致性能下降最显著（PESQ降至3.53，STOI降至95.7%），验证了联合幅度-相位子带处理的关键作用。实际意义是什么：该工作提出了一种更精细地处理语音频谱（尤其是相位）的方法，有望提升真实噪声环境下语音的可懂度和感知质量，对通信、助听设备等应用有潜在价值。主要局限性是什么：论文未提供模型在不同硬件上的推理速度、延迟等实际部署相关的效率数据。此外，虽然使用了两个数据集，但均基于合成噪声，对真实世界极端复杂噪声的泛化能力未充分验证。 🏗️ 模型架构模型是一个端到端的时频域语音增强框架，其整体流程如下： ...

Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

📄 Confidence-Based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens #语音增强 #生成模型 #数据集 #语音合成 ✅ 6.5/10 | 前50% | #语音增强 | #生成模型 | #数据集 #语音合成学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kazuki Yamauchi (CyberAgent, 日本；东京大学，日本) 通讯作者：未明确说明（论文中未提供通讯作者标识，通常通讯作者会标注星号或邮箱特殊，此处无法判断）作者列表：Kazuki Yamauchi（CyberAgent，东京大学）、Masato Murata（CyberAgent）、Shogo Seki（CyberAgent） 💡 毒舌点评亮点：论文精准地抓住了生成式语音增强（GSE）模型一个非常具体但关键的工程痛点——“听起来干净但内容错误的幻觉”，并提出了一个简洁、即插即用且无需干净参考的解决方案（模型自身置信度），实验验证了该方案在提升下游TTS任务性能上的实际效用。短板：创新本质上是对语言模型困惑度概念的直接迁移，缺乏理论层面的深入剖析；且实验完全依赖于单个骨干模型（Genhancer）和单个任务（TTS数据策划），方法的普适性和泛化能力存疑。 🔗 开源详情代码：论文中未提及任何由作者提供的代码仓库链接。复现依赖于对引用的开源项目（Genhancer, DAC, WavLM, Matcha-TTS, HiFi-GAN等）的自行整合与训练。模型权重：未提及公开任何作者训练的模型权重（如经过TITW-hard数据训练的GSE模型或策划后数据训练的TTS模型）。数据集：使用的数据集（LibriTTS-R, TITW-hard, EARS-WHAM等）均为公开数据集，可通过相应链接获取。 Demo：未提供在线演示。复现材料：提供了非常详细的训练配置（模型架构、数据集划分、硬件、训练步数、关键超参数如温度），并引用了所有依赖工具的官方代码库，复现基础较好。论文中引用的开源项目：Genhancer, Descript Audio Codec (DAC), WavLM, Matcha-TTS, HiFi-GAN, UTMOS, DNSMOS, Whisper, CTC score工具包, URGENT Challenge评估工具等。总体开源计划：论文中未提及额外的开源计划（如未来公开代码或模型）。 📌 核心摘要要解决的问题：生成式语音增强（GSE）模型在清理嘈杂语音数据集时，可能产生“幻觉错误”（如音素遗漏、说话人不一致）。传统的非侵入式语音质量评估指标（如DNSMOS）难以检测此类错误，而可检测的侵入式指标又因需要干净参考而在实际野外数据集策划中不可用。方法核心：提出一种非侵入式过滤方法，利用基于离散token的GSE模型（如Genhancer）生成过程中，第一层量化器token的对数概率平均值作为置信度分数，来量化模型对生成结果的“确定性”。低置信度样本被视为可能包含幻觉错误而被过滤。新意所在：将生成模型的内部置信度（类似于语言模型的困惑度）作为数据质量评估的信号，专门用于检测和过滤GSE模型特有的幻觉错误。与常规使用外部模型（如Whisper）或基于输出音频特征（如DNSMOS）的过滤方法不同，这是模型对自身输出的“自评估”。主要实验结果：指标相关性：在EARS-WHAM数据集上，提出的置信度分数与多种侵入式SE指标（如PESQ, SpeechBERTScore, LPS）的Spearman相关系数（SRCC）高达0.788-0.892（见下表），显著优于UTMOS、DNSMOS等常规非侵入指标。过滤效果：在相同数据保留率下，使用置信度过滤在所有侵入式指标上均优于单指标或双指标基线过滤方法。下游任务提升：在TITW-hard野外数据集上，使用置信度过滤后的数据训练TTS模型（Matcha-TTS），其合成语音的UTMOS（3.80）和DNSMOS（3.17）评分以及WER（18.14%）均优于使用未过滤数据的基线（见下表）。实际意义：为利用GSE模型策划高质量TTS训练数据提供了一种有效、易用的质量控制手段，能够显著提升下游TTS模型的性能，具有明确的工程应用价值。主要局限性：方法局限于基于离散token的GSE模型；阈值选择需实验确定（存在质量与数据量的权衡）；核心创新思想相对直接，未提供理论解释为何置信度与幻觉错误相关。表1：提出的置信度分数与其他非侵入指标与侵入指标的SRCC（摘要自论文表1，关键行） ...

DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network

📄 DAT-CFTNet: Speech Enhancement for Cochlear Implant Recipients using Attention-based Dual-Path Recurrent Neural Network #语音增强 #注意力机制 #双路径RNN #复数值网络 #人工耳蜗 ✅ 7.0/10 | 前50% | #语音增强 | #注意力机制 | #双路径RNN #复数值网络学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Nursadul Mamun（Chittagong University of Engineering and Technology, Chittagong, Bangladesh）通讯作者：未明确标注，根据实验室归属推测为John H.L. Hansen（University of Texas at Dallas, USA）作者列表：Nursadul Mamun (Chittagong University of Engineering and Technology), John H. L. Hansen (University of Texas at Dallas; CRSS: Center for Robust Speech Systems; Cochlear Implant Processing Laboratory) 💡 毒舌点评论文针对人工耳蜗用户这一垂直领域进行了扎实的工程优化，将注意力机制融入双路径RNN瓶颈层，确实看到了性能提升，且提供了轻量化变体的思考。但核心方法更偏向于“拿来主义”的组合（DPRNN + Attention + CFTNet），且实验验证主要局限于自身的变体对比和自建数据集，缺乏在业界公认的大型基准（如VoiceBank-DEMAND）上的横向比对来确立其绝对竞争力。 ...

DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG

📄 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG #语音增强 #状态空间模型 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #跨模态 #信号处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度中 👥 作者与机构第一作者：未说明（论文作者列表仅提供“Karan Thakkar”，但未明确标注其为第一作者）通讯作者：未说明作者列表：Karan Thakkar (Johns Hopkins University, USA), Mounya Elhilali (Johns Hopkins University, USA) 机构：约翰霍普金斯大学，计算音频感知实验室 (Laboratory for Computational Audio Perception) 💡 毒舌点评亮点：该论文的核心思想——将语音包络重建从静态映射问题重新定义为结合时序先验的动态状态估计问题——非常清晰且富有启发性，为相关领域提供了有价值的范式参考；实验设计严谨，严格遵循公开挑战赛协议，并通过消融、频谱分析和鲁棒性测试多角度验证了方法的合理性。短板：在绝对性能上，尽管超越了先前SOTA，但提升幅度相对有限（从0.162到0.170），且与“理想上限”（DECAF-Oracle）差距依然明显，这削弱了其“突破性”的观感；论文中未提供完整的作者贡献与通讯信息，略显不规范。 🔗 开源详情代码：是，提供了代码仓库链接：https://github.com/JHU-LCAP/DECAF 模型权重：论文中未提及公开预训练模型权重。数据集：使用的是公开的ICASSP 2023 EEG解码挑战赛数据集（SPARrk-ULeE，需按协议获取）。论文中提供了相关引用和获取说明。 Demo：论文中未提及在线演示。复现材料：论文详细提供了训练细节（损失函数、优��器、学习率、训练轮次、早停）、模型架构描述、数据划分和评估指标，足以支持复现。论文中引用的开源项目：HappyQuokka系统（[13]）， VLAAI模型（[21]），以及用于EEG处理的mTRF工具箱（[12]）。开源计划：论文明确提供了代码仓库链接，表明了开源意图。 📌 核心摘要本文针对从脑电图（EEG）信号重建语音包络这一任务，提出了一种新的动态框架DECAF。1. 要解决的问题：现有深度学习方法将此任务视为静态回归，忽略了语音信号本身丰富的时序结构，导致重建保真度和鲁棒性受限。2. 方法核心：提出一种状态空间融合模型，它包含三个模块：直接从EEG估计当前包络的“EEG解码器”、从过去预测值自回归预测当前包络的“包络预测器”，以及一个学习到的门控网络，用于自适应地融合神经证据和时序先验。3. 与已有方法相比新在哪里：首次将此问题明确重构为动态状态估计任务，而非无状态的静态映射。模型完全因果且递归，能利用自身历史预测构建时序上下文。4. 主要实验结果：在ICASSP 2023 EEG解码挑战赛（任务2）的测试集上，DECAF的平均皮尔逊相关系数达到0.170±0.061，显著优于此前的最佳模型HappyQuokka（0.162±0.061，p=0.000483）。消融实验证明了两个分支的互补性：单独的EEG分支性能为0.117，单独的预测器分支接近随机。频谱分析表明，模型能协同利用EEG分支的低频信息和预测器的高频细节。5. 实际意义：该工作为听觉注意力解码和神经调控助听器等应用提供了更准确、连贯且适合在线处理的神经解码新方向。6. 主要局限性：模型绝对性能仍有提升空间（与Oracle上限差距大）；在EEG信号极度嘈杂时（SNR低），性能优势消失；作者信息在提供的文本中不完整。 ...

Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids #语音增强 #信号处理 #深度学习 #实时处理 🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Xiaofan Zhan (1,2) 通讯作者：Chengshi Zheng (1,2) 作者列表： Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Brian C. J. Moore (剑桥大学心理学系剑桥听力组) Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室；中国科学院大学) 💡 毒舌点评亮点是它成功地将信号处理领域的经典思路（先线性对消，再非线性抑制）与深度学习巧妙结合，设计了两阶段框架和针对性的三步训练法，在实验上也确实做到了“1+1>2”的效果。短板在于，论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊，只给出了宏观步骤，让想复现的人可能卡在调参的细节里；另外，只用了客观指标，缺乏真实的听感测试或临床数据支持，说服力打了点折扣。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：使用了公开的LibriSpeech和DNS Challenge数据集进行训练，测试集来自另一篇文献的公开测量数据。论文未提供自有数据集的下载链接。 Demo：未提及。复现材料：论文提供了极其详细的训练细节、模型结构、超参数配置（见第3、4节），足以作为复现指南。论文中引用的开源项目：引用了LibriSpeech数据集、DNS Challenge数据集，以及[21]（FSB网络）和[23]（重叠相加方法）的工作，但这些是作为方法或数据来源引用，而非本论文依赖的开源工具包。开源计划：论文中未提及开源计划。 📌 核心摘要解决的问题：助听器中固有的声反馈问题（麦克风重拾放大的声音导致啸叫和失真），严重限制了可用增益，尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法（DeepAFS和DeepAFC）各有局限：前者计算复杂且高增益效果有限，后者在反馈路径快速变化时性能下降。方法核心：提出JointDFC，一个两阶段深度学习框架。第一阶段使用LFCNet（集成预测误差方法的深度自适应反馈取消网络）进行线性反馈对消；第二阶段使用RFSNet（带全局因果时频注意力机制的全子带递归网络）抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。与已有方法相比新在哪里：这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化，融合了DeepAFC（侧重建模反馈路径）和DeepAFS（侧重直接信号分离）的优势。网络设计上引入了全局时频注意力以精准定位残余反馈，训练策略上专门设计了适配闭环系统的三步法。主要实验结果：在模拟用户内（Set A）和用户间（Set B）反馈路径变化的测试集上，JointDFC在多种高增益（5-11dB）条件下全面优于两个基线（DeepPEM-AFC， DeepAFS）。例如，在Set A的11dB增益条件下，JointDFC的WB-PESQ为4.12，eSTOI为98.01%，SI-SDR为16.14 dB，显著高于DeepPEM-AFC（PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB）和DeepAFS（PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB）。消融实验表明，移除全局注意力或联合训练均会导致性能下降。方法参数量(M) 计算量(G/s) WB-PESQ (5/7/9/11dB) eSTOI(%) (5/7/9/11dB) SI-SDR(dB) (5/7/9/11dB) Set A DeepPEM-AFC 0.240 0.060 4.32/4.23/3.71/3.11 99.24/98.84/93.64/90.87 19.03/17.79/9.80/-1.85 DeepAFS 0.302 0.319 4.28/4.18/3.90/3.53 98.45/97.90/96.11/93.86 17.62/16.22/14.13/11.39 JointDFC (ours) 0.396 0.227 4.30/4.26/4.21/4.12 98.87/98.68/98.40/98.01 18.71/17.95/17.16/16.14 w/o Global cTFA 0.391 0.224 4.23/4.19/4.13/4.02 98.47/98.27/97.90/97.32 17.74/17.07/16.27/14.98 w/o joint training 0.396 0.227 4.17/4.13/4.09/4.09 97.80/97.72/97.58/97.51 13.98/13.28/13.03/13.10 Set B DeepPEM-AFC 0.240 0.060 4.15/4.04/3.85/3.54 98.62/98.36/97.50/96.00 16.01/14.78/11.53/6.71 DeepAFS 0.302 0.319 4.23/4.13/3.93/3.63 98.36/97.81/96.42/93.97 17.33/15.88/13.83/10.86 JointDFC (ours) 0.396 0.227 4.21/4.16/4.11/4.07 98.59/98.39/98.11/97.92 16.91/15.99/15.25/14.66 w/o Global cTFA 0.391 0.224 4.13/4.07/4.02/3.95 98.13/97.90/97.59/97.12 16.19/15.22/14.47/13.18 w/o joint training 0.396 0.227 4.12/4.07/4.01/3.95 97.68/97.50/97.21/96.92 13.96/13.16/12.28/11.67 实际意义：该方法有望显著提升助听器在复杂动态环境下的稳定工作增益，改善中重度听力损失用户的听力补偿效果，同时保持了适合实时助听器芯片部署的计算复杂度（0.227 G MACs/s）。主要局限性：研究主要基于客观指标（PESQ, eSTOI, SI-SDR）评估，未提供主观听感测试或真实用户佩戴实验数据；模型在反馈路径剧变时的瞬态性能有待进一步探究；实际硬件部署的功耗、内存占用等未讨论。 🏗️ 模型架构本文提出的JointDFC系统是一个两阶段的深度学习框架，整体流程如图1(b)所示。 ...

DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings

📄 DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings #语音增强 #扩散模型 #音频大模型 #自回归模型 #预训练 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #音频大模型 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yihui Fu（德国布伦瑞克工业大学通信技术研究所）通讯作者：未说明作者列表：Yihui Fu（德国布伦瑞克工业大学通信技术研究所）、Tim Fingscheidt（德国布伦瑞克工业大学通信技术研究所） 💡 毒舌点评这篇论文的亮点在于它巧妙地将离散token的保真度与连续嵌入的phonetic精度结合起来，并且通过“量化误差掩码初始化”这一小巧思，成功地将扩散过程的反向步骤压缩到一步，实现了性能与效率的双赢。不过，论文通篇没有提及代码和模型开源的具体计划，对于想要立刻复现或应用其技术的同行来说，这无疑是一个不小的障碍。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用的是公开的URGENT 2024挑战赛数据集，但未提供直接的下载链接或获取方式说明。 Demo：未提及。复现材料：提供了非常详细的训练细节（见“详细分析”部分），包括数据处理、网络参数、损失函数、训练配置等，有利于复现。但未提供具体的配置文件、启动脚本或检查点。论文中引用的开源项目：引用了以下开源项目作为依赖： Descript Audio Codec (DAC): https://github.com/descriptinc/descript-audio-codec WavLM: https://huggingface.co/docs/transformers/model_doc/wavlm URGENT 2024 Challenge 工具包: https://github.com/urgent-challenge/urgent2024_challenge MaskGIT: [13] Chang et al., CVPR 2022. 📌 核心摘要问题：现有基于离散音频编解码器的扩散语音增强方法虽然保真度好，但推理时需要多次迭代，计算复杂度高；且在恢复正确音素（phoneme）方面表现不佳，导致其侵入式指标分数较低。方法核心：本文提出DisContSE，一个混合判别/生成模型。它联合处理离散的音频编解码器token和连续嵌入，分别通过离散增强模块和连续增强模块进行优化，并引入语义增强模块提升音素准确性。其关键创新是提出“量化误差掩码初始化”策略，使得在推理时仅需一步扩散过程即可生成结果。与已有方法相比新在哪里：首次实现了基于音频编解码器的单步扩散语音增强；提出了联合离散与连续表征的统一框架，并明确设计了三个功能互补的增强模块；通过量化误差指导初始化，优化了单步推理的质量。主要实验结果：在URGENT 2024挑战赛数据集上进行评估，DisContSE在PESQ、POLQA、UTMOS等关键指标和主观MOS测试中均排名第一，总体排名（2.36，越低越好）显著优于所有对比的基线扩散模型。消融实验证明了每个模块及单步策略的有效性。关键结果对比如下：方法类型 PESQ POLQA UTMOS ESTOI 总体排名 SGMSE+ [1] G30 2.75 2.98 2.74 0.78 6.27 CRP [15] G1 3.10 3.01 3.04 0.81 3.36 StoRM [17] D+G50 2.94 3.02 2.95 0.79 4.82 Universe++ [18] D+G8 3.09 3.23 3.04 0.80 4.18 DisContSE (prop.) D+G1 3.14 3.25 3.13 0.80 2.36 实际意义：该工作为语音增强领域提供了一种高效且高质量的解决方案，单步推理特性使其更适合部署在实时或资源受限的应用场景中。主要局限性：论文未明确开源代码和模型权重，限制了即时复现；尽管提出了单步扩散，但模型本身结构相对复杂，结合了多个预训练模型（DAC, WavLM）和独立的增强模块，总参数量较大。 🏗️ 模型架构 DisContSE是一个由三个主要模块和一个共享的离散扩散解码器构成的混合架构。 ...

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Ziqi Liang（蚂蚁集团，杭州）通讯作者：Jian Wang（蚂蚁集团，杭州，bobblair.wj@antgroup.com）作者列表：Ziqi Liang（蚂蚁集团），Zhijun Jia（蚂蚁集团），Chang Liu（中国科学技术大学，合肥），Minghui Yang（蚂蚁集团），Zhihong Lu（蚂蚁集团），Jian Wang（蚂蚁集团）。注：作者贡献标注为† Equal Contribution，故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评亮点：论文直击现有语音修复模型跨说话人风格泛化能力差的痛点，并提出了一个新颖的假设——降质信息与说话人风格解耦，并据此设计了引导扩散模型的先验模块，思路清晰且具有启发性。短板：支撑“降质信息包含在说话人风格中”这一核心假设的实验（图3）略显间接，分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息，论证链不够坚实。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了公开数据集LibriTTS, VCTK, AISHELL-3, JSUT，但未提供本文特有的模拟退化脚本或处理流程。 Demo：提供了演示网站：https://itspsp.github.io/DisSR。复现材料：论文中未提供详细的训练配置、超参数设置或预训练检查点。论文中引用的开源项目：提到了使用VoiceFixer [8]和SelfRemaster [4]的开源流水线来创建训练数据。总结：论文中未提及完整的开源计划。 📌 核心摘要解决的问题：现有语音修复方法多为针对单一失真的特定模型，泛化能力差，尤其是面对训练时未见过的说话人风格（跨域）时性能下降明显。方法核心：提出DisSR模型，核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中，降质表示被设计为说话人无关的先验信息，并用于条件引导一个基于扩散模型的恢复网络。同时，引入跨域对齐训练来最小化不同说话人分布间的差距。创新点：1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设；2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复；3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。主要实验结果：在跨语言（英→中/日）跨说话人测试集上，DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型（例如在LibriTTS→VCTK英文测试集上，PESQ-wb为3.02，相比最优基线SGMSE+M的2.74有显著提升）。在单任务修复（如带宽扩展、去噪）中，DisSR也展现出竞争力，总体感知质量（COVL）占优。消融实验表明，所提出的各组件（多层级降质先验、降质表示学习、跨域对齐损失）均对性能有贡献。实际意义：为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路，具有较强的实用价值。主要局限性：核心假设的直接验证稍显薄弱；实验中假设“每条语音内降质相同，语音间变化”，这与真实世界复杂场景可能存在差距；未公开代码与模型，限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示，主要分为两个协同工作的模块：说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers

📄 DiTSE: High-Fidelity Generative Speech Enhancement via Latent Diffusion Transformers #语音增强 #扩散模型 #Transformer #高保真音频 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #Transformer #高保真音频学术质量 8.5/7 | 选题价值 8.0/2 | 复现加成 8.0 | 置信度高 👥 作者与机构第一作者：Heitor R. Guimarães (INRS-EMT, Université du Québec, Montréal, Canada) 通讯作者：未明确说明（根据作者顺序和单位，通常最后一位或带有†标记的作者可能是通讯作者，但论文中未明确标注）作者列表： Heitor R. Guimarães（INRS-EMT, Université du Québec, Montréal, Canada；其工作在Adobe Research实习期间完成） Jiaqi Su（Adobe Research, San Francisco, California, United States） Rithesh Kumar（Adobe Research, San Francisco, California, United States） Tiago H. Falk（INRS-EMT, Université du Québec, Montréal, Canada） Zeyu Jin（Adobe Research, San Francisco, California, United States） 💡 毒舌点评亮点：该工作首次在主观评测中将语音增强的输出质量提升至与真实录音棚录音（DAPS数据集）“无法区分”的水平（MOS 4.34 vs. 4.30），这是生成式语音增强领域一个重要的里程碑。短板：模型（335M参数）相比多数基线更庞大，且依赖32步的扩散采样，实时性可能受限，其“高保真”优势在资源受限场景下的实用性有待考量；此外，尽管使用了离散编解码器进行后处理，但核心的连续潜在空间扩散仍面临VAE重建瓶颈（如VBD数据集上VAE重建分数低于原生48kHz音频）。 ...

Do We Need EMA for Diffusion-Based Speech Enhancement? Toward A Magnitude-Preserving Network Architecture

📄 Do We Need EMA for Diffusion-Based Speech Enhancement? Toward A Magnitude-Preserving Network Architecture #语音增强 #扩散模型 #Schrödinger桥 #幅度保持 ✅ 7.5/10 | 前50% | #语音增强 | #扩散模型 | #Schrödinger桥 #幅度保持学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Julius Richter（汉堡大学计算机系信号处理组）通讯作者：未说明作者列表：Julius Richter（汉堡大学计算机系信号处理组）、Danilo de Oliveira（汉堡大学计算机系信号处理组）、Timo Gerkmann（汉堡大学计算机系信号处理组） 💡 毒舌点评亮点：这篇论文最大的价值在于用严谨的实验“破除了一个迷思”——即图像生成领域中常用的长EMA策略在语音增强中并不适用，甚至有害。这为优化扩散模型在音频领域的训练提供了直接、反直觉且实用的结论。短板：模型本身是已有组件（EDM2、MP-ADM、Schrödinger Bridge）的“乐高式”组合，缺乏架构层面的原生创新。其性能（如Table 2）与先前工作（如SB-VE）相比并未取得全面、显著的优势，说服力略有折扣。 🔗 开源详情代码：提供GitHub仓库链接：https://github.com/sp-uhh/edm2se。模型权重：论文中明确提到提供“pretrained checkpoints”。数据集：使用了公开的VoiceBank-DEMAND和EARS-WHAM数据集，但论文本身未提供新数据集。 Demo：论文中未提及在线演示。复现材料：提供了详细的训练细节，包括：使用的数据集、STFT预处理方式、扩散过程参数（c, k）、采样步数（50）、优化器（Adam）、学习率（2.5e-3）及衰减策略、批量大小（16）、训练硬件（2x RTX A6000），以及关键的EMA设置建议（σ_rel=0.001）。这些信息足够进行复现。引用的开源项目：基于EDM2的官方实现（https://github.com/NVlabs/edm2）构建。 📌 核心摘要问题：论文旨在解决扩散模型语音增强中两个被忽视的问题：一是网络激活和权重幅度的不可控增长导致的训练不稳定；二是在图像生成中能提升多样性的指数移动平均（EMA）参数平滑技术，在语音增强任务中的作用和最佳配置尚不明确。方法核心：作者提出EDM2SE框架，将EDM2的训练动态和幅度保持（Magnitude-Preserving）架构引入基于Schrödinger桥的语音增强。核心包括：a）采用幅度保持学习层（MP-Add, MP-SiLU）和时间依赖的预条件处理（输入/输出缩放）来稳定训练；b）设计两种跳跃连接配置，使网络分别预测环境噪声（cs=1）或干净语音（cs=0）；c）首次系统分析EMA对语音增强的影响，发现短EMA甚至无EMA优于长EMA。新意：与已有方法（如SGMSE+， SB-VE）相比，新意在于：1）将EDM2的幅度保持理念适配到语音领域的Schrödinger桥模型中；2）对比了预测噪声与预测语音两种设计，揭示其在不同指标上的互补性；3）首次通过实验证明在语音增强中，短EMA或无EMA的性能优于长EMA，这与图像生成领域的认知相反。主要实验结果：在VoiceBank-DEMAND和EARS-WHAM数据集上评估。关键结果：a）如图2所示，EMA长度超过约0.2（相对标准差）后，所有指标（SI-SDR, PESQ等）显著下降。b）如表1所示，两种跳跃连接设计各有优势：cs=1（预测噪声）在PESQ上略优，cs=0（预测语音）在SI-SDR和NISQA上略高。c）如表2所示，在匹配条件下，EDM2SE与SGMSE+、SB-VE性能相当（例如PESQ 2.97 vs 2.93/2.91）；但在失配条件下，EDM2SE表现出更强的鲁棒性（SI-SDR 14.79 vs 10.13/17.71， PESQ 2.69 vs 2.62/2.00）。实际意义：为构建稳定、高效的扩散语音增强模型提供了实践指南，特别是在预条件化、跳跃连接选择和EMA设置上。其“短EMA更优”的发现对优化语音类扩散模型的训练流程有直接参考价值。主要局限：模型架构创新有限，更多是成熟技术的适配与验证。尽管在失配条件下鲁棒性较好，但在最佳匹配条件下的峰值性能未明确超越先前最强基线（如Table 2中SB-VE的SI-SDR更高）。 🏗️ 模型架构 EDM2SE的整体框架是一个基于U-Net结构的条件扩散模型，其核心是幅度保持的扩散模型架构（MP-ADM），并适配了Schrödinger桥（SB）的条件过程。 ...

Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training

📄 Dynamically Slimmable Speech Enhancement Network with Metric-Guided Training #语音增强 #动态网络 #指标引导训练 #轻量模型 ✅ 7.5/10 | 前25% | #语音增强 | #动态网络 | #指标引导训练 #轻量模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：未说明（论文中三位作者顺序未明确标注为第一作者）通讯作者：未说明作者列表：Haixin Zhao（IDLab, Ghent University - imec），Kaixuan Yang（IDLab, Ghent University - imec），Nilesh Madhu（IDLab, Ghent University - imec） 💡 毒舌点评亮点：这篇论文将“动态网络”从单一组件（如仅卷积层）推广到了语音增强中常见的各类组件（GRU、MHA、Conv、FC），且设计的指标引导训练（MGT）逻辑清晰，让模型学会“看人下菜碟”，实验上也确实验证了其资源分配的智能性。短板：创新性虽然扎实，但核心是工程化整合与训练技巧的改进，理论深度有限；且其声称的“架构无关性”目前仅在一个具体基线（FTF-Net）上验证，说服力稍显不足。 📌 核心摘要解决的问题：为解决静态轻量级语音增强模型对不同质量输入“一视同仁”导致的计算资源分配不优问题，需要一种能根据输入质量动态调整计算量的架构。方法核心：提出动态可瘦身网络（DSN），将基线模型（FTF-Net）中常见的组件（卷积、GRU、MHA）改造为静态/动态并行路径。引入策略模块生成逐帧门控向量，控制动态路径的激活。进一步提出指标引导训练（MGT），利用输入语音的DNS-MOS OVRL分数作为目标，显式引导策略模块学习评估输入质量。新意：与现有仅针对单一组件或依赖隐式学习的方法相比，DSN扩展了动态机制的适用范围；MGT则首次利用外部语音质量评估指标（如DNS-MOS）作为训练信号，显式、直接地指导模型进行资源分配。主要实验结果：在DNS3数据集上，MGT-DSN（平均50%激活率）在ESTOI, SI-SDR, PESQ等指标上达到与静态SOTA基线（FTF-Net）相当的性能，但平均计算量仅为后者的73%（221M MACs/s vs. 301M MACs/s）。在Voicebank+Demand测试集上，MGT-DSN与FTF-Net和CCFNet+等基线性能持平，但计算量仅为它们的73%和15%。关键对比图表：图5对比了三种模型在不同SNR下的六项指标得分。图6展示了标准动态模型与MGT动态模型的激活比例随SNR和OVRL分数的变化趋势，MGT模型的激活比例与输入质量呈现明确的负相关。实际意义：使语音增强模型能够根据实际语音的损坏程度自适应地分配计算资源，在保证增强质量的同时降低平均功耗，更适合资源受限的实时边缘设备部署。主要局限性：动态框架的普适性仅在FTF-Net上验证，是否在其他架构上同样有效需进一步证明。 MGT训练依赖外部的DNS-MOS分数，其准确性与泛化能力会影响引导效果。尽管平均计算量降低，但峰值计算量并未减少（激活比例为1时），对于硬件峰值功耗有严格要求的场景可能仍需考虑。 🏗️ 模型架构 DSN整体架构图1：动态可瘦身网络（DSN）整体架构图。模型基于三层U-Net结构。前两层卷积是静态的。从第三层卷积开始，引入动态组件。策略模块位于早期卷积层之后，接收特征，输出逐帧门控向量g，该向量全局控制所有动态模块（图中虚线路径与盒状“G”）的开启（1）或关闭（0）。动态GRU模块图2：频率Transformer中的动态GRU模块。四个双向GRU组被分为两组静态、两组动态。后接的线性层也被设计为动态结构。静态组的输出始终传递，动态组的输出通过门控与静态输出结合，形成动态路径。动态GRU单元图3：时间Transformer动态GRU组中的GRU单元。与频率Transformer不同，这里仅将当前帧的“输入到隐藏”路径设置为可动态剪枝，而隐藏状态更新始终保留，以维持时间连续性。动态MHA模块图4：动态多头注意力（MHA）模块。一半注意力头为静态，一半为动态。在Q、K、V的线性投影以及输出投影中，均采用了与GRU块类似的动态线性块结构。 ...