Icassp-2026

Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens

📄 Direct Transfer of Prosody in Speech-to-speech Translation using Disentangled Speech Tokens #语音翻译 #自监督学习 #端到端 #多语言 ✅ 7.5/10 | 前25% | #语音翻译 | #端到端 | #自监督学习 #多语言学术质量 5.5/7 | 选题价值 1.8/2 | 复现加成 0.2 | 置信度中 👥 作者与机构第一作者：Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA) 通讯作者：未说明作者列表：Ismail Rasim Ulgen (Amazon Prime Video, USA; Center for Language and Speech Processing, Johns Hopkins University, USA), Nancy Liu (Amazon Prime Video, USA), Najmeh Sadoughi (Amazon Prime Video, USA), Abhishek Yanamandra (Amazon Prime Video, USA), Abhinav Jain (Amazon Prime Video, USA), Zhu Liu (Amazon Prime Video, USA), Vimal Bhat (Amazon Prime Video, USA) 💡 毒舌点评亮点：这篇论文直击语音翻译中“翻译腔”这一痛点，用“解耦-传递”的巧思，将困扰领域多年的“韵律平行数据缺失”问题绕了过去，思路清晰且效果显著。短板：研究略显“工程化”，虽然提出了巧妙的对齐机制，但过度依赖一个外部强大且未开源的解耦编解码器（FACodec），且实验仅验证了两个语言对，在更复杂语系或低资源场景下的鲁棒性存疑。 ...

Directly Trained Spiking Neural Networks with Adaptive Phase Coding

📄 Directly Trained Spiking Neural Networks with Adaptive Phase Coding #音频分类 #时间编码 #脉冲神经网络 ✅ 7.0/10 | 前25% | #音频分类 | #时间编码 | #脉冲神经网络学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Huaxu He（广东智能科学技术研究院，河南大学）通讯作者：Yang Liu（河南大学计算机与信息工程学院），Chio-In IEONG（广东智能科学技术研究院）作者列表：Huaxu He（广东智能科学技术研究院，河南大学）、Zhixing Hou（广东智能科学技术研究院）、Mingkun Xu（广东智能科学技术研究院）、Yongsheng Huang（广东智能科学技术研究院）、Yang Liu（河南大学计算机与信息工程学院）、Chio-In IEONG（广东智能科学技术研究院） 💡 毒舌点评亮点：论文提出的“自适应相位编码”机制概念清晰、实现简洁，且巧妙地通过“层间时间打乱”消融实验，为“网络是否真的在利用时间信息”这一核心假设提供了直接证据，这在SNN可解释性研究中很有价值。短板：创新深度有限，本质上是给LIF神经元的输入电流项增加了时间维度的缩放因子；实验部分未能与近年来涌现的多种直接训练SNN方法（如SLTT、GLIF等）进行公平、全面的对比，削弱了其宣称的“改进”的说服力。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及。论文使用的数据集（CIFAR10/100， DVS-Gesture， SHD）均为公开标准数据集。 Demo：未提及。复现材料：论文提供了一些关键设置（骨干网络名称、时间步数、APC参数初始化及约束策略），但缺少完整的训练脚本、配置文件和详细参数。论文中引用的开源项目：论文引用了QKFormer [19]作为骨干网络，这是构建在其上的一个开源SNN模型。其他引用多为通用SNN研究。 📌 核心摘要本文旨在解决直接训练的脉冲神经网络（SNN）在利用脉冲时间信息方面的不足，现有方法大多退化为等效的速率编码，限制了SNN处理时序信息和实现低功耗的潜力。为此，论文提出了“自适应相位编码”（APC）机制，其核心是在标准LIF神经元模型中引入与时间步相关的可学习参数（β_t, λ_t），用于对不同时间步的输入电流和膜电位衰减进行加权。与预先定义固定规则的相位编码不同，APC使网络能在端到端训练中自主学习每个时间步的重要性，并且该参数被扩展至每个层的每个通道，以实现更精细的时序调制。实验结果表明，在静态数据集CIFAR-10/100上，APC能将脉冲发放率降低约20%，同时精度仅下降约0.85%；在时序数据集DVS-Gesture和SHD上，APC显著提升了分类精度，分别提高了1.73%和17.76%，其中SHD数据集的提升尤为显著。论文通过层间时间打乱消融实验证明，APC确实促使网络从依赖速率编码转向利用脉冲的时序结构。该工作的实际意义在于为直接训练的SNN提供了一种即插即用的时间编码增强模块，能提升其在时序任务上的性能。主要局限性在于，在静态数据集上精度略有下降，且实验验证的骨干网络和任务类型相对单一。 🏗️ 模型架构本文并未提出一个新的整体网络架构，而是提出了一种对标准漏积放电（LIF）神经元模型的增强方法，该方法可以作为一种通用模块嵌入到现有的SNN架构中。 ...

DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings

📄 DisContSE: Single-Step Diffusion Speech Enhancement based on Joint Discrete and Continuous Embeddings #语音增强 #扩散模型 #音频大模型 #自回归模型 #预训练 🔥 8.5/10 | 前10% | #语音增强 | #扩散模型 | #音频大模型 #自回归模型学术质量 6.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Yihui Fu（德国布伦瑞克工业大学通信技术研究所）通讯作者：未说明作者列表：Yihui Fu（德国布伦瑞克工业大学通信技术研究所）、Tim Fingscheidt（德国布伦瑞克工业大学通信技术研究所） 💡 毒舌点评这篇论文的亮点在于它巧妙地将离散token的保真度与连续嵌入的phonetic精度结合起来，并且通过“量化误差掩码初始化”这一小巧思，成功地将扩散过程的反向步骤压缩到一步，实现了性能与效率的双赢。不过，论文通篇没有提及代码和模型开源的具体计划，对于想要立刻复现或应用其技术的同行来说，这无疑是一个不小的障碍。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：论文使用的是公开的URGENT 2024挑战赛数据集，但未提供直接的下载链接或获取方式说明。 Demo：未提及。复现材料：提供了非常详细的训练细节（见“详细分析”部分），包括数据处理、网络参数、损失函数、训练配置等，有利于复现。但未提供具体的配置文件、启动脚本或检查点。论文中引用的开源项目：引用了以下开源项目作为依赖： Descript Audio Codec (DAC): https://github.com/descriptinc/descript-audio-codec WavLM: https://huggingface.co/docs/transformers/model_doc/wavlm URGENT 2024 Challenge 工具包: https://github.com/urgent-challenge/urgent2024_challenge MaskGIT: [13] Chang et al., CVPR 2022. 📌 核心摘要问题：现有基于离散音频编解码器的扩散语音增强方法虽然保真度好，但推理时需要多次迭代，计算复杂度高；且在恢复正确音素（phoneme）方面表现不佳，导致其侵入式指标分数较低。方法核心：本文提出DisContSE，一个混合判别/生成模型。它联合处理离散的音频编解码器token和连续嵌入，分别通过离散增强模块和连续增强模块进行优化，并引入语义增强模块提升音素准确性。其关键创新是提出“量化误差掩码初始化”策略，使得在推理时仅需一步扩散过程即可生成结果。与已有方法相比新在哪里：首次实现了基于音频编解码器的单步扩散语音增强；提出了联合离散与连续表征的统一框架，并明确设计了三个功能互补的增强模块；通过量化误差指导初始化，优化了单步推理的质量。主要实验结果：在URGENT 2024挑战赛数据集上进行评估，DisContSE在PESQ、POLQA、UTMOS等关键指标和主观MOS测试中均排名第一，总体排名（2.36，越低越好）显著优于所有对比的基线扩散模型。消融实验证明了每个模块及单步策略的有效性。关键结果对比如下：方法类型 PESQ POLQA UTMOS ESTOI 总体排名 SGMSE+ [1] G30 2.75 2.98 2.74 0.78 6.27 CRP [15] G1 3.10 3.01 3.04 0.81 3.36 StoRM [17] D+G50 2.94 3.02 2.95 0.79 4.82 Universe++ [18] D+G8 3.09 3.23 3.04 0.80 4.18 DisContSE (prop.) D+G1 3.14 3.25 3.13 0.80 2.36 实际意义：该工作为语音增强领域提供了一种高效且高质量的解决方案，单步推理特性使其更适合部署在实时或资源受限的应用场景中。主要局限性：论文未明确开源代码和模型权重，限制了即时复现；尽管提出了单步扩散，但模型本身结构相对复杂，结合了多个预训练模型（DAC, WavLM）和独立的增强模块，总参数量较大。 🏗️ 模型架构 DisContSE是一个由三个主要模块和一个共享的离散扩散解码器构成的混合架构。 ...

Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens

📄 Discrete Diffusion for Generative Modeling of Text-Aligned Speech Tokens #语音合成 #扩散模型 #自回归模型 #语音表示 ✅ 7.5/10 | 前25% | #语音合成 | #扩散模型 | #自回归模型 #语音表示学术质量 6.0/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Pin-Jui Ku（NVIDIA；Georgia Institute of Technology）通讯作者：未说明作者列表：Pin-Jui Ku（NVIDIA；Georgia Institute of Technology），He Huang（NVIDIA），Jean-Marie Lemercier（NVIDIA），Subham Sekhar Sahoo（NVIDIA；Cornell Tech），Zhehuai Chen（NVIDIA），Ante Jukić（NVIDIA） 💡 毒舌点评亮点：论文将新兴的离散扩散模型系统性地应用于语音token重建，并提供了迄今最全面的实证分析，结论（如FSQ优于RVQ、Conf-TopK采样更佳）对后续相关工作有直接的工程指导价值。短板：论文主要贡献是“应用与分析”，而非提出基础理论或解决语音token化中的核心难题（如语义与声学信息的完美解耦），且未探讨其方法对下游语音大模型（如TTS、ASR）性能的影响，使其深度和影响力受限。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开权重。数据集：使用了Granary英文子集，论文未说明如何公开获取。 Demo：提供了一个Demo页面链接：https://kuray107.github.io/DDMs_on_taste26_examples/demo，用于展示音频样本。复现材料：论文在“实验设置”部分给出了详细的训练配置（GPU型号/数量、batch size、优化器、学习率策略、两阶段训练步数、模型参数量）、评估指标和采样器设置，为复现提供了充分的文字指导。论文中引用的开源项目：量化方案：Finite Scalar Quantization (FSQ) [26] 预训练模型：Whisper [21], NVIDIA NeMo [25], CosyVoice [17], HiFi-GAN vocoder [23] 评估工具：Torchaudio-Squim [30], WavLM [33], TitaNet [34], WV-MOS [31], UTMOS [32] DDM相关：D3PM [1], MDLM [2], ReMDM [4], Confidence-based Samplers [13, 14, 15] 📌 核心摘要要解决什么问题：现有的TASTE语音token化框架依赖自回归（AR）解码器来重建语音，这导致推理速度慢，且重建质量可能非最优。方法核心是什么：提出用离散扩散模型（DDM）替代TASTE中的AR解码器。模型在推理时，通过迭代去噪（从全掩码到逐步揭示）来并行预测S3 token序列，再由vocoder生成波形。与已有方法相比新在哪里：首次在TASTE框架中系统性地应用并分析DDM。与AR解码器相比，DDM解码具有并行性，且质量更高。同时，论文系统比较了向量量化方案（RVQ vs. FSQ），发现FSQ能显著提升性能。主要实验结果如何：在LibriSpeech数据集上，DDM解码器相比AR基线实现了3.3倍的推理速度提升（测试集1.65秒 vs. 5.48秒）。使用RVQ量化时，DDM的WER比AR降低35%（测试集：5.10% vs. 7.60%），UT-MOS提升0.45（4.27 vs. 3.82）。使用FSQ量化后，性能进一步提升，AR模型的WER相对降低35%，UT-MOS提升0.14。DDM模型在10步推理时即可达到峰值性能，甚至单步推理也基本可用。关键实验结果对比如下表：模型量化方式测试集 WER (%) ↓ UT-MOS ↑ AR基线 4L-RVQ test-clean 7.60 3.82 本文DDM 4L-RVQ test-clean 5.10 4.27 本文DDM 4L-FSQ test-clean 4.00 4.30 本文DDM 10步 test-clean 3.70 4.28 本文DDM 单步 test-clean 5.14 3.81 实际意义是什么：为语音token化中的高效、高质量解码提供了一个优于自回归范式的新方案，展示了离散扩散模型在条件生成任务中的潜力，并提供了工程实践上的具体指导（如采样器选择、步数设置）。主要局限性是什么：模型性能严重依赖一个外部长度预测器来估计S3 token序列长度；论文未验证该改进的语音表示对下游语音大模型（如端到端TTS、ASR）的具体增益；其优势建立在强条件（文本+TASTE embedding）上，对于无条件或弱条件生成任务的普适性未探讨。 🏗️ 模型架构本文模型架构建立在TASTE框架之上，包含两个主要部分：TASTE Tokenizer和解码器（AR或DDM）。整体流程如图1所示。 ...

Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection

📄 Discrete-Continuous Fusion With Adaptive Hierarchical Features For Audio Deepfake Detection #音频深度伪造检测 #迁移学习 #自监督学习 #端到端 🔥 8.0/10 | 前10% | #音频深度伪造检测 | #迁移学习 #自监督学习 | #迁移学习 #自监督学习学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Jianqiao Cui（清华大学自动化系）通讯作者：未说明（论文中星号标注了Bingyao Yu为通讯作者，但需根据星号原文确认，此处依据“*Corresponding author”和“∗”对应Bingyao Yu）作者列表：Jianqiao Cui（清华大学自动化系，长三角研究院），Bingyao Yu（清华大学自动化系），Shun Qin（清华大学长三角研究院） 💡 毒舌点评本文提出的“离散语义标签与连续声学特征融合”思路新颖，且实验证明HAT模块对跨数据集鲁棒性提升显著。然而，其核心性能高度依赖于第三方模型GLM-4-Voice生成的语义标签质量，且所有实验均基于英语数据集，对跨语言泛化和实时攻击的鲁棒性未做验证，实际部署还需考量计算开销。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：论文中未提及公开其微调后的模型权重。数据集：使用了公开的CodecFake和ASVspoof2021数据集，论文中未提及数据获取方式的特殊说明。 Demo：论文中未提及提供在线演示。复现材料：论文提供了模型架构图（图1）、关键超参数设置（学习率、batch size、优化器、训练轮数等）和模型配置（冻结层策略、HRC参数），这些信息有助于复现。论文中引用的开源项目： Whisper（OpenAI）：作为核心骨干网络。 GLM-4-Voice（THUDM）：用于生成离散语义标签。 CodecFake、ASVspoof2021：作为评估基准数据集。 📌 核心摘要该论文旨在解决当前基于神经编解码器的语音合成技术生成的深度伪造音频难以被现有检测方法有效识别的问题。其核心方法是将预训练的Whisper模型用于音频深度伪造检测，并引入两个关键模块：1）混合音频标记（HAT），将来自GLM-4-Voice的离散语义标签与Whisper编码器的连续声学特征进行融合，以捕捉语义与声学之间的不一致；2）分层残差连接（HRC），通过自适应地选择和整合Whisper编码器不同层次的输出特征，来保留多层次的伪造线索。与已有的单模态声学特征方法或简单的特征加权和方法相比，该方法能更有效地利用语义信息并保留关键的层次特征。在ASVspoof2021 DF、LA和CodecFake验证集上的实验表明，其最佳模型（Wsp with HAT&HRC）取得了0.67%的平均等错误率（EER），相较于强基线模型（如XLS-R）的EER降低了高达46%。具体实验数据如下： ...

Disentangled Authenticity Representation for Partially Deepfake Audio Localization

📄 Disentangled Authenticity Representation for Partially Deepfake Audio Localization #音频深度伪造检测 #对比学习 #语音伪造检测 #音频安全 ✅ 6.5/10 | 前25% | #音频深度伪造检测 | #对比学习 | #语音伪造检测 #音频安全学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构第一作者：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）通讯作者：论文中未明确标注通讯作者，依据学术惯例，可能为Siding Zeng或其他未列出作者。作者列表：Siding Zeng（中国科学院自动化研究所多模态人工智能系统国家重点实验室、中国科学院大学人工智能学院）。论文中仅列出此一位作者，但机构信息显示有两个隶属单位。 💡 毒舌点评论文的亮点在于其针对特定痛点（域偏移和边界模糊）设计了一套逻辑自洽、组件协同的解决方案，消融实验也扎实地证明了各模块的有效性。然而，其核心思想——将表示解耦为“目标”与“干扰”成分——在计算机视觉等领域已不新鲜，论文的创新更多体现在如何将这一通用思想“翻译”并适配到部分伪造音频定位这个具体任务上，属于扎实的工程优化而非理论或架构上的重大突破。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及公开模型权重。数据集：实验使用了公开的PartialSpoof和ADD2023数据集，但论文本身未发布新数据集。 Demo：未提及在线演示。复现材料：提供了较为详细的训练配置（优化器、学习率、批量大小、损失权重、硬件），但未提供完整的训练脚本、配置文件或预训练检查点。论文中引用的开源项目：引用了Wav2Vec2预训练模型（作为特征提取器）。总结：论文中未提及明确的开源计划。 📌 核心摘要问题：部分深度伪造音频（仅少数片段被篡改）的定位面临两大挑战：训练与测试数据间的域偏移，以及真实与伪造段之间细微的过渡边界。方法核心：提出DisAR双分支框架，将每个音频帧的特征显式解耦为“真实性特征”（捕捉伪造痕迹）和“干扰因素特征”（编码说话人、内容、环境等信息）。通过门控融合模块重建原始特征以避免信息丢失，并利用局部时间对比损失增强对篡改边界的敏感性。创新点：与已有方法相比，新在显式地将真实性信息与干扰因素分离，而非隐式地让模型自行学习；并通过融合重构和对比损失分别保障信息完整性和提升边界精度。主要结果：在PartialSpoof数据集上，DisAR取得了95.75%的F1分数（EER 3.51%）；在ADD2023 Track 2（跨域测试）上，F1分数达到76.74%（EER 19.05%），均优于报告的基线。关键消融实验证明，移除正交损失、融合模块或对比损失均会导致性能显著下降（例如，无正交损失时F1降至68.48%）。主要对比实验结果（表1）：方法 PartialSpoof F1 (%) ADD2023 Track 2 F1 (%) AGO (ICASSP’24) 94.36 71.87 DisAR (本文) 95.75 76.74 跨域泛化结果（表3）：PartialSpoof -> ADD2023设置下，DisAR的F1分数为57.81%，远高于基线SPF（37.15%）和RSDM（34.09%）。实际意义：提升了深度伪造音频检测在真实复杂场景（不同设备、环境、语言）下的可靠性和可解释性（通过解耦的特征）。 ...

Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis

📄 Disentangling Physiology from Fidelity: Latent-Guided Diffusion Models for Cross-Modal Cardiac Synthesis #音频生成 #扩散模型 #状态空间模型 #数据增强 #跨模态 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #状态空间模型 #数据增强学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度中 👥 作者与机构第一作者：Chenyang Xu（西安电子科技大学网络安全学院）通讯作者：Hao Wang（西安电子科技大学网络安全学院）作者列表：Chenyang Xu（西安电子科技大学网络安全学院）、Siming Li（西安电子科技大学电信工程学院）、Wensai Xuan（西安电子科技大学机电工程学院）、Hao Wang（西安电子科技大学网络安全学院） 💡 毒舌点评亮点：论文巧妙地将“内容”（生理状态）与“风格”（信号波形）解耦，其潜在空间t-SNE可视化（图4）首次提供了学习到的生理状态分离的直观证据，这是一个令人信服的贡献。短板：方法的有效性高度依赖于配对、同步且状态标注清晰的高质量数据（如Ephnogram），在真实世界更嘈杂、异构的临床数据中的泛化能力存疑，而论文未对此进行任何讨论或验证。 🔗 开源详情代码：论文中未提及代码链接或开源计划。模型权重：未提及公开权重。数据集：论文使用了公开的Ephnogram数据集，但未提供获取链接或具体说明。 Demo：未提及。复现材料：论文提供了较为详细的训练超参数（学习率、批大小、优化器、轮数）、模型结构（维度、层数）、损失函数公式及β值选择过程，这有助于复现。但未提供配置文件、训练脚本或预训练检查点。论文中引用的开源项目：未在文中明确列出依赖的开源工具。架构中引用了Mamba[9]、AdaLN[21]等技术，但未指明是否使用了其官方开源实现。 📌 核心摘要要解决的问题：心电图（ECG）与心音图（PCG）的跨模态合成对于综合心血管评估至关重要，但面临长程依赖建模和保持临床保真度的挑战。方法核心：提出Mamba-Diff-VAE两阶段框架。第一阶段，共享的Mamba-VAE编码器将输入信号编码到一个捕获核心生理内容的结构化共享潜在空间。第二阶段，条件Mamba扩散解码器在潜在代码和元数据（如生理状态）的引导下，生成高保真的目标波形。与已有方法相比新在哪里：不同于直接端到端的条件扩散模型，该工作明确将“内容表示”与“波形生成”解耦。使用Mamba替代Transformer处理长序列，具有线性复杂度优势。并且首次实证了学习到的潜在空间能有意义地区分生理状态（如静息与运动后）。主要实验结果：在Ephnogram数据集上，该方法在ECG-to-PCG和PCG-to-ECG双向合成任务上均取得SOTA。与最强基线SSSM-Diff相比，在ECG-to-PCG任务上MSE降低40%（0.149 vs 0.089），相关性提高13%（0.745 vs 0.847）；在PCG-to-ECG任务上MSE降低35%（0.173 vs 0.112）。消融研究（表2）证实了VAE组件和共享编码器的关键作用。实际意义：该框架可用于生成高质量的合成心脏信号进行数据增强，提升下游诊断模型性能；其结构化潜在空间为心脏生理状态建模和潜在生物标志物发现提供了新途径。主要局限性：研究仅基于一个公开数据集（Ephnogram）和健康/运动状态，未在病理数据集上验证泛化性；潜在空间分析主要停留在t-SNE可视化层面；推理过程未针对临床实时性进行优化。 🏗️ 模型架构论文提出的Mamba-Diff-VAE是一个两阶段生成框架，旨在实现ECG和PCG信号的双向合成。其整体架构如图1所示。 ...

Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch

📄 Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch #音乐源分离 #信号处理 #鲁棒性 #数据增强 ✅ 7.5/10 | 前25% | #音乐源分离 | #信号处理 | #鲁棒性 #数据增强学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度高 👥 作者与机构第一作者：Kanami Imamura (东京大学，日本产业技术综合研究所(AIST)) 通讯作者：未说明作者列表：Kanami Imamura (东京大学，AIST)、Tomohiko Nakamura (AIST)、Kohei Yatabe (东京农工大学)、Hiroshi Saruwatari (东京大学) 💡 毒舌点评亮点：论文以一种非常“工程化”且易于复现的方式（仅在重采样核中添加高斯噪声）解决了DNN模型对采样率变化的敏感性问题，并验证了其在多个主流模型上的普适性，实用价值很高。短板：理论深度有限，对“为什么添加噪声就能恢复性能”的解释停留在“提供高频成分存在性”的层面，未能更深入地揭示DNN模型内部为何对这种统计特性（而非精确频谱内容）如此敏感。 🔗 开源详情代码：论文明确提供了噪声核重采样的代码仓库链接：https://github.com/kuielab/sdx23/。同时，基线模型（如BSRNN）的实现引用了另一个开源仓库：https://github.com/amanteur/BandSplitRNN-PyTorch。模型权重：未提及公开训练好的噪声核重采样网络权重。对于对比中使用的其他预训练模型（如MDX23C），论文未说明是否提供权重。数据集：实验使用了公开的MUSDB18-HQ数据集，论文中给出了数据集引用。 Demo：未提及。复现材料：论文详细描述了实验设置（数据集划分、重采样参数、网络结构、训练超参数等），并提供了参考代码链接，具备较好的复现基础。论文中引用的开源项目：TorchAudio（用于实现常规重采样）， BandSplitRNN-PyTorch（BSRNN实现）， Music-Source-Separation-Training（多个预训练模型）。 📌 核心摘要问题：基于DNN的音频源分离模型通常在单一采样频率下训练。当处理不同采样率的输入时，常用重采样到训练采样率的方法，但这会导致性能下降，尤其是当输入采样率低于训练采样率时。方法：作者提出两个假设：(i) 上采样导致的高频成分缺失是性能下降的原因；(ii) 高频成分的存在性比其具体频谱内容更重要。为此，他们提出并对比了三种替代重采样方法：后重采样噪声添加（直接在信号上加噪）、噪声核重采样（在插值核上加噪）、可训练核重采样（用DNN参数化插值核）。创新：与传统重采样方法相比，本工作系统性地分析了性能下降的原因，并提出了一种极其简单却有效的“噪声核重采样”方法。其核心创新在于发现并验证了为重采样信号补充与输入信号相关的高频成分（而非不相关的噪声）即可有效缓解性能下降。实验结果：在MUSDB18-HQ数据集上进行音乐源分离实验。基线模型BSRNN在8kHz输入（训练于44.1kHz）下，人声SDR从6.58dB降至3.47dB。使用噪声核重采样后，SDR恢复至6.05dB。在包括Conv-TasNet, BSRNN, Mel-RoFormer在内的多个模型上，噪声核重采样均能缓解常规重采样带来的性能下降（见表1）。可训练核重采样效果类似，而后重采样噪声添加则效果不佳甚至恶化。实际意义：提供了一种简单、通用且有效的工程解决方案，只需在现有重采样步骤的核函数中添加微小噪声，即可提升DNN音频模型对采样率变化的鲁棒性，便于实际部署。局限性：研究主要局限于音乐源分离任务，结论在语音增强等其他音频任务上的普适性有待验证。对于可训练核重采样，其训练增加了额外开销。论文未能从根本上提出一种与采样率无关的DNN架构。 🏗️ 模型架构本文并未提出一个新的分离模型架构，而是专注于研究重采样这一预处理/后处理步骤对现有分离模型性能的影响。其核心架构是DNN音频源分离的通用流水线（如图1(a)所示）： ...

DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration

📄 DISSR: Disentangling Speech Representation for Degradation-Prior Guided Cross-Domain Speech Restoration #语音增强 #扩散模型 #对比学习 #领域适应 #模型评估 ✅ 7.5/10 | 前25% | #语音增强 | #扩散模型 | #对比学习 #领域适应学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Ziqi Liang（蚂蚁集团，杭州）通讯作者：Jian Wang（蚂蚁集团，杭州，bobblair.wj@antgroup.com）作者列表：Ziqi Liang（蚂蚁集团），Zhijun Jia（蚂蚁集团），Chang Liu（中国科学技术大学，合肥），Minghui Yang（蚂蚁集团），Zhihong Lu（蚂蚁集团），Jian Wang（蚂蚁集团）。注：作者贡献标注为† Equal Contribution，故Ziqi Liang与Zhijun Jia贡献相当。 💡 毒舌点评亮点：论文直击现有语音修复模型跨说话人风格泛化能力差的痛点，并提出了一个新颖的假设——降质信息与说话人风格解耦，并据此设计了引导扩散模型的先验模块，思路清晰且具有启发性。短板：支撑“降质信息包含在说话人风格中”这一核心假设的实验（图3）略显间接，分类器收敛快慢并不能直接等同于“说话人风格”特征包含了全部且纯粹的“降质”信息，论证链不够坚实。 🔗 开源详情代码：论文中未提及代码仓库链接。模型权重：未提及。数据集：使用了公开数据集LibriTTS, VCTK, AISHELL-3, JSUT，但未提供本文特有的模拟退化脚本或处理流程。 Demo：提供了演示网站：https://itspsp.github.io/DisSR。复现材料：论文中未提供详细的训练配置、超参数设置或预训练检查点。论文中引用的开源项目：提到了使用VoiceFixer [8]和SelfRemaster [4]的开源流水线来创建训练数据。总结：论文中未提及完整的开源计划。 📌 核心摘要解决的问题：现有语音修复方法多为针对单一失真的特定模型，泛化能力差，尤其是面对训练时未见过的说话人风格（跨域）时性能下降明显。方法核心：提出DisSR模型，核心思想是将退化语音解纠缠为内容、说话人风格和降质表示。其中，降质表示被设计为说话人无关的先验信息，并用于条件引导一个基于扩散模型的恢复网络。同时，引入跨域对齐训练来最小化不同说话人分布间的差距。创新点：1) 提出并实验验证了降质信息主要存在于说话人风格表示中的假设；2) 利用说话人无关的降质先验引导扩散模型进行通用语音修复；3) 设计了针对降质编码器的跨域对齐训练策略以提升模型泛化能力。主要实验结果：在跨语言（英→中/日）跨说话人测试集上，DisSR在DNSMOS、PESQ-wb、MCD三项指标上均优于VoiceFixer、SelfRemaster和SGMSE+M基线模型（例如在LibriTTS→VCTK英文测试集上，PESQ-wb为3.02，相比最优基线SGMSE+M的2.74有显著提升）。在单任务修复（如带宽扩展、去噪）中，DisSR也展现出竞争力，总体感知质量（COVL）占优。消融实验表明，所提出的各组件（多层级降质先验、降质表示学习、跨域对齐损失）均对性能有贡献。实际意义：为构建能处理多种失真且对新说话人鲁棒的通用语音修复系统提供了一种新思路，具有较强的实用价值。主要局限性：核心假设的直接验证稍显薄弱；实验中假设“每条语音内降质相同，语音间变化”，这与真实世界复杂场景可能存在差距；未公开代码与模型，限制了可复现性。 🏗️ 模型架构 DisSR的整体架构如图2所示，主要分为两个协同工作的模块：说话人无关的降质解纠缠模块和跨域语音恢复模块。 ...

Distilling Attention Knowledge for Speaker Verification

📄 Distilling Attention Knowledge for Speaker Verification #说话人验证 #知识蒸馏 #注意力机制 #语音预训练模型 🔥 8.0/10 | 前25% | #说话人验证 | #知识蒸馏 | #注意力机制 #语音预训练模型学术质量 7.5/7 | 选题价值 1.5/2 | 复现加成 -1.0 | 置信度高 👥 作者与机构第一作者： Zezhong Jin（香港理工大学）通讯作者：未明确说明（从作者列表和单位推断，可能为Man-Wai Mak或Kong Aik Lee，但论文未明确标注）作者列表： Zezhong Jin¹, Shujie Liu², Zhe Li³, Chong-Xin Gan¹, Zilong Huang¹, Man-Wai Mak¹, Kong Aik Lee¹ 香港理工大学 (The Hong Kong Polytechnic University) 微软亚洲研究院 (Microsoft Research Asia) 香港大学 (The University of Hong Kong) 💡 毒舌点评亮点：论文巧妙地将主流ASV模型（ECAPA-TDNN）中已有的SE模块和注意力池化层作为“注意力图”的来源，无需额外设计复杂的注意力机制，这种“就地取材”的工程思维很聪明，也让方法更具通用性和可移植性。短板：开源信息严重缺失，对于一篇强调“方法有效性”和“复现价值”的会议论文而言，没有代码和模型权重几乎是“反向操作”，极大削弱了其对社区的实际贡献度。 ...