音频修复 | 语音/音乐/音频论文速递

Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking

📄 Listening Through the Noise: Cauchy-Driven Diffusion Bridges for Robust Gastrointestinal Auscultation and Clinical Benchmarking #音频修复 #语音增强 #扩散模型 #音频事件检测 7.4/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1/1.5 | 清晰 0.8/1 | 影响 1.2/1.5 | 开源 0.2/1.5 | 复现 0.4/0.5 | 工程 1.1/1.5 ✅ 7.4/10 | 前50% | #音频修复 | #扩散模型 | #语音增强 #音频事件检测 | arxiv 👥 作者与机构第一作者：Dian Ding（上海交通大学计算机科学与工程系）通讯作者：Yu Lu（上海交通大学计算机科学与工程系，yulu01@sjtu.edu.cn）作者列表：Dian Ding（上海交通大学）、Liren Dong（陕西师范大学人工智能与计算机科学学院）、Yu Lu（上海交通大学）、Juntao Zhou（上海交通大学）、Ran Wang（上海交通大学）、Peng Li（陕西师范大学）、Zhenyi Jia（上海交通大学医学院附属第六人民医院普外科）、Guangtao Xue（上海交通大学） 💡 毒舌点评本文在扩散桥框架内引入 Cauchy 噪声假设，对临床肠鸣音去噪具有扎实的理论动机——但“语音干扰呈重尾分布”这一核心动机仅通过 Fig.2 的目视对比来论证，并未给出正式的统计拟合优度检验，有“看图说话”之嫌。CLINBS 数据集填补了病理肠鸣音空白值得肯定，然而论文未提供任何代码、模型权重或数据集获取方式，严重削弱了可复现性与实际影响力。此外，所有评估均在人工加性混合的语音干扰下进行，即使在附录 C.4 补充了真实病房噪声实验，该实验仍采用加性混合模型（将无肠鸣音的背景录音与纯净肠鸣音线性混合），未涉及真实含噪临床录音的直接去噪，临床适用性仍有待证明。 ...

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering #音频修复 #流匹配 #多模态模型 #指令微调 8/10 | 创新 1.5/2 | 严谨 1.2/1.5 | 实验 1.2/1.5 | 清晰 0.9/1 | 影响 1/1.5 | 开源 1/1.5 | 复现 0.4/0.5 | 工程 0.8/1.5 🔥 8/10 | 前25% | #音频修复 | #流匹配 | #多模态模型 #指令微调 | arxiv 👥 作者与机构第一作者：Jan Melechovsky （Singapore University of Technology and Design）通讯作者：Jan Melechovsky （Singapore University of Technology and Design）作者列表：Jan Melechovsky（Singapore University of Technology and Design）、Ambuj Mehrish（Ca’ Foscari University of Venice）、Abhinaba Roy（Singapore University of Technology and Design）、Dorien Herremans（Singapore University of Technology and Design） 💡 毒舌点评 SonicMaster在"All-in-One"音乐修复上的尝试是勇敢且及时的，用一套流匹配框架统一了19种退化类型的处理，避免了以往的级联错误。但数据生成高度依赖模拟退化，而真实世界录音的退化远比参数化函数复杂和混沌得多，模型对真实复杂混合退化的泛化能力仍是未知数。VAE潜在空间的引入确实提升了效率，但也带来了可闻的编解码伪影——论文自己都承认会出现“机器人嗓音”和清晰度损失，这在一个标榜“专业级”的母带处理场景下显得不够“clean”。与效应移除模型的对比更像是一场不公平的“表演赛”，高得惊人的SI-SDR背后，很可能只是模型学会了把音频“母带化”得更响、更亮，而非真正忠实地修复了信号。 ...

A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models

📄 A Survey of Advancing Audio Super-Resolution and Bandwidth Extension from Discriminative to Generative Models #音频修复 #综述 #扩散模型 #流匹配 🔥 8.1/10 | 前25% | #音频修复 | #综述 | #扩散模型 #流匹配 | arxiv 学术质量 6.7/8 | 影响力 0.8/1 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Ningyuan Yang (Stony Brook University) 通讯作者：根据邮箱推断，可能为 Andrew C. Singer (Stony Brook University) 作者列表：Ningyuan Yang (Stony Brook University)、Yize Li (Northeastern University)、Diego A. Cuji (Stony Brook University)、Ryan M. Corey (University of Illinois Chicago & Discovery Partners Institute)、Pu Zhao (Northeastern University)、Xue Lin (Northeastern University)、Andrew C. Singer (Stony Brook University) （注：原文作者列表下所有脚注标记为“Equal contribution”，表示所有作者贡献均等，机构如上所列。） 💡 毒舌点评这篇综述的核心价值在于，它构建了一个清晰、系统的框架，用以理解音频超分辨率（SR）与带宽扩展（BWE）领域从判别式模型到生成式模型的完整演进图谱。其贡献并非提出新算法，而是首次明确、统一地阐述了这一“范式转变”，并为不同的生成式方法（GAN、扩散、流、桥）在BWE/SR任务中的权衡提供了极具洞察力的分析。这为领域内研究者提供了宝贵的“路线图”。然而，作为一篇旨在指导未来方向的综述，其最大的遗憾在于完全依赖定性讨论和文献引用，缺乏对关键方法的统一基准或系统性定量指标汇总。因此，文中关于“何种范式在何种场景下更优”的结论，更多源于作者的学识与判断，而非可直接复现的、控制变量的实验证据，这在一定程度上削弱了其结论的普适性和说服力。 ...

Real-time Speech Restoration using Data Prediction Mean Flows

📄 Real-time Speech Restoration using Data Prediction Mean Flows #音频修复 #流匹配 #实时处理 #高效推理 #均值流 #数据预测 ✅ 7.5/10 | 前25% | #音频修复 | #流匹配 | #实时处理 #高效推理 | arxiv 学术质量 6.3/8 | 影响力 0.7/1 | 可复现性 0.5/1 | 置信度高 👥 作者与机构第一作者：Sebastian Braun（论文未说明其所属机构）通讯作者：论文中未明确标注通讯作者作者列表：Sebastian Braun（论文中仅列出此一位作者，未说明其机构） 💡 毒舌点评这篇论文定位明确，直击实时生成式语音修复中“高质量”与“低延迟、低算力”的矛盾，并通过组合技术（DP-IMF）和精心设计的新架构（RMFSR）给出了一个工程上极具吸引力的解决方案（120倍算力节省）。然而，其主观测试结果（Overall MOS 2.91）与自称“接近”的非因果上界（3.20）存在统计显著性未明的差距，且WER随NFE上升暴露了生成幻觉的风险；加之关键训练细节的缺失，使得这篇面向实用的工作在复现和全面评估上打了折扣。 📌 核心摘要本文旨在解决生成式语音修复模型（如扩散/流匹配）因计算量大、延迟高而无法实时部署的问题。核心方法是提出一个结合数据预测（DP）损失与改进均值流（IMF）训练的流匹配框架，并设计了一个新型低延迟卷积U-net架构（RMFSR）。相比已有工作，其主要贡献在于：1）首次将DP-IMF组合应用于音频流匹配，通过直接预测干净数据并训练大步长，减少推理步数；2）提出了针对性的训练调度（r=t比例与r-t跨度）以及流匹配分布设计（logit-normal时间采样、粉红噪声先验）；3）设计了RMFSR架构，通过因果卷积、TCN瓶颈等，在将MACs/s降低120倍（从142.78G降至1.22G）的同时，仅引入STFT窗长（20ms）的算法延迟。实验在SIG2024测试集上表明，RMFSR-DP-IMF模型在多步推理（NFE>1）下，客观指标接近强大的非因果基线，主观整体MOS（2.91）相比未处理信号（2.72）有显著提升，但仍低于非因果基线（3.20）。该工作为资源受限的实时音频应用（如通信、助听器）提供了一种高效的解决方案，但其一步推理质量不佳，且与SOTA在主观感知上仍有可察觉的差距。 🔗 开源详情代码：论文中提供了代码仓库链接：https://github.com/sebraun-msr/realtimemeanflowspeechrestoration 模型权重：论文中未提及是否开源模型权重。数据集：训练数据使用了 EARS 数据集 (项目页面: https://github.com/facebookresearch/EARS)、DNS Challenge 背景噪声 (项目页面: https://github.com/microsoft/DNS-Challenge) 和 DAPS 数据集 (获取方式: https://zenodo.org/record/2594445)。测试评估使用了 Signal Improvement Challenge 2024 (SIG2024) 测试集 (相关挑战页面: https://github.com/microsoft/Signal-Improvement-2024)。 Demo：论文中提供了音频示例页面：https://sebraun-msr.github.io/realtimemeanflowspeechrestoration/ 复现材料：论文中未提及训练配置、检查点等复现材料的具体链接或获取方式。论文中引用的开源项目： Whisper (用于WER评估): https://github.com/openai/whisper DNS Challenge 工具包 (用于生成数据): https://github.com/microsoft/DNS-Challenge EARS 数据集: https://github.com/facebookresearch/EARS DAPS 数据集: https://zenodo.org/record/2594445 Signal Improvement Challenge 2024 (SIG2024): https://github.com/microsoft/Signal-Improvement-2024 🏗️ 方法概述和架构整体流程概述本文提出一个端到端的语音修复系统。输入为带失真的语音信号，首先通过短时傅里叶变换（STFT）并进行幅度压缩（系数c=0.3），得到复数压缩谱域表示X^c。该表示y与当前带噪状态xt拼接作为条件，输入到一个基于流匹配的生成模型（RMFSR）中。该模型通过迭代求解普通微分方程（ODE），从带噪的先验分布p_init逐步恢复出干净的语音谱表示x0。最终，对输出谱进行逆操作（解压缩、逆STFT），得到修复后的时域语音信号。整个流程的核心是训练一个能够高效、少步数地执行这一生成过程的神经网络。 ...

A Cold Diffusion Approach for Percussive Dereverberation

📄 A Cold Diffusion Approach for Percussive Dereverberation #音频修复 #扩散模型 #音频增强 #打击乐 ✅ 6.2/10 | 前35% | #音频修复 | #扩散模型 | #音频增强 #打击乐 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Dimos Makris（未说明机构）通讯作者：未说明作者列表：Dimos Makris（未说明机构），András Barják（未说明机构），Maximos Kaliakatsos-Papakostas（未说明机构） 💡 毒舌点评本文首次将冷扩散框架应用于打击乐去混响这一垂直但重要的任务，并贴心地设计了一套瞬态感知的评估指标，填补了领域空白，实验显示其性能显著优于将语音模型生搬硬套的基线。然而，文中声称的“首次”虽未提供系统文献综述，但属于常见的声明方式。核心问题在于对比实验的公平性：最佳模型（UNet Δ-norm）仅用16步迭代就“吊打”了用30步和50步的基线。这种推理步数不匹配的对比，使得关于效率和性能的结论需要更多实验（如步数匹配对比、计算成本分析）来支撑。 📌 核心摘要问题：现有音频去混响研究几乎都针对语音，而打击乐（鼓组）由于其快速瞬态和密集时域结构，其去混响面临独特挑战，且缺乏专门的学习型解决方案。方法核心：提出一个冷扩散框架，将混响建模为一个确定性退化过程（将干声与湿声按特定时间表混合），并学习其逆过程。研究了两种反向过程参数化：直接预测下一状态（Direct）和预测归一化残差（Δ-normalized，速度风格），并分别用UNet和扩散Transformer（DiT）实现。新意：首次尝试将学习型方案（冷扩散）应用于打击乐的盲去混响任务；通过确定性退化过程和迭代恢复来避免传统扩散模型的随机性；专门设计了一套针对打击乐的客观评估指标（如瞬态-尾部能量比TTER，起始点F值提升ONFi）。实验结果：在内部测试集和完全外部的测试集上，所提方法（尤其是Cold UNet Δ-norm）在信号和感知指标上均显著优于强基线SGMSE+和CDiffuSE。例如，在外部测试集上，Cold UNet Δ-norm达到7.52 dB的SI-SDRi，而SGMSE+仅为2.01 dB，CDiffuSE接近0 dB。关键数据见下表。表1：内部测试集核心指标对比模型 mSTFTmag↓ ESR↓ SI-SDRi↑ ENV↑ TTER↓ SGMSE+ 0.12 1.35 4.06 0.62 5.90 CDiffuSE 0.12 1.37 2.77 0.59 6.03 Cold UNet Δ-norm 0.08 0.79 11.09 0.92 2.07 实际意义：为音乐制作中收紧鼓组混音、适应不同声学环境提供了新的自动化工具，潜力在于扩展到处理更复杂的人工混响效果。局限性：数据集构建依赖手动筛选干声，规模（~38小时）和多样性受限；实验基线仅限两个源自语音的扩散模型，缺乏传统信号处理或其他音乐增强基线的对比；对生产环境中的复杂人工混响（非物理房间混响）的处理能力未验证。 🔗 开源详情代码：https://github.com/dimakr169/drums_dereverb 模型权重：论文中未提及单独的模型权重下载链接（如HuggingFace/ModelScope）。代码仓库可能包含训练好的模型，但论文未明确说明。数据集： MUSDB18-HQ：论文使用其鼓轨。论文未提供直接链接，但这是一个公开的音乐源分离数据集，可从其官方主页（https://sigsep.github.io/datasets/musdb.html）获取。 Groove MIDI Dataset (GMD)：论文使用其渲染的电子鼓表演。论文未提供直接链接，可从其官方发布页面（https://magenta.tensorflow.org/datasets/groove）获取。作者整理的数据集：由上述数据集的干声片段与合成/真实RIR卷积生成，共约38小时。论文指出该数据集“available upon request”（可申请获取）。 OpenAIR 数据库：用于获取真实的房间脉冲响应（RIRs）。论文未提供直接链接，但这是一个公开的RIR数据库，网址为 https://www.openairlib.net/。 Demo：论文中未提及在线演示链接（Demo）。仅说明音频示例可在代码仓库中找到。复现材料：论文详细提供了训练配置信息（包括优化器Adam、学习率10^{-4}、EMA衰减0.995、训练/验证/测试集划分80%/10%/10%、STFT参数等）。但未提及是否提供预训练模型检查点、完整的训练脚本或详细的复现指南。这些可能包含在代码仓库中。论文中引用的开源项目： audiomentations：用于数据增强。链接：https://github.com/iver56/audiomentations pyroomacoustics：用于合成人工RIRs。链接：https://github.com/LCAV/pyroomacoustics librosa：用于在评估指标中检测音符起始点（onsets）。链接：https://librosa.org/ ACE Challenge Workshop 数据：用于域外评估的测试集RIRs。链接：https://zenodo.org/records/6257551 MoisesDB：用于构建域外测试集。论文未提供直接链接，但这是一个公开的音乐源分离数据集，网址为 https://moises.ai/developer/。 Waves Clarity VX Dereverb：作为商业插件被提及作为对比，非开源项目。链接：https://www.waves.com/plugins/clarity-vx-dereverb 🏗️ 方法概述和架构本系统是一个端到端的音频增强框架，旨在将立体声鼓组的混响信号（湿声）恢复为无混响信号（干声）。其核心流程为：输入的混响音频被转换为复数谱图表示，然后通过一个学习到的反向冷扩散过程进行迭代去混响，最终输出恢复的干音频谱图，并逆变换回时域波形。 ...

Stage-adaptive audio diffusion modeling

📄 Stage-adaptive audio diffusion modeling #音频生成 #音频修复 #扩散模型 #自监督学习 #自适应采样 ✅ 7.0/10 | 前25% | #音频生成 | #扩散模型 | #音频修复 #自监督学习 | arxiv 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Xuanhao Zhang (中国药科大学，邮箱：2020230870@stu.cpu.edu.cn) 通讯作者：Chang Li (中国科学技术大学，邮箱：lc_lca@mail.ustc.edu.cn) 作者列表：Xuanhao Zhang（中国药科大学）、Chang Li（中国科学技术大学） 💡 毒舌点评亮点：论文抓住了音频扩散模型训练过程中的核心动态矛盾——“语义获取”与“生成精炼”的阶段差异，并提出了一个统一的“进度变量”监控指标来驱动三个自适应机制，理论上是一个完整且优雅的解决方案。短板：实验部分存在明显的设计缺陷，三个机制（衰减SSL引导、自适应时间步采样、结构正则化）都只在“均匀基线”上单独评估，缺乏“三者结合”的完整方案验证，也缺少与近期高效训练方法（如动态权重调整、重要性采样）的直接对比，说服力打了折扣。此外，与外部SOTA的对比弱于框架内的自身对比，更凸显了该工作的定位是“训练效率改进”而非“性能颠覆”。 📌 核心摘要要解决什么问题：解决当前音频扩散模型训练依赖静态优化配方、计算成本高昂的问题。论文指出，训练早期应侧重语义对齐与粗略组织，后期应侧重时域一致性、感知保真度与细节精炼，静态配方无法适应这种动态变化。方法核心是什么：提出一种阶段自适应训练视角。核心是引入一个基于冻结自监督学习（SSL）编码器的差异斜率信号（g_k）作为“进度变量”，监控语义获取速度。基于此变量，设计并集成三个自适应机制：衰减的SSL引导、由进度变量驱动的自适应时间步采样、以及基于参数空间分组组织的结构感知正则化。与已有方法相比新在哪里：1) 首次在音频扩散模型训练中提出一个统一的、基于SSL空间动态的“进度变量”来量化训练阶段；2) 将外部语义支持、内部结构约束和优化重点分配这三个通常独立考虑的因素，整合到同一个自适应控制框架下；3) 结构感知正则化不是预设的，而是基于观察到的训练中后期才出现的稳定分组结构“按需激活”。主要实验结果如何：在文本到音频生成和音频超分辨率两个任务上，所提机制在各自单独加入时，均在关键指标上优于静态基线。例如，在文本到音频生成任务中，自适应时间步采样将FAD（越低越好）从基线的2.36降至1.91；在24kHz到48kHz超分辨率任务中，衰减SSL引导将LSD（越低越好）从基线的0.831降至0.760。实际意义是什么：为高效训练音频扩散模型提供了一个新的、基于阶段动态的理论视角和实践框架。它表明，通过让训练配方与模型内部状态协同演化，可以在不增加模型容量或数据规模的前提下提升训练效率和最终质量。主要局限性是什么：1) 核心局限在于三个自适应机制仅单独评估，未验证其组合后的协同效应或潜在冲突；2) 实验对比更侧重于验证自身机制相对于静态基线的提升，与近期其他高效扩散训练方法的对比不足；3) “结构感知正则化”中引用的“参考模式S_ref”的具体获取方式（如使用哪个数据集训练的哪个模型、在哪个训练阶段截取）未明确说明，影响复现和理解其普适性。 🔗 开源详情代码：论文中未提及代码链接。论文所有实验均基于 stable-audio-tools 框架进行，但未提供本文方法的具体实现代码。模型权重：论文中未提及。数据集： AudioSet: 用于文本到音频生成任务的训练。需要向 Google Research 申请访问权限：https://research.google.com/audioset/ FreeSound: 用于文本到音频生成任务的训练。公开数据集：https://freesound.org/ AudioCaps: 用于文本到音频生成任务的评估。公开数据集：http://www.cs.toronto.edu/~kmn428/AudioCaps/ VCTK: 用于音频超分辨率任务的训练与评估。公开数据集，可从官方渠道获取，常见来源如：https://datashare.ed.ac.uk/handle/10283/3443 Demo：论文中未提及。复现材料：论文中未提及。论文未提供训练脚本、配置文件、预训练检查点等额外复现材料。论文中引用的开源项目： stable-audio-tools: 论文所有实验基于此框架实现。官方仓库：https://github.com/Stability-AI/stable-audio-tools USAD: 作为冻结的自监督音频编码器用于提取SSL特征。官方仓库：https://github.com/facebookresearch/audiocraft (注：USAD是AudioCraft库中的一部分，论文引用了Chang et al. (2025)) Make-An-Audio: 作为基线模型之一。官方仓库：https://github.com/lifeaudioml/Make-An-Audio AudioLDM 2: 作为基线模型之一。官方仓库：https://github.com/haoheliu/audioldm2 Tango 2: 作为基线模型之一。官方仓库：https://github.com/declare-lab/tango AudioSR: 作为基线模型之一。官方仓库：https://github.com/haoheliu/AudioSR NVSR: 作为基线模型之一。论文引用了Liu et al. (2022)，通常指NVIDIA的超分辨率工作。 🏗️ 模型架构论文并未提出一个新的网络架构，而是提出了一套可附加到现有扩散Transformer（DiT）架构上的训练自适应机制。整体流程如下： ...

Token-Based Audio Inpainting via Discrete Diffusion

📄 Token-Based Audio Inpainting via Discrete Diffusion #音频生成 #扩散模型 #音乐生成 #离散表示 #音频修复 ✅ 7.5/10 | 前25% | #音频生成 | #扩散模型 | #音乐生成 #离散表示学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度高 👥 作者与机构第一作者：Tali Dror, Iftach Shoham (论文中为共同第一作者) 通讯作者：未说明作者列表：Tali Dror (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Iftach Shoham (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Moshe Buchris (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Oren Gal (University of Haifa), Haim H. Permuter (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering), Gilad Katz (Ben-Gurion University of the Negev, Faculty of Computer and Information Science, Data Science Research Center), Eliya Nachmani (Ben-Gurion University of the Negev, School of Electrical and Computer Engineering) 💡 毒舌点评本文开创性地将离散扩散模型应用于音频修复，将问题转化为token序列补全，并通过精心设计的span masking和导数损失来模拟音频的连续性，实验结果在长空缺修复上显著超越传统方法，这无疑是其最大的亮点。然而，其性能天花板几乎被WavTokenizer这个“黑盒”tokenizer完全锁死，且训练时的“先tokenize再mask”与推理时的“先mask再tokenize”的不匹配可能引入难以量化的误差，这是两个明显的理论与实践短板。 ...