音频增强 | 语音/音频论文速递

Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations

📄 Robust Soft-Constrained Spatially Selective Active Noise Control for Hearables Under Secondary Path Variations #音频增强 #主动噪声控制 #麦克风阵列 #鲁棒性 #信号处理 📝 5.7/10 | 前25% | #音频增强 | #信号处理 | #主动噪声控制 #麦克风阵列 | arxiv 学术质量 4.8/8 | 影响力 0.5/1 | 可复现性 0.4/1 | 置信度高 👥 作者与机构第一作者：Tong Xiao（Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics; Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）通讯作者：Simon Doclo（Carl von Ossietzky Universit¨at Oldenburg, Department of Medical Physics and Acoustics）作者列表：Tong Xiao（同上）、Reinhild Roden（Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）、Matthias Blau（Jade-Hochschule, Institut f¨ur H¨ortechnik und Audiologie）、Simon Doclo（同上） 💡 毒舌点评本文针对助听器空间选择性主动噪声控制（SSANC）中的次级路径变化问题，提出了一个基于“最小化平均代价”的鲁棒优化框架。动机非常实际，工程实现路径清晰，并通过实时实验验证了仿真结果，这在音频处理领域是值得肯定的。然而，核心方法（公式16）在理论上并无新意，本质上是将经典鲁棒优化中的“平均化”策略应用于特定公式（公式12），创新性有限。实验设计的主要缺陷在于，评估仅限于与理想“匹配”上限和不鲁棒“失配”情况的对比，完全未与其他已知的鲁棒控制方法（如H∞优化或在线自适应估计）进行比较，这严重削弱了对其方法优越性的论证。此外，论文声称该框架提供“实用的设计策略”，但其离线、固定的特性以及对预设路径变化集的依赖，在高度动态的现实场景中的适用性存疑。 ...

A Cold Diffusion Approach for Percussive Dereverberation

📄 A Cold Diffusion Approach for Percussive Dereverberation #音频修复 #扩散模型 #音频增强 #打击乐 ✅ 6.2/10 | 前35% | #音频修复 | #扩散模型 | #音频增强 #打击乐 | arxiv 学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度高 👥 作者与机构第一作者：Dimos Makris（未说明机构）通讯作者：未说明作者列表：Dimos Makris（未说明机构），András Barják（未说明机构），Maximos Kaliakatsos-Papakostas（未说明机构） 💡 毒舌点评本文首次将冷扩散框架应用于打击乐去混响这一垂直但重要的任务，并贴心地设计了一套瞬态感知的评估指标，填补了领域空白，实验显示其性能显著优于将语音模型生搬硬套的基线。然而，文中声称的“首次”虽未提供系统文献综述，但属于常见的声明方式。核心问题在于对比实验的公平性：最佳模型（UNet Δ-norm）仅用16步迭代就“吊打”了用30步和50步的基线。这种推理步数不匹配的对比，使得关于效率和性能的结论需要更多实验（如步数匹配对比、计算成本分析）来支撑。 📌 核心摘要问题：现有音频去混响研究几乎都针对语音，而打击乐（鼓组）由于其快速瞬态和密集时域结构，其去混响面临独特挑战，且缺乏专门的学习型解决方案。方法核心：提出一个冷扩散框架，将混响建模为一个确定性退化过程（将干声与湿声按特定时间表混合），并学习其逆过程。研究了两种反向过程参数化：直接预测下一状态（Direct）和预测归一化残差（Δ-normalized，速度风格），并分别用UNet和扩散Transformer（DiT）实现。新意：首次尝试将学习型方案（冷扩散）应用于打击乐的盲去混响任务；通过确定性退化过程和迭代恢复来避免传统扩散模型的随机性；专门设计了一套针对打击乐的客观评估指标（如瞬态-尾部能量比TTER，起始点F值提升ONFi）。实验结果：在内部测试集和完全外部的测试集上，所提方法（尤其是Cold UNet Δ-norm）在信号和感知指标上均显著优于强基线SGMSE+和CDiffuSE。例如，在外部测试集上，Cold UNet Δ-norm达到7.52 dB的SI-SDRi，而SGMSE+仅为2.01 dB，CDiffuSE接近0 dB。关键数据见下表。表1：内部测试集核心指标对比模型 mSTFTmag↓ ESR↓ SI-SDRi↑ ENV↑ TTER↓ SGMSE+ 0.12 1.35 4.06 0.62 5.90 CDiffuSE 0.12 1.37 2.77 0.59 6.03 Cold UNet Δ-norm 0.08 0.79 11.09 0.92 2.07 实际意义：为音乐制作中收紧鼓组混音、适应不同声学环境提供了新的自动化工具，潜力在于扩展到处理更复杂的人工混响效果。局限性：数据集构建依赖手动筛选干声，规模（~38小时）和多样性受限；实验基线仅限两个源自语音的扩散模型，缺乏传统信号处理或其他音乐增强基线的对比；对生产环境中的复杂人工混响（非物理房间混响）的处理能力未验证。 🔗 开源详情代码：https://github.com/dimakr169/drums_dereverb 模型权重：论文中未提及单独的模型权重下载链接（如HuggingFace/ModelScope）。代码仓库可能包含训练好的模型，但论文未明确说明。数据集： MUSDB18-HQ：论文使用其鼓轨。论文未提供直接链接，但这是一个公开的音乐源分离数据集，可从其官方主页（https://sigsep.github.io/datasets/musdb.html）获取。 Groove MIDI Dataset (GMD)：论文使用其渲染的电子鼓表演。论文未提供直接链接，可从其官方发布页面（https://magenta.tensorflow.org/datasets/groove）获取。作者整理的数据集：由上述数据集的干声片段与合成/真实RIR卷积生成，共约38小时。论文指出该数据集“available upon request”（可申请获取）。 OpenAIR 数据库：用于获取真实的房间脉冲响应（RIRs）。论文未提供直接链接，但这是一个公开的RIR数据库，网址为 https://www.openairlib.net/。 Demo：论文中未提及在线演示链接（Demo）。仅说明音频示例可在代码仓库中找到。复现材料：论文详细提供了训练配置信息（包括优化器Adam、学习率10^{-4}、EMA衰减0.995、训练/验证/测试集划分80%/10%/10%、STFT参数等）。但未提及是否提供预训练模型检查点、完整的训练脚本或详细的复现指南。这些可能包含在代码仓库中。论文中引用的开源项目： audiomentations：用于数据增强。链接：https://github.com/iver56/audiomentations pyroomacoustics：用于合成人工RIRs。链接：https://github.com/LCAV/pyroomacoustics librosa：用于在评估指标中检测音符起始点（onsets）。链接：https://librosa.org/ ACE Challenge Workshop 数据：用于域外评估的测试集RIRs。链接：https://zenodo.org/records/6257551 MoisesDB：用于构建域外测试集。论文未提供直接链接，但这是一个公开的音乐源分离数据集，网址为 https://moises.ai/developer/。 Waves Clarity VX Dereverb：作为商业插件被提及作为对比，非开源项目。链接：https://www.waves.com/plugins/clarity-vx-dereverb 🏗️ 方法概述和架构本系统是一个端到端的音频增强框架，旨在将立体声鼓组的混响信号（湿声）恢复为无混响信号（干声）。其核心流程为：输入的混响音频被转换为复数谱图表示，然后通过一个学习到的反向冷扩散过程进行迭代去混响，最终输出恢复的干音频谱图，并逆变换回时域波形。 ...

NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction

📄 NDF+: Joint Neural Directional Filtering and Diffuse Sound Extraction #空间音频 #神经网络 #波束成形 #多任务学习 #音频增强 ✅ 6.5/10 | 前30% | #空间音频 | #神经网络 | #波束成形 #多任务学习 | arxiv 学术质量 5.0/7 | 选题价值 1.5/2 | 复现加成 0.0 | 置信度高 👥 作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 💡 毒舌点评这篇论文工整地做了一道“拆分重组”的数学题：把估计A，拆成估��A的一部分和另一部分，再加起来。思路清晰，工程上也有其价值——特别是那个能调β的漫射声控制，对于需要精细调节“干湿比”的录音师来说，可能是个不错的玩具。然而，整套验证全在自家后院（合成数据）里完成，没敢拉到真实世界的泥潭里打滚，这让“性能媲美NDF”和“优于传统基线”的结论，听起来有点像在真空环境下的胜利。创新性扎实但有限，像给一辆好车加了个炫酷的控制旋钮，而非发明了新引擎。对于追求原理性突破的读者，可能会觉得不够过瘾；但对于寻求实用工具的工程师，或许值得一瞄。 📌 核心摘要本文提出了NDF+，一个用于在紧凑麦克风阵列上联合实现定向滤波与漫射声提取的神经网络框架。其核心创新是将传统NDF的单一目标（虚拟定向传声器信号估计）重新表述为两个耦合子任务：去混响VDM重建（相干声估计）与漫射声提取。通过端到端联合训练双掩模网络，NDF+能在保持最终VDM重建质量与原始NDF相当的同时，提供对输出信号中漫射声成分的显式、连续控制。在合成数据上的系统实验表明，NDF+在子任务性能上显著优于级联基线，其可控性在立体声录音应用中得到了验证。 🔗 开源详情代码：论文中未提及代码链接。模型权重：论文中未提及。数据集：训练集和验证集使用了 LibriSpeech 数据库（子集：train-clean-360 和 dev-clean）。获取链接：https://www.openslr.org/12/。测试集使用了 EARS 数据集。获取链接：https://github.com/facebookresearch/ears （根据论文引用[richter2024ears]推断）。 Demo：论文中未提及。复现材料：论文中未提及训练配置、检查点等具体复现材料。论文中引用的开源项目：论文中引用的基线方法或工具如下，但论文中未提供其具体开源链接： FT-JNF (框架)：引用 [FT-JNF]。 RIRGenerator (房间脉冲响应生成器)：引用 [RIRGenerator]。 AWPE (加权预测误差去混响算法)：引用 [4960438]。 DRSwWPE (一种实时去混响算法)：引用 [huang2024practical]。 Diffuse BF (漫射声波束成形器)：引用 [diffuse_beamformer]。 Dynamic Acoustic Scene Generator (动态声景生成器)：引用 [DASGenerator]。 Monte Carlo RIR (蒙特卡洛房间脉冲响应模拟)：引用 [MonteCarloRIR]。作者与机构未提及。论文仅在致谢部分感谢了FAU的HPC资源和DFG资助。 ...

ICASSP 2026 - 音频增强论文列表

ICASSP 2026 - 音频增强共 3 篇论文 ← 返回 ICASSP 2026 总览排名论文评分分档 🥇 MixGAN-based Non-blind Bandwidth Extension for Audio Codec 8.0分前25% 🥈 SAGA-SR: Semantically and Acoustically Guided Audio Super-Re 7.5分前25% 🥉 Subspace Hybrid Adaptive Filtering for Phonocardiogram Signa 7.0分前50% 📋 论文详情 🥇 MixGAN-based Non-blind Bandwidth Extension for Audio Codec 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲 👥 作者与机构第一作者：Hao Guo（华为中央媒体技术研究院，清华大学深圳国际研究生院）通讯作者：Wenbo Ding（清华大学深圳国际研究生院，邮箱：ding.wenbo@sz.tsinghua.edu.cn）作者列表：Hao Guo（华为中央媒体技术研究院，清华大学深圳国际研究生院）、BingYin Xia（华为中央媒体技术研究院）、Xiao-Ping Zhang（清华大学深圳国际研究生院）、Wenbo Ding（清华大学深圳国际研究生院） 💡 毒舌点评 ...

MixGAN-based Non-blind Bandwidth Extension for Audio Codec

📄 MixGAN-based Non-blind Bandwidth Extension for Audio Codec #音频增强 #生成对抗网络 #音频编解码器 #非盲 #实时处理 🔥 8.0/10 | 前25% | #音频增强 | #生成对抗网络 | #音频编解码器 #非盲学术质量 6.5/7 | 选题价值 1.8/2 | 复现加成 -0.5 | 置信度高 👥 作者与机构第一作者：Hao Guo（华为中央媒体技术研究院，清华大学深圳国际研究生院）通讯作者：Wenbo Ding（清华大学深圳国际研究生院，邮箱：ding.wenbo@sz.tsinghua.edu.cn）作者列表：Hao Guo（华为中央媒体技术研究院，清华大学深圳国际研究生院）、BingYin Xia（华为中央媒体技术研究院）、Xiao-Ping Zhang（清华大学深圳国际研究生院）、Wenbo Ding（清华大学深圳国际研究生院） 💡 毒舌点评本文首次将非盲AI带宽扩展（BWE）方案系统性地落地到音频编解码器框架中，并通过MixGAN创新性地解决了GAN训练在频谱扩展任务上易崩溃的难题，工程导向明确且效果显著。然而，论文对核心侧信息模型（side model）的“AI-based”部分描述过于简略（仅提到5个ConvM和1个MLP），且训练数据集描述模糊（“130小时以中文歌曲为主”），这给工作通用性的评估和完整复现埋下了隐患。 🔗 开源详情代码：论文中未提及代码链接。模型权重：未提及。数据集：未提及公开数据集或获取方式。 Demo：未提及。复现材料：论文提供了详细的模型结构、训练策略（三阶段）、关键超参数（学习率、Batch size等）和训练硬件信息，但缺乏最终的训练细节和配置文件。论文中引用的开源项目：论文引用了以下开源项目作为对比或依赖： HiFi-GAN+ 的复现代码：https://github.com/brentspell/hifi-gan-bwe NU-Wave2 的官方实现：https://github.com/maum-ai/nuwave2 总体开源情况：论文本身未提及任何开源计划，但对复现有一定的指导意义。 📌 核心摘要问题：现有的AI带宽扩展（BWE）方法很少考虑集成到实际音频编解码器时面临的约束，如比特流兼容性、处理延迟和解码失真。方法：本文提出了首个面向音频编解码器的非盲AI-BWE框架。该框架在编码端提取少量比特的侧信息（包括频带包络和侧特征），在解码端以低延迟帧处理方式（2048样本，43ms）利用该信息引导从低频重建高频。核心创新是提出了MixGAN框架（通过线性插值混合真实与生成帧来训练判别器）和三阶段训练策略（单帧预热、单帧对抗、重叠优化）。创新点：1) 首个解决编解码器实际约束的非盲AI-BWE方案；2) MixGAN稳定了对抗训练，提升了重建保真度；3) 模型对量化失真具有固有鲁棒性。实验：在8kHz->24kHz的BWE任务上，与多种AI方法（HiFi-GAN+, NU-Wave2）和标准方法（EVS）对比。在语音和音频测试集上，所提方法（Non-blind BWE）取得了最佳的MUSHRA主观评分（语音84.44，音频84.28）和最低的LSD客观指标（语音0.846，音频0.663）。同时，其浮点运算量（FLOPs）和实时因子（RTF）远低于其他AI基线，计算效率高。方案语音 MUSHRA↑ 语音 LSD↓ 音频 MUSHRA↑ 音频 LSD↓ 解码LF (基准) 55.25 1.418 46.75 3.055 HiFi-GAN+ 54.84 1.561 40.63 1.686 NU-Wave2 59.72 1.664 48.44 2.161 EVS (规则) 77.44 0.980 76.72 1.051 Blind BWE 74.66 1.077 74.56 0.840 Non-blind BWE (Vanilla) 69.52 0.915 66.32 0.725 Non-blind BWE (Proposed) 84.44 0.846 84.28 0.663 （图4显示，在复杂频谱结构的交响乐片段中，所提方法（e）能准确恢复谐波细节，而HiFi-GAN+（a）和NU-Wave2（b）表现较差。） ...

SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution

📄 SAGA-SR: Semantically and Acoustically Guided Audio Super-Resolution #音频增强 #扩散模型 #流匹配 #生成模型 ✅ 7.5/10 | 前25% | #音频增强 | #扩散模型 | #流匹配 #生成模型学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度中 👥 作者与机构第一作者：Jaekwon Im（KAIST 文化技术研究生院）通讯作者：未说明作者列表：Jaekwon Im（KAIST 文化技术研究生院）、Juhan Nam（KAIST 文化技术研究生院） 💡 毒舌点评这篇论文的亮点在于巧妙地将文本语义信息和频谱滚降这一物理特征结合，作为扩散模型的双重引导，有效解决了通用音频超分辨率中“对齐差”和“高频能量不稳定”这两大痛点。不过，论文在训练硬件、具体模型参数量等复现关键信息上完全缺失，对于想复现其成果的同行来说，这无异于只给了地图却没标比例尺，实用性打了折扣。 🔗 开源详情代码：论文中提供了代码和示例的链接：http://jakeoneijk.github.io/saga-sr-project。模型权重：论文中未明确提及是否公开预训练模型权重。数据集：论文使用的训练数据集（FreeSound, MedleyDB等）均为公开数据集，但论文未说明具体如何组合和预处理。测试集（VCTK, FMA-small, ESC50）也是公开数据集。 Demo：项目主页链接可能包含声音示例（论文中提及“Sound examples…are available online”），但论文内未直接给出在线演示链接。复现材料：论文提供了详细的训练超参数（学习率、batch size、优化器、步数、调度器参数等）、数据预处理方法（滤波器类型、截止频率范围）和推理设置（采样步数、引导尺度）。但未提供模型结构细节（如DiT具体配置）、训练硬件信息、检查点文件或完整的训练配置代码。论文中引用的开源项目：依赖预训练的VAE（来自[12] Stable Audio Open）、Qwen2-Audio（用于音频字幕生成）、T5-base（文本编码器）、librosa（频谱滚降计算）以及参考了AudioSR、FlashSR等工作的代码实现（用于对比）。 📌 核心摘要问题：现有的通用音频超分辨率方法（如AudioSR、FlashSR）在重建高频时，常出现语义不匹配（如生成不自然的齿音）和高频能量分布不一致的问题。方法核心：提出SAGA-SR模型，基于DiT（Diffusion Transformer）架构和流匹配（Flow Matching）目标进行训练。其核心创新在于引入了双重条件引导：（1）由音频生成的文本描述提供的语义嵌入；（2）由输入和目标音频的频谱滚降频率提供的声学嵌入。新颖之处：首次在音频超分辨率任务中系统性地引入了基于文本的语义引导，解决了现有方法生成音频语义失真的问题；同时，引入了频谱滚降这一可量化的声学特征，为模型提供了明确的高频能量分布指导，并允许用户在推理时通过单一标量控制输出音频的高频能量。主要结果：在语音、音乐、音效三个领域的测试中，SAGA-SR在所有客观指标（LSD、FD）和主观评估分数上均优于AudioSR和FlashSR。例如，在主观评估中，SAGA-SR在音效任务上得分3.88，显著高于FlashSR的3.34。消融实验证实了文本嵌入和频谱滚降嵌入的有效性。实际意义：SAGA-SR提供了一个能够处理任意输入采样率（4-32 kHz）并统一上采样到44.1 kHz的通用音频增强工具，其可控的高频能量生成特性使其在音频修复、后期制作等场景中具有应用潜力。主要局限性：模型对于包含多个重叠声源的复杂音频的处理能力有限；后处理中的低频替换操作可能引入频段间的不自然连接。 🏗️ 模型架构 SAGA-SR的整体架构（图1）是一个以条件DiT为核心的生成模型，包含以下流程： ...

Subspace Hybrid Adaptive Filtering for Phonocardiogram Signal Denoising

📄 Subspace Hybrid Adaptive Filtering for Phonocardiogram Signal Denoising #心音信号 #信号处理 #自适应滤波 #音频增强 #时频分析 ✅ 7.0/10 | 前50% | #音频增强 | #信号处理 | #心音信号 #自适应滤波学术质量 6.0/7 | 选题价值 2.0/2 | 复现加成 -0.5 | 置信度中 👥 作者与机构第一作者：Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering) 通讯作者：论文中未明确标注通讯作者作者列表：Wageesha N. Manamperi (University of Moratuwa, Sri Lanka, Department of Electronic & Telecommunication Engineering; Audio & Acoustic Signal Processing Group, Australian National University, Australia), Thushara D. Abhayapala (Audio & Acoustic Signal Processing Group, Australian National University, Australia) 💡 毒舌点评亮点在于将经典的NLMS、GMM维纳滤波与多通道PCA子空间方法进行“混搭”，形成一个两阶段流水线，逻辑清晰且有实验验证，为传统信号处理方法在心音降噪领域的应用提供了新思路。短板是其核心创新（两阶段串联）更偏向于工程组合而非理论突破，且代码与训练细节完全未公开，对于希望复现或深入理解参数影响的读者极不友好，削弱了论文的实际影响力。 ...