A Cold Diffusion Approach for Percussive Dereverberation

Tue, 12 May 2026 00:00:00 +0000

📄 A Cold Diffusion Approach for Percussive Dereverberation

#音频修复 #扩散模型 #音频增强 #打击乐

学术质量 6.2/8 | 影响力 0.7/2 | 可复现性 0.6/1 | 置信度高

👥 作者与机构

第一作者：Dimos Makris（未说明机构）
通讯作者：未说明
作者列表：Dimos Makris（未说明机构），András Barják（未说明机构），Maximos Kaliakatsos-Papakostas（未说明机构）

💡 毒舌点评

本文首次将冷扩散框架应用于打击乐去混响这一垂直但重要的任务，并贴心地设计了一套瞬态感知的评估指标，填补了领域空白，实验显示其性能显著优于将语音模型生搬硬套的基线。然而，文中声称的“首次”虽未提供系统文献综述，但属于常见的声明方式。核心问题在于对比实验的公平性：最佳模型（UNet Δ-norm）仅用16步迭代就“吊打”了用30步和50步的基线。这种推理步数不匹配的对比，使得关于效率和性能的结论需要更多实验（如步数匹配对比、计算成本分析）来支撑。

📌 核心摘要

问题：现有音频去混响研究几乎都针对语音，而打击乐（鼓组）由于其快速瞬态和密集时域结构，其去混响面临独特挑战，且缺乏专门的学习型解决方案。
方法核心：提出一个冷扩散框架，将混响建模为一个确定性退化过程（将干声与湿声按特定时间表混合），并学习其逆过程。研究了两种反向过程参数化：直接预测下一状态（Direct）和预测归一化残差（Δ-normalized，速度风格），并分别用UNet和扩散Transformer（DiT）实现。
新意：首次尝试将学习型方案（冷扩散）应用于打击乐的盲去混响任务；通过确定性退化过程和迭代恢复来避免传统扩散模型的随机性；专门设计了一套针对打击乐的客观评估指标（如瞬态-尾部能量比TTER，起始点F值提升ONFi）。

实验结果：在内部测试集和完全外部的测试集上，所提方法（尤其是Cold UNet Δ-norm）在信号和感知指标上均显著优于强基线SGMSE+和CDiffuSE。例如，在外部测试集上，Cold UNet Δ-norm达到7.52 dB的SI-SDRi，而SGMSE+仅为2.01 dB，CDiffuSE接近0 dB。关键数据见下表。 表1：内部测试集核心指标对比

模型	mSTFTmag↓	ESR↓	SI-SDRi↑	ENV↑	TTER↓
SGMSE+	0.12	1.35	4.06	0.62	5.90
CDiffuSE	0.12	1.37	2.77	0.59	6.03
Cold UNet Δ-norm	0.08	0.79	11.09	0.92	2.07

实际意义：为音乐制作中收紧鼓组混音、适应不同声学环境提供了新的自动化工具，潜力在于扩展到处理更复杂的人工混响效果。
局限性：数据集构建依赖手动筛选干声，规模（~38小时）和多样性受限；实验基线仅限两个源自语音的扩散模型，缺乏传统信号处理或其他音乐增强基线的对比；对生产环境中的复杂人工混响（非物理房间混响）的处理能力未验证。

🔗 开源详情

代码：https://github.com/dimakr169/drums_dereverb
模型权重：论文中未提及单独的模型权重下载链接（如HuggingFace/ModelScope）。代码仓库可能包含训练好的模型，但论文未明确说明。
数据集：
1. MUSDB18-HQ：论文使用其鼓轨。论文未提供直接链接，但这是一个公开的音乐源分离数据集，可从其官方主页（https://sigsep.github.io/datasets/musdb.html）获取。
2. Groove MIDI Dataset (GMD)：论文使用其渲染的电子鼓表演。论文未提供直接链接，可从其官方发布页面（https://magenta.tensorflow.org/datasets/groove）获取。
3. 作者整理的数据集：由上述数据集的干声片段与合成/真实RIR卷积生成，共约38小时。论文指出该数据集“available upon request”（可申请获取）。
4. OpenAIR 数据库：用于获取真实的房间脉冲响应（RIRs）。论文未提供直接链接，但这是一个公开的RIR数据库，网址为 https://www.openairlib.net/。
Demo：论文中未提及在线演示链接（Demo）。仅说明音频示例可在代码仓库中找到。
复现材料：论文详细提供了训练配置信息（包括优化器Adam、学习率10^{-4}、EMA衰减0.995、训练/验证/测试集划分80%/10%/10%、STFT参数等）。但未提及是否提供预训练模型检查点、完整的训练脚本或详细的复现指南。这些可能包含在代码仓库中。
论文中引用的开源项目：
1. audiomentations：用于数据增强。链接：https://github.com/iver56/audiomentations
2. pyroomacoustics：用于合成人工RIRs。链接：https://github.com/LCAV/pyroomacoustics
3. librosa：用于在评估指标中检测音符起始点（onsets）。链接：https://librosa.org/
4. ACE Challenge Workshop 数据：用于域外评估的测试集RIRs。链接：https://zenodo.org/records/6257551
5. MoisesDB：用于构建域外测试集。论文未提供直接链接，但这是一个公开的音乐源分离数据集，网址为 https://moises.ai/developer/。
6. Waves Clarity VX Dereverb：作为商业插件被提及作为对比，非开源项目。链接：https://www.waves.com/plugins/clarity-vx-dereverb

🏗️ 方法概述和架构

本系统是一个端到端的音频增强框架，旨在将立体声鼓组的混响信号（湿声）恢复为无混响信号（干声）。其核心流程为：输入的混响音频被转换为复数谱图表示，然后通过一个学习到的反向冷扩散过程进行迭代去混响，最终输出恢复的干音频谱图，并逆变换回时域波形。

主要组件/模块详解

输入表示与预处理 - 功能：将时域音频转换为适合模型处理的时频域表示。 - 内部结构/实现：对2秒的立体声音频片段进行短时傅里叶变换（STFT，FFT大小1024，帧移384）。左、右声道的复数谱图 \( X^{(L)}, X^{(R)} \) 被分解为实部和虚部，堆叠成一个4通道的张量 \( \mathbf{x} \in \mathbb{R}^{4 \times F \times K} \)。这种实虚部（RI）表示保留了相位信息，便于模型学习立体声一致的去混响。 - 输入输出：输入为原始立体声波形，输出为RI谱图张量。

冷扩散正向过程（训练阶段定义） - 功能：定义一个确定性的退化过程，将干声 \( \mathbf{x}_0 \) 逐步转变为湿声 \( \mathbf{y} \)。 - 内部结构/实现：采用确定性混合而非加性高斯噪声。序列 \( \{\mathbf{x}_t\}_{t=0}^T \) 由公式 \( \mathbf{x}_t = a_t \mathbf{x}_0 + (1 - a_t) \mathbf{y} \) 定义，其中混合系数 \( a_t \) 从 \( a_0=1 \) （纯干声）单调递减至 \( a_T=0 \) （纯湿声）。本文采用余弦平方调度 \( a_t = \cos^2\left(\frac{\pi}{2} \frac{t}{T}\right) \)。该过程学习了如何从干声“生成”混响，其逆过程则用于去除混响。

反向过程（推理与训练核心） - 功能：学习从混响信号 \( \mathbf{x}_T = \mathbf{y} \) 开始，迭代地恢复出干声 \( \mathbf{x}_0 \)。 - 内部结构/实现：使用神经网络 \( f_\theta(\cdot, t) \) 建模单步反向转换。论文研究了两种参数化： - Direct预测：网络直接预测下一个（混响更少的）状态 \( \widehat{\mathbf{x}}_{t-1} = f_\theta(\mathbf{x}_t, t) \)。 - Δ-normalized残差预测：网络预测一个经步长 \( g_t = a_{t-1} - a_t \) 归一化的更新向量 \( \widehat{\mathbf{v}}_t = f_\theta(\mathbf{x}_t, t) \)，然后通过 \( \widehat{\mathbf{x}}_{t-1} = \mathbf{x}_t + g_t \widehat{\mathbf{v}}_t \) 计算下一个状态。这种“速度风格”的参数化有助于减少迭代误差累积。 - 输入输出：输入为当前带噪状态 \( \mathbf{x}_t \) 和时间步索引 \( t \)，输出为预测的下一个状态或归一化更新量。

神经网络骨干网络 - 功能：作为反向过程 \( f_\theta \) 的函数近似器。 - 内部结构/实现： - UNet：基于NCSN++架构的编码器-解码器网络，约有54.6M参数。修改了输入投影层（使用9x1卷积核）以适应打击乐的瞬态特性。在瓶颈处加入注意力块以增强时频全局上下文建模。 - Transformer Diffuser (DiT)：基于Transformer的扩散模型，约有57.1M参数。将谱图分块为token序列，使用旋转位置编码（RoPE），并通过辅助时间步嵌入调制token表示。DiT仅在Δ-normalized模式下实验，因为直接预测模式不稳定。 - 输入输出：接��RI谱图和时间步信息，输出预测的目标量（状态或残差）。

训练目标与损失函数 - 功能：指导网络学习正确的逆过程映射。 - 内部结构/实现：损失函数为频域损失 \( \mathcal{L}_{\text{spec}} \) 和时域损失 \( \mathcal{L}_{\text{aud}} \) 的加权和：\( \mathcal{L} = \mathcal{L}_{\text{spec}} + \lambda_{\text{aud}} \mathcal{L}_{\text{aud}} \)（\( \lambda_{\text{aud}}=8 \)）。 - 对于Direct预测，\( \mathcal{L}_{\text{spec}} \) 是预测状态与真实状态 \( \mathbf{x}_{t-1} \) 之间的L1损失。 - 对于Δ-normalized预测，\( \mathcal{L}_{\text{spec}} \) 是两项的加权和（权重0.7和0.3）：预测归一化残差 \( \widehat{\mathbf{v}}_t \) 与真实残差 \( \mathbf{v}_t = (\mathbf{x}_{t-1} - \mathbf{x}_t)/g_t \) 的L1损失，以及由此重构出的状态 \( \widehat{\mathbf{x}}_{t-1} \) 与真实状态 \( \mathbf{x}_{t-1} \) 的L1损失。 - \( \mathcal{L}_{\text{aud} } \) 是在第 \( t-1 \) 步重构波形与真实波形之间的L1损失。

推理过程 - 功能：在推理时，从完全混响的输入 \( \mathbf{x}_T = \mathbf{y} \) 开始，迭代应用学习到的反向转换模型 \( T=16 \) 次，最终得到估计的干声 \( \widehat{\mathbf{x}}_0 \)。 - 内部结构/实现：对于Δ-normalized模式，每步计算为 \( \widehat{\mathbf{x}}_{t-1} = \mathbf{x}_t + g_t f_\theta(\mathbf{x}_t, t) \)。

组件间的数据流与交互

数据流是线性的迭代过程：输入湿声谱图 \( \rightarrow \) 初始化 \( \mathbf{x}_T \) \( \rightarrow \) [循环：骨干网络预测 \( \rightarrow \) 应用状态更新公式] \( T \)次 \( \rightarrow \) 输出干声估计 \( \widehat{\mathbf{x}}_0 \) \( \rightarrow \) 逆STFT得到波形。训练时，对于随机采样的时间步 \( t \)，通过正向过程构造出 \( \mathbf{x}_t \) 和 \( \mathbf{x}_{t-1} \) 作为网络的监督目标。两种反向参数化（Direct/Δ）和两种骨干网络（UNet/DiT）是并行的实验设计。

关键设计选择及动机

冷扩散而非标准扩散：动机是混响是一个确定性的线性退化过程（卷积），用确定性插值建模比用加性高斯噪声更直接、更符合物理本质，且可能提高恢复性能和鲁棒性。
RI谱图表示：动机是保留相位信息，这对打击乐的瞬态重建和立体声一致性至关重要。
Δ-normalized残差预测：动机是减轻迭代反向过程中的误差累积问题，通过预测归一化的更新量来稳定长序列的生成/恢复。论文明确指出，对于DiT，直接预测模式不稳定，而Δ-normalized模式通过约束每一步为感知上的归一化更新，缓解了此问题。
打击乐特异性评估指标：动机是认识到语音指标（如PESQ）不适用于评估打击乐，因此设计了TTER、ONFi等直接量化瞬态清晰度和节奏事件精度的指标。

架构图/流程图

图1展示了冷扩散的核心概念。左侧的前向过程展示了干声谱图 \( \mathbf{x}_0 \) 如何通过混合系数 \( a_t \) 逐步与混响声 \( \mathbf{y} \) 混合，最终变为完全的混响信号 \( \mathbf{x}_T \)。右侧的反向过程则展示了从混响信号 \( \mathbf{x}_T \) 开始，通过学习的神经网络（用红色方框和箭头表示）进行迭代去混响，逐步恢复出干声 \( \mathbf{x}_0 \) 的过程。图中的鼓信号示例直观地体现了混响如何模糊瞬态（前向），以及模型如何尝试恢复清晰的瞬态（反向）。

图2展示了在完全外部数据集上，使用一个高混响（\( T_{60}>2s \) ）的未见过脉冲响应处理一个电子鼓片段的谱图对比。从上到下依次是：混响输入、SGMSE+输出、Cold UNet Δ-norm输出、Cold DiT Δ-norm输出、干声参考。可以清晰看到：1) 混响输入存在严重的时域能量扩散和低频掩蔽；2) SGMSE+几乎没有改善，残留大量混响能量；3) 两种冷扩散模型都显著减少了晚期混响，恢复了更紧凑的瞬态结构；4) UNet模型在尾部衰减上最干净，但可能存在轻微低频衰减；DiT模型保留了更多低频但尾部略长。该图直观证实了冷扩散方法在强域外泛化场景下的有效性。

💡 核心创新点

任务开创性：首次尝试将学习型方法（冷扩散）专门应用于打击乐信号的盲去混响，填补了音频增强领域在非语音音乐信号上的一个重要空白。
方法适配性：将冷扩散框架适配到该任务，用确定性的干/湿信号线性插值作为前向退化过程，这比标准扩散的加性噪声更适合建模混响这种确定性的卷积失真，并可能带来更好的性能和鲁棒性。
参数化设计：系统对比了两种反向过程参数化，特别是提出并验证了Δ-normalized残差预测在迭代恢复中减少误差累积、提高稳定性的优势，尤其对于Transformer这类架构。
评估体系创新：意识到传统语音评估指标的不适用性，为瞬态丰富的打击乐去混响任务设计并采用了一套专用的评估指标，如调制谱距离（MSD）、包络相关性（ENV）、瞬态-尾部能量比偏差（TTER）和起始点F值提升（ONFi），更准确地量化任务性能。

📊 实验结果

论文在两个主要测试集上评估了模型：内部测试集（来自训练数据分布）和完全外部测试集（来自MoisesDB，使用未见过的脉冲响应）。基线为两个为语音设计的扩散模型：SGMSE+（30步）和CDiffuSE（50步），均在相同数据、输入表示（立体声RI谱图）和骨干网络（UNet）上重新训练，以隔离扩散公式本身的影响。

表1：内部测试集结果（均值±标准差）

模型	mSTFTmag↓	mSTFTphase↓	ESR↓	SI-SDRi↑	NMI↑	MSD↓	ENV↑	TTER↓	ONFi↑
SGMSE+	0.12±0.52	1.32±0.29	1.35±0.75	4.06±6.32	0.36±0.18	0.29±0.09	0.62±0.31	5.90±4.51	0.08±0.17
CDiffuSE	0.12±0.49	1.36±0.24	1.37±0.73	2.77±4.01	0.34±0.18	0.30±0.10	0.59±0.31	6.03±4.08	0.04±0.17
Cold UNet Δ-norm	0.08±0.52	1.21±0.36	0.79±0.74	11.09±10.25	0.55±0.16	0.22±0.09	0.92±0.12	2.07±2.13	0.16±0.21
Cold DiT Δ-norm	0.10±0.52	1.28±0.31	1.05±0.83	7.36±9.10	0.45±0.17	0.25±0.09	0.84±0.19	3.57±3.24	0.07±0.21
Cold UNet Direct	0.09±0.52	1.23±0.35	0.88±0.79	9.91±10.13	0.52±0.17	0.23±0.09	0.89±0.16	2.72±3.05	0.14±0.21

关键发现：所有冷扩散模型在所有指标上均优于基线。最佳模型Cold UNet Δ-norm的SI-SDRi达到11.09 dB，远超SGMSE+的4.06 dB；包络相关性（ENV）高达0.92；瞬态-尾部能量比偏差（TTER）最低（2.07），表明其能最有效地收紧鼓点，减少混响尾。Δ-normalized模式在ESR、TTER、ONFi上优于Direct模式，验证了其减少误差累积的优势。

表2：完全外部测试集结果（均值±标准差）

模型	mSTFTmag↓	mSTFTphase↓	ESR↓	SI-SDRi↑	NMI↑	MSD↓	ENV↑	TTER↓	ONFi↑
SGMSE+	0.22±0.10	1.37±0.24	1.42±0.75	2.01±5.08	0.31±0.15	0.32±0.08	0.58±0.30	6.70±4.39	0.05±0.15
CDiffuSE	0.23±0.10	1.39±0.21	1.44±0.69	0.17±3.81	0.29±0.16	0.32±0.09	0.55±0.30	6.85±4.22	0.03±0.14
Cold UNet Δ-norm	0.16±0.08	1.25±0.33	1.09±0.88	7.52±8.61	0.45±0.17	0.25±0.08	0.84±0.17	3.60±3.35	0.13±0.20
Cold DiT Δ-norm	0.17±0.09	1.32±0.27	1.19±0.86	5.59±7.52	0.41±0.16	0.27±0.08	0.79±0.21	4.58±3.90	0.05±0.20
Cold UNet Direct	0.16±0.08	1.26±0.32	1.11±0.89	7.20±8.48	0.44±0.17	0.25±0.09	0.83±0.19	4.00±3.76	0.11±0.20

关键发现：在完全外部的分布外（OOD）数据上，所有模型性能均下降，但冷扩散模型的优势更加明显。SGMSE+的SI-SDRi降至2.01 dB，CDiffuSE接近无效（0.17 dB）。而Cold UNet Δ-norm仍保持7.52 dB的SI-SDRi， ENV为0.84，TTER为3.60，表明其具有强泛化能力。Δ-normalized与Direct模式在OOD下的差距缩小，表明骨干网络（UNet）的归纳偏置在强域偏移下可能起主导作用。

消融实验

论文进行了关键的消融对比：

反向过程参数化：对比了UNet上的“Direct”与“Δ-norm”模式。结果显示Δ-norm在几乎所有指标上（尤其是ESR、TTER、ONFi）均优于Direct，验证了其减少误差累积的假设。
骨干网络：对比了UNet和DiT（均使用Δ-norm）。结果显示UNet在多数指标上（特别是瞬态相关的TTER、ONFi）优于DiT，表明对于该任务，UNet的归纳偏置可能更合适。
步数配置：论文指出，其方法仅用T=16步反向迭代就取得了优异结果，而基线SGMSE+使用30步，CDiffuSE使用50步。论文声称“初步实验显示使用超过16步反向迭代没有持续收益”，因此选择了最小的有效设置。

🔬 细节详述

训练数据：约38小时立体声音频。来源：MUSDB18-HQ（真实录音鼓组干声）和Groove MIDI Dataset（电子鼓渲染干声）。经过音频工程师手动筛选确保“感知干燥”。通过audiomentations库进行数据增强（变调、伸缩、随机EQ）。混响版本通过用pyroomacoustics合成的RIR和OpenAIR数据库的实测RIR卷积生成，并进行了湿/干能量控制和峰值保护。
损失函数：频域L1损失与加权的时域L1损失组合。Direct预测模式的频域损失为 \( \|\widehat{\mathbf{x}}_{t-1} - \mathbf{x}_{t-1}\|_1 \)。Δ-normalized模式的频域损失为 \( 0.7\|\widehat{\mathbf{v}}_t - \mathbf{v}_t\|_1 + 0.3\|\widehat{\mathbf{x}}_{t-1} - \mathbf{x}_{t-1}\|_1 \)，其中 \( \mathbf{v}_t = (\mathbf{x}_{t-1} - \mathbf{x}_t)/g_t \)。时域损失权重 \( \lambda_{\text{aud}} = 8 \)。
训练策略：优化器Adam，学习率 \( 10^{-4} \)。使用指数移动平均（EMA）更新模型参数，衰减系数0.995，推理时使用EMA权重。未说明batch size、训练步数或轮数。
关键超参数：扩散步数 \( T=16 \)。UNet基础宽度64通道，4个分辨率级别，每个级别2个残差块。DiT使用5层Transformer块，8个注意力头，嵌入维度768。两者参数量相近（~55M）。
训练硬件：未说明。
推理细节：从 \( \mathbf{x}_T = \mathbf{y} \) 开始，迭代16步。使用EMA权重。未使用额外的去噪或校正采样器。
正则化/稳定训练技巧：使用EMA权重以提高稳定性和感知质量。Δ-normalized参数化本身也被证明能稳定Transformer的推理过程。

⚖️ 评分理由

创新性：2.0/3 将冷扩散应用于打击乐去混响这一具体且未被探索的任务，具有明确的应用创新。对正/反向过程的建模选择（确定性混合 vs 加性噪声）具有领域适配性。提出的打击乐专用评估指标是实际且有价值的贡献。但冷扩散本身和两种反向参数化并非全新提出，属于框架的适配和组合创新，而非原理性突破。

技术严谨性：1.5/2 方法描述清晰，数学公式完整。冷扩散框架的应用逻辑自洽。训练目标设计合理。但论文未讨论确定性退化过程与加性噪声退化的理论对比或权衡；未深入分析T=16步的充分性（仅凭初步实验结论）；对DiT在Direct模式下不稳定的解释较为简略，缺乏更深入的分析。

实验充分性：1.5/2 实验设计有亮点：构建了专用的打击乐数据集（并公开），设计了针对性的评估指标，在内部和严格的OOD测试集上进行了评估，并提供了定性示例。消融了关键组件（参数化方式、骨干网络）。主要不足：基线选择范围窄，仅对比两个语音扩散模型，缺乏传统信号处理方法（如基于维纳滤波的方法）或其他音频增强模型的对比；未报告训练损失曲线、不同T值的性能曲线等更深入的分析；缺乏统计显著性检验。

清晰度：0.8/1 论文结构完整，写作流畅，符号定义清晰（如 \( \mathbf{x}_t, a_t, g_t \) ）。图表质量高，图1和图2很好地辅助了理解。方法、实验、结果各节组织有序。一个扣分点是某些超参数（如batch size、训练时长）和实验设置细节（如基线的预测-校正采样器具体配置）未说明，可能影响复现。

影响力：0.5/1 为音频增强领域开辟了一个新的垂直应用方向（打击乐去混响），可能对音乐制作工具链产生实际影响。提出的评估指标可能被该细分领域的后续工作采纳。但任务相对小众，受众主要集中在音乐信号处理社区。其核心方法（冷扩散）的通用性已在先前工作中被探讨，因此本文的贡献更偏向领域应用验证。

可复现性：0.6/1 论文提供了代码仓库链接（GitHub），承诺代码可用。数据集部分公开（需申请）。详细描述了模型架构、损失函数、优化器、EMA等关键训练配置。主要不足：未提供预训练模型权重；未说明训练硬件和时长；数据集需申请，流程未完全明确；部分超参数（如batch size）缺失。这些因素会影响复现的便捷性。

总分：6.5/10 （相较于原分析，总分下调0.5分，主要基于创新性（更强调组合而非原理突破）和技术严谨性（理论分析和实验深度不足）的调整。）

🚨 局限与问题

论文明确承认的局限：

数据集构建依赖于手动筛选“感知干燥”的鼓干声，这个过程可能引入主观偏差，且限制了数据规模和多样性。
未来工作将扩展到处理“生产风格的人工混响”（如板式、弹簧混响），因为当前方法仅针对基于房间脉冲响应的物理混响，而人工混响的特性不同。
计划探索更灵活的反向扩散设置，如替代时间表和可变推理步数，以减少对固定推理配置的依赖。

审稿人发现的潜在问题：

基线对比公平性：所有冷扩散模型均使用16步推理，而基线SGMSE+使用30步，CDiffuSE使用50步。这种推理步数不匹配使得性能对比（尤其是计算效率方面）不够公平。论文应提供步数匹配的对比或计算成本分析。虽然作者解释这是“标准配置对比”，但在声称方法优越性时，未控制计算成本是一个明显的弱点。
评估指标的全面性：虽然提出了很好的打击乐专用指标，但未包含任何主观听测评估（如MOS测试），而音频质量最终依赖于人耳感知。仅靠客观指标可能无法完全反映实际效果。
模型局限性分析不足：论文展示了OOD失败案例（图2），但未深入分析失败原因（如模型对训练分布外极端混响时间的敏感性）。Δ-norm模式在OOD下与Direct模式差距缩小的现象，也缺乏深入解释。
“首次”声称的严谨性：论文声称“首次尝试将学习型方案应用于打击乐盲去混响”，虽然以“To the best of our knowledge”开头，但未提供任何相关工作讨论来佐证，可能遗漏非常相关的前期工作。
方法可扩展性未验证：论文仅在固定T=16步下进行了验证。虽然声称更多步数没有持续收益，但未展示不同T值（如T=8, 32）下的性能-效率权衡曲线，结论的普适性存疑。
数据集依赖性：训练数据依赖于对“干燥”的主观判断，并通过合成RIR和有限的真实RIR生成配对数据。模型是否能真正处理真实世界中复杂、多变的录音环境和混响，存疑。合成数据与真实数据的差距是音频增强领域的普遍挑战。

← 返回 2026-05-12 论文速递

打击乐 on 语音/音频论文速递