Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control

📄 Co-Initialization of Control Filter and Secondary Path via Meta-Learning for Active Noise Control #音频安全 #元学习 #信号处理 #少样本学习 #自适应滤波 ✅ 7.5/10 | 前25% | #音频安全 | #元学习 | #信号处理 #少样本学习 学术质量 6.5/7 | 选题价值 2.0/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Ziyi Yang (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 通讯作者:Zhengding Luo (Smart Nation TRANS Lab, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore) 作者列表:Ziyi Yang (南洋理工大学)、Li Rao (南京大学声学研究所现代声学重点实验室)、Zhengding Luo (南洋理工大学, 通讯作者)、Dongyuan Shi (西北工业大学)、Qirui Huang (南洋理工大学)、Woon-Seng Gan (南洋理工大学) 💡 毒舌点评 这篇论文的亮点在于其巧妙的工程切入点:不改变工业界广泛使用的FxLMS算法本身,而是通过一个“离线学习、在线简单设置”的元学习初始化模块来提升其性能,这种“即插即用”的兼容性思维非常务实。但其短板也很明显:验证场景过于“温和”和“干净”——仅在预录的路径切换实验上演示效果,缺乏对真实世界中连续、渐变、非平稳声学环境变化的长期跟踪评估,使得结论的鲁棒性打了折扣。 ...

2026-04-29

Constraint Optimized Multichannel Mixer-Limiter Design

📄 Constraint Optimized Multichannel Mixer-Limiter Design #多通道 #信号处理 #音频生成 #实时处理 ✅ 7.0/10 | 前25% | #多通道 | #信号处理 | #音频生成 #实时处理 学术质量 7.0/7 | 选题价值 1.5/2 | 复现加成 0 | 置信度 高 👥 作者与机构 第一作者:Yuancheng Luo (Amazon.com) 通讯作者:未说明 作者列表:Yuancheng Luo (Amazon.com), Dmitriy Yamkovoy (Amazon.com), Guillermo Garcia (Amazon.com) 💡 毒舌点评 亮点:将混音和限幅问题统一建模为线性约束二次规划(QP)是一个优雅且理论扎实的框架,特别是提出的“遮挡剔除”约束缩减算法,能有效降低QP求解复杂度,为实时处理提供了理论可能。 短板:实验部分仅使用人工合成的调幅信号进行验证,缺乏真实音乐或语音内容的主观听感评估和客观指标对比(如LUFS、动态范围),结论的工程实践说服力不足。 📌 核心摘要 问题:在消费级扬声器阵列中,传统的多通道混音器(负责分配动态余量)与限幅器(保护扬声器)是分开设计的,这会导致音频失真、通道平衡破坏和指向性间歇性改变。 方法核心:提出一种耦合设计,将混音与限幅问题表述为一个高效的线性约束二次规划(QP)问题。其目标是在满足每样本混合信号不超阈值的线性约束下,最小化一个基于通道增益衰减的失真目标函数。 新意:与传统解耦方法相比,新方法实现了跨通道、跨时间的联合优化。论文创新了: 设计了一种支持攻击、保持、释放动态的不对称恒定重叠添加(COLA)窗函数,用于构建平滑的增益包络。 推导了可直接用于QP求解的失真目标二次近似函数,并分析了其凸性条件。 提出了“预混缩减变量”和“遮挡剔除缩减约束”两种高效降低QP问题规模的方法,以满足实时性要求。 实验结果:论文使用合成的多频带、多内容调幅信号进行评估。结果显示: 相比单通道限幅器、多频带/多内容限幅器及拼接预混器,完整的耦合混音-限幅器的失真目标值最低(均值0.16±0.18)。 约束缩减算法效果显著,如将6通道输入的约束数量从约1636个(预处理后)平均降至381.5个(非遮挡集),接近凸包支持面的数量(202.8)。 实际意义:为低功耗、资源受限的消费音频设备(如智能音箱、Soundbar)提供了一种在保证响度的同时,能更自适应、更保真地进行多声道混音与保护的算法框架。 主要局限:实验仅限于合成信号,未在真实音频内容上验证其普适性与听感;论文未提供代码或详细实现指南,复现门槛高。 🏗️ 模型架构 本文并非传统的神经网络模型,而是一个基于优化理论的信号处理算法框架。其核心是一个序列化的二次规划(QP)求解器,结合窗函数包络构建模块。 整体输入输出流程: 输入:一个音频流,包含 N 个输入通道,每个通道有 F 个样本(一个帧)。 核心处理:对于每一帧(或带前瞻的重叠帧),求解一个QP问题(公式(6)),得到当前帧的最优增益向量 x*。 包络构建:使用设计的动态约束COLA窗函数,对连续帧的解 x* 进行加权平均(公式(7)),生成每通道平滑的增益包络 vn(t)。 输出:将输入信号 Y(t,n) 与对应的增益包络 vn(t) 相乘并求和,得到最终的单声道混合输出 y(t),其幅值满足预设阈值 τ。 主要组件: ...

2026-04-29

Continuation Method for Feedback Delay Network Modal Decomposition

📄 Continuation Method for Feedback Delay Network Modal Decomposition #空间音频 #信号处理 #计算声学 ✅ 6.5/10 | 前50% | #空间音频 | #信号处理 | #计算声学 学术质量 5.5/7 | 选题价值 0.5/2 | 复现加成 0.5 | 置信度 中 👥 作者与机构 第一作者:Jeremy B. Bai(Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Multimedia Communications & Signal Processing) 通讯作者:未说明 作者列表:Jeremy B. Bai(Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Multimedia Communications & Signal Processing)、Sebastian J. Schlecht(Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU), Multimedia Communications & Signal Processing) 💡 毒舌点评 亮点:论文将“延续方法”这一经典的数值计算范式巧妙地迁移到FDN模态分析的参数追踪问题中,并提出了几何意义上更自然的指数同伦路径,为连续调谐FDN参数提供了新的数学工具。短板:尽管方法优雅,但论文在性能评估上略显保守——与基线EAI的对比主要停留在计算复杂度层面(甚至承认优势不明显),缺乏在特定应用任务(如参数调优收敛速度、音质评价)上的深度验证,使得其实际效用的说服力打了折扣。 📌 核心摘要 问题:反馈延迟网络(FDN)的模态分解(求解其传递函数的极点)通常需要求解大规模的矩阵多项式特征值问题,当FDN的反馈矩阵A需要连续变化(如参数调谐、优化训练)时,每次都重新求解计算代价高昂。 方法核心:提出一种基于延续法(Continuation Method)的预测校正方案。在反馈矩阵从A0到A1的连续变化路径(同伦)上,利用特征对的导数进行预测,并用带边界的牛顿法进行校正,从而连续追踪极点{λi(t)}的轨迹。论文探索了线性和指数(矩阵指数)两种同伦路径,并提出了仅更新相位以保持无损系统极点在单位圆上的策略。 创新点:首次将延续法系统性地应用于FDN的模态分解问题;提出使用指数同伦路径,该路径在保持矩阵结构性(如幺正性)和产生更平滑极点轨迹方面优于线性路径;将问题保持在矩阵多项式形式,避免了高维伴随矩阵的构造。 实验结果:在多个中等规模FDN(N≤8,M最高达7679)上进行实验。结果表明,沿着指数同伦路径,极点轨迹平滑。当追踪步长L足够大(如L=50)时,极点丢失数显著减少(见Table 1)。相比于线性路径,指数路径在拉伸阶段产生更线性的极点幅值演化(图5)。计算复杂度为O(LMN^3),作者认为其主要优势在于可解释性而非绝对速度。 实际意义:为FDN的参数化设计、声学特性匹配(如拟合房间冲激响应)以及基于梯度的可微FDN训练提供了一种连续追踪模态变化的框架,有助于理解和控制FDN的动态行为。 主要局限性:计算开销并未显著优于传统EAI方法,尤其在系统阶数M很大且非线性强烈时需要很多步长L;极点丢失问题在步长不足时仍会发生;实验未涉及非常大规模的FDN或与更先进优化方法的对比。 🏗️ 模型架构 本文不涉及传统的神经网络模型架构,而是提出一个数值计算算法的整体框架(Algorithm 1),用于连续追踪FDN的极点。其核心组件与流程如下: ...

2026-04-29

DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG

📄 DECAF: Dynamic Envelope Context-Aware Fusion for Speech-Envelope Reconstruction from EEG #语音增强 #状态空间模型 #跨模态 #信号处理 ✅ 7.0/10 | 前25% | #语音增强 | #状态空间模型 | #跨模态 #信号处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 中 👥 作者与机构 第一作者:未说明(论文作者列表仅提供“Karan Thakkar”,但未明确标注其为第一作者) 通讯作者:未说明 作者列表:Karan Thakkar (Johns Hopkins University, USA), Mounya Elhilali (Johns Hopkins University, USA) 机构:约翰霍普金斯大学,计算音频感知实验室 (Laboratory for Computational Audio Perception) 💡 毒舌点评 亮点:该论文的核心思想——将语音包络重建从静态映射问题重新定义为结合时序先验的动态状态估计问题——非常清晰且富有启发性,为相关领域提供了有价值的范式参考;实验设计严谨,严格遵循公开挑战赛协议,并通过消融、频谱分析和鲁棒性测试多角度验证了方法的合理性。短板:在绝对性能上,尽管超越了先前SOTA,但提升幅度相对有限(从0.162到0.170),且与“理想上限”(DECAF-Oracle)差距依然明显,这削弱了其“突破性”的观感;论文中未提供完整的作者贡献与通讯信息,略显不规范。 📌 核心摘要 本文针对从脑电图(EEG)信号重建语音包络这一任务,提出了一种新的动态框架DECAF。1. 要解决的问题:现有深度学习方法将此任务视为静态回归,忽略了语音信号本身丰富的时序结构,导致重建保真度和鲁棒性受限。2. 方法核心:提出一种状态空间融合模型,它包含三个模块:直接从EEG估计当前包络的“EEG解码器”、从过去预测值自回归预测当前包络的“包络预测器”,以及一个学习到的门控网络,用于自适应地融合神经证据和时序先验。3. 与已有方法相比新在哪里:首次将此问题明确重构为动态状态估计任务,而非无状态的静态映射。模型完全因果且递归,能利用自身历史预测构建时序上下文。4. 主要实验结果:在ICASSP 2023 EEG解码挑战赛(任务2)的测试集上,DECAF的平均皮尔逊相关系数达到0.170±0.061,显著优于此前的最佳模型HappyQuokka(0.162±0.061,p=0.000483)。消融实验证明了两个分支的互补性:单独的EEG分支性能为0.117,单独的预测器分支接近随机。频谱分析表明,模型能协同利用EEG分支的低频信息和预测器的高频细节。5. 实际意义:该工作为听觉注意力解码和神经调控助听器等应用提供了更准确、连贯且适合在线处理的神经解码新方向。6. 主要局限性:模型绝对性能仍有提升空间(与Oracle上限差距大);在EEG信号极度嘈杂时(SNR低),性能优势消失;作者信息在提供的文本中不完整。 ...

2026-04-29

Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control

📄 Decorrelation-Enhanced Multiband Subband Adaptive Filtering for RIR Tracking in Sound Field Control #空间音频 #自适应滤波 #信号处理 #麦克风阵列 ✅ 7.0/10 | 前50% | #空间音频 | #自适应滤波 | #信号处理 #麦克风阵列 学术质量 6.0/7 | 选题价值 6.0/2 | 复现加成 0.0 | 置信度 中 👥 作者与机构 第一作者:Junqing Zhang (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University) 通讯作者:未说明 (论文未明确标注,作者列表末尾为Jacob Benesty†) 作者列表:Junqing Zhang⋆ (CIAIC and Shaanxi Provincial Key Laboratory of Artificial Intelligence, Northwestern Polytechnical University)、Jingli Xie⋆ (同上)、Dongyuan Shi⋆ (同上)、Wen Zhang⋆ (同上)、Jingdong Chen⋆ (同上)、Jacob Benesty† (INRS-EMT, University of Quebec) 💡 毒舌点评 亮点:论文将子带自适应滤波系统性地引入到声场控制的RIR跟踪环节,并结合了相位调制去相关,理论框架完整,仿真结果明确展示了相比传统时域NLMS的显著优势(~10 dB改善)。短板:应用场景(个人声区控制中的RIR跟踪)相对传统且细分,且作为一篇提出新算法的应用型论文,未提供任何开源代码或详细复现实验的设置,极大地限制了其影响力和可验证性。 ...

2026-04-29

Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids

📄 Deep Learning-Based Joint Optimization of Adaptive Feedback Cancellation and Residual Feedback Suppression for Hearing Aids #语音增强 #信号处理 #深度学习 #实时处理 🔥 8.0/10 | 前25% | #语音增强 | #深度学习 | #信号处理 #实时处理 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 1.0 | 置信度 高 👥 作者与机构 第一作者:Xiaofan Zhan (1,2) 通讯作者:Chengshi Zheng (1,2) 作者列表: Xiaofan Zhan (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) Brian C. J. Moore (剑桥大学心理学系剑桥听力组) Xiaodong Li (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) Chengshi Zheng (中国科学院声学研究所噪声与音频研究实验室;中国科学院大学) 💡 毒舌点评 亮点是它成功地将信号处理领域的经典思路(先线性对消,再非线性抑制)与深度学习巧妙结合,设计了两阶段框架和针对性的三步训练法,在实验上也确实做到了“1+1>2”的效果。短板在于,论文对闭环训练中两个网络如何具体协调、误差如何反向传播等“脏活累活”的细节描述略显含糊,只给出了宏观步骤,让想复现的人可能卡在调参的细节里;另外,只用了客观指标,缺乏真实的听感测试或临床数据支持,说服力打了点折扣。 📌 核心摘要 解决的问题:助听器中固有的声反馈问题(麦克风重拾放大的声音导致啸叫和失真),严重限制了可用增益,尤其在现代小型、开放式设计中更为突出。现有基于深度学习的方法(DeepAFS和DeepAFC)各有局限:前者计算复杂且高增益效果有限,后者在反馈路径快速变化时性能下降。 方法核心:提出JointDFC,一个两阶段深度学习框架。第一阶段使用LFCNet(集成预测误差方法的深度自适应反馈取消网络)进行线性反馈对消;第二阶段使用RFSNet(带全局因果时频注意力机制的全子带递归网络)抑制残余反馈和噪声。设计了“单独预训练 -> 数据生成 -> 端到端微调”的三步训练策略以解决闭环系统训练难题。 与已有方法相比新在哪里:这是首次将深度学习框架用于整合反馈取消与残余反馈抑制的联合优化,融合了DeepAFC(侧重建模反馈路径)和DeepAFS(侧重直接信号分离)的优势。网络设计上引入了全局时频注意力以精准定位残余反馈,训练策略上专门设计了适配闭环系统的三步法。 主要实验结果:在模拟用户内(Set A)和用户间(Set B)反馈路径变化的测试集上,JointDFC在多种高增益(5-11dB)条件下全面优于两个基线(DeepPEM-AFC, DeepAFS)。例如,在Set A的11dB增益条件下,JointDFC的WB-PESQ为4.12,eSTOI为98.01%,SI-SDR为16.14 dB,显著高于DeepPEM-AFC(PESQ 3.11, eSTOI 90.87%, SI-SDR -1.85 dB)和DeepAFS(PESQ 3.53, eSTOI 93.86%, SI-SDR 11.39 dB)。消融实验表明,移除全局注意力或联合训练均会导致性能下降。 方法 参数量(M) 计算量(G/s) WB-PESQ (5/7/9/11dB) eSTOI(%) (5/7/9/11dB) SI-SDR(dB) (5/7/9/11dB) Set A DeepPEM-AFC 0.240 0.060 4.32/4.23/3.71/3.11 99.24/98.84/93.64/90.87 19.03/17.79/9.80/-1.85 DeepAFS 0.302 0.319 4.28/4.18/3.90/3.53 98.45/97.90/96.11/93.86 17.62/16.22/14.13/11.39 JointDFC (ours) 0.396 0.227 4.30/4.26/4.21/4.12 98.87/98.68/98.40/98.01 18.71/17.95/17.16/16.14 w/o Global cTFA 0.391 0.224 4.23/4.19/4.13/4.02 98.47/98.27/97.90/97.32 17.74/17.07/16.27/14.98 w/o joint training 0.396 0.227 4.17/4.13/4.09/4.09 97.80/97.72/97.58/97.51 13.98/13.28/13.03/13.10 Set B DeepPEM-AFC 0.240 0.060 4.15/4.04/3.85/3.54 98.62/98.36/97.50/96.00 16.01/14.78/11.53/6.71 DeepAFS 0.302 0.319 4.23/4.13/3.93/3.63 98.36/97.81/96.42/93.97 17.33/15.88/13.83/10.86 JointDFC (ours) 0.396 0.227 4.21/4.16/4.11/4.07 98.59/98.39/98.11/97.92 16.91/15.99/15.25/14.66 w/o Global cTFA 0.391 0.224 4.13/4.07/4.02/3.95 98.13/97.90/97.59/97.12 16.19/15.22/14.47/13.18 w/o joint training 0.396 0.227 4.12/4.07/4.01/3.95 97.68/97.50/97.21/96.92 13.96/13.16/12.28/11.67 实际意义:该方法有望显著提升助听器在复杂动态环境下的稳定工作增益,改善中重度听力损失用户的听力补偿效果,同时保持了适合实时助听器芯片部署的计算复杂度(0.227 G MACs/s)。 主要局限性:研究主要基于客观指标(PESQ, eSTOI, SI-SDR)评估,未提供主观听感测试或真实用户佩戴实验数据;模型在反馈路径剧变时的瞬态性能有待进一步探究;实际硬件部署的功耗、内存占用等未讨论。 🏗️ 模型架构 本文提出的JointDFC系统是一个两阶段的深度学习框架,整体流程如图1(b)所示。 ...

2026-04-29

Denoising Of Stochastic Ray Tracing Room Impulse Responses

📄 Denoising Of Stochastic Ray Tracing Room Impulse Responses #空间音频 #信号处理 #数据集 #开源工具 #少样本 ✅ 7.5/10 | 前25% | #空间音频 | #信号处理 | #数据集 #开源工具 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.8 | 置信度 高 👥 作者与机构 第一作者:Ricardo Falcón-Pérez(Aalto University, Finland; Tampere University, Finland) 通讯作者:未说明 作者列表:Ricardo Falcón-Pérez(Aalto University, Tampere University), Carl Schissler(Meta - Reality Labs Research), Andrew Francl(Meta - Reality Labs Research), Ishwarya Ananthabhotla(Meta - Reality Labs Research), Gregor Mueckl(Meta - Reality Labs Research) 💡 毒舌点评 亮点:论文最聪明的一点是避开了直接去噪复杂的RIR波形,转而利用射线追踪仿真过程本身产生的“副产品”——内部状态特征(如能量衰减曲线、路径统计直方图)作为输入,这为神经网络提供了宝贵的“仿真收敛度”先验信息,是解决该特定问题的有效设计。短板:作为一篇音频领域的论文,在提出了新的去噪方法后,却完全缺少了基于人类听音的主观评估实验(如MUSHRA或AB测试),无法直接证明其声称的“更准确”在感知上是否成立,这对于一项以提升听觉体验为目标的工作来说,说服链存在关键缺失。 ...

2026-04-29

Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation

📄 Differentiable Grouped Feedback Delay Networks for Learning Direction and Position-Dependent Late Reverberation #空间音频 #可微分渲染 #深度学习 #信号处理 #实时处理 ✅ 7.5/10 | 前25% | #空间音频 | #可微分渲染 | #深度学习 #信号处理 学术质量 6.0/7 | 选题价值 1.5/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) 通讯作者:未说明(论文未明确指定) 作者列表: Orchisama Das(Kings College London, Dept. of Engineering, United Kingdom) Sebastian J. Schlecht(Friedrich-Alexander Universit¨at Erlangen-N¨urnberg, Multimedia Comms. and Signal Process., Germany) Gloria Dal Santo(Aalto University, Acoustics Lab, Dept. of Info. and Comms. Engineering., Finland) Zoran Cvetkovi´c(Kings College London, Dept. of Engineering, United Kingdom) 💡 毒舌点评 亮点在于巧妙地将传统可变声场渲染模型(FDN)与神经网络结合,在保持结构先验的同时实现了端到端学习和高效的多位置渲染,计算复杂度优势明显。短板则是其精度略逊于最强基线(NAF),且在房间过渡区域误差有可见增加,表明其建模复杂空间动态的能力仍有提升空间。 ...

2026-04-29

Differentiable Pulsetable Synthesis for Wind Instrument Modeling

📄 Differentiable Pulsetable Synthesis for Wind Instrument Modeling #音乐生成 #信号处理 #可微分DSP #轻量模型 #风琴乐器 ✅ 7.5/10 | 前25% | #音乐生成 | #可微分DSP | #信号处理 #轻量模型 学术质量 5.5/7 | 选题价值 1.5/2 | 复现加成 0.3 | 置信度 高 👥 作者与机构 第一作者:Simon Schwär(International Audio Laboratories Erlangen, Germany) 通讯作者:未说明 作者列表:Simon Schwär(International Audio Laboratories Erlangen, Germany)、Christian Dittmar(Fraunhofer Institute for Integrated Circuits IIS, Erlangen, Germany)、Stefan Balke(International Audio Laboratories Erlangen, Germany)、Meinard Müller(International Audio Laboratories Erlangen, Germany) 💡 毒舌点评 亮点:论文巧妙地将与风琴乐器物理发声机制高度吻合的脉冲表(Pulsetable)合成方法引入可微分框架,不仅免去了繁琐的手工脉冲提取,还通过仅60k参数的轻量模型和几分钟录音实现了高效训练,物理可解释性强。 短板:实验主要依赖客观的谐波幅度差异指标,缺少正式的主观听感评估(如MOS测试),说服力略显不足;模型的泛化能力(如对复杂演奏技巧的建模)和更广泛乐器类型的适用性尚未得到充分验证。 ...

2026-04-29

Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch

📄 Dissecting Performance Degradation in Audio Source Separation under Sampling Frequency Mismatch #音乐源分离 #信号处理 #鲁棒性 #数据增强 ✅ 7.5/10 | 前25% | #音乐源分离 | #信号处理 | #鲁棒性 #数据增强 学术质量 6.5/7 | 选题价值 1.0/2 | 复现加成 0.5 | 置信度 高 👥 作者与机构 第一作者:Kanami Imamura (东京大学,日本产业技术综合研究所(AIST)) 通讯作者:未说明 作者列表:Kanami Imamura (东京大学,AIST)、Tomohiko Nakamura (AIST)、Kohei Yatabe (东京农工大学)、Hiroshi Saruwatari (东京大学) 💡 毒舌点评 亮点:论文以一种非常“工程化”且易于复现的方式(仅在重采样核中添加高斯噪声)解决了DNN模型对采样率变化的敏感性问题,并验证了其在多个主流模型上的普适性,实用价值很高。短板:理论深度有限,对“为什么添加噪声就能恢复性能”的解释停留在“提供高频成分存在性”的层面,未能更深入地揭示DNN模型内部为何对这种统计特性(而非精确频谱内容)如此敏感。 📌 核心摘要 问题:基于DNN的音频源分离模型通常在单一采样频率下训练。当处理不同采样率的输入时,常用重采样到训练采样率的方法,但这会导致性能下降,尤其是当输入采样率低于训练采样率时。 方法:作者提出两个假设:(i) 上采样导致的高频成分缺失是性能下降的原因;(ii) 高频成分的存在性比其具体频谱内容更重要。为此,他们提出并对比了三种替代重采样方法:后重采样噪声添加(直接在信号上加噪)、噪声核重采样(在插值核上加噪)、可训练核重采样(用DNN参数化插值核)。 创新:与传统重采样方法相比,本工作系统性地分析了性能下降的原因,并提出了一种极其简单却有效的“噪声核重采样”方法。其核心创新在于发现并验证了为重采样信号补充与输入信号相关的高频成分(而非不相关的噪声) 即可有效缓解性能下降。 实验结果:在MUSDB18-HQ数据集上进行音乐源分离实验。基线模型BSRNN在8kHz输入(训练于44.1kHz)下,人声SDR从6.58dB降至3.47dB。使用噪声核重采样后,SDR恢复至6.05dB。在包括Conv-TasNet, BSRNN, Mel-RoFormer在内的多个模型上,噪声核重采样均能缓解常规重采样带来的性能下降(见表1)。可训练核重采样效果类似,而后重采样噪声添加则效果不佳甚至恶化。 实际意义:提供了一种简单、通用且有效的工程解决方案,只需在现有重采样步骤的核函数中添加微小噪声,即可提升DNN音频模型对采样率变化的鲁棒性,便于实际部署。 局限性:研究主要局限于音乐源分离任务,结论在语音增强等其他音频任务上的普适性有待验证。对于可训练核重采样,其训练增加了额外开销。论文未能从根本上提出一种与采样率无关的DNN架构。 🏗️ 模型架构 本文并未提出一个新的分离模型架构,而是专注于研究重采样这一预处理/后处理步骤对现有分离模型性能的影响。其核心架构是DNN音频源分离的通用流水线(如图1(a)所示): ...

2026-04-29